日前,“人类细胞图谱”(Human Cell Atlas,简称HCA)联盟在《自然》及一系列子刊中报告了首个HCA细胞草图研究的重要进展,以专题形式同时刊发40多篇同行评审论文。HCA联盟指出,这些高度互补的研究论文代表了人们对人体的认识有了里程碑式的飞跃。(Nature. 2024年11月20日在线版)
2016年,当时任职于英国威康桑格研究所细胞生物学家Sarah Teichmann和基因泰克(Genentech)公司共同发起“人类细胞图谱“计划,旨在为人体中的每种细胞类型都建立一个生物学图谱,为了解人类健康以及诊断、检测和治疗疾病提供参考。
已有来自100多个国家地区的3600余名科学家参与HCA项目,合作描绘了来自10 000多名捐献者的1亿多个细胞的细胞图谱。利用尖端的单细胞和空间转录组学技术,研究者揭示了单个细胞内的20 000个基因有哪些处于开启状态,从而为每种细胞类型创建独一无二的“身份证”,并绘制细胞在器官和组织中的精确位置图。
此次发表的论文专题重点介绍了3个关键领域的近期发现,包括新的数据集、新的分析工具以及对特定器官或系统的综合分析,包括了骨骼的形成过程和关节炎的起源、大脑成熟过程中的变化、胎盘如何发育并为胚胎提供营养和保护、胸腺在出生前后的组织结构变化、肠道和血管细胞的新状态、肺对呼吸道病毒的反应、基因变异对疾病的影响等。
这些图谱包含了发育和老化等时间线索、不同组织结构的空间信息、还有健康和疾病的不同状态。更关键的是,研究者开发了整合数据集的新方法,用于深入挖掘数据,获得生物学和临床洞见。
《自然》期刊指出,这些进展将对未来产生诸多潜在影响,如推动人们从细胞多样性的角度更好地理解个体对治疗的不同反应、从细胞水平上研究疾病的遗传基础、开创精准医疗的新时代。
人类骨骼发育图谱
过去几年里,HCA已陆续取得多项研究成果。最新发表的文章中,一个重要的主题就是在细胞层面绘制人体组织的发育图谱。研究者创建了首张人类骨骼发育图谱,绘制出了对颅骨和身体骨骼生长至关重要的细胞类型,揭示各个部位的骨骼如何形成、软骨如何为身体骨架的发育提供支持、导致关节长期疼痛的骨关节炎是怎么出现的。
研究者发现,在早期骨细胞中,激活的某些基因可能与成年后罹患髋关节炎的风险增加有关。而早期软骨细胞中的一些基因有修复软骨的作用,它们与膝关节炎发病风险的增加更有关系。在多数情况下,由于成年人无法生长出新的细胞来修复受损的软骨,因此膝关节磨损后只能进行手术,而这些针对特定细胞的发现将有助于开发出培育骨骼和软骨细胞的有效方法,找到新的治疗方法和策略。相关数据集还可用于研究各种药物在孕期使用时是否影响骨骼生长,哪些基因突变可能导致新生儿颅骨过早闭合从而限制大脑生长。
研究者指出,这份骨骼图谱免费公开,为软骨、硬骨和关节在妊娠头三个月的发育提供了线索,首次详细阐释了相关的细胞和通路。该图集结合了尖端的空间技术和基因分析,可供全球研究界使用。
胃肠道和大脑类器官图谱
HCA项目有深入探讨特定组织器官或生物学系统的研究工作,对可用数据进行整合分析揭示疾病相关的生物学表现。新发表的文章中有两项分别对胃肠道与大脑类器官的细胞图谱进行了更新,新图谱揭示了更多此前未定义的细胞亚型,及与特定疾病相关的分子标志,这些结果为理解相关疾病以及带来全新疾病治疗思路。
一项研究整合了25个胃肠道研究数据集,在此基础上绘制出了包含超过160万个细胞的图谱,其中包括单细胞和空间组数据。这个图谱能让研究人员确定特定细胞所处的位置,及与周围环境的相互作用机制。
这些数据来源既有健康胃肠道个体,也包括患有炎症性肠病(IBD)、乳糜泻、克罗恩病等各类胃肠道疾病的患者,因而能在图谱中比较不同群体中哪些细胞存在差异。研究重点关注了肠化生(metaplasia)现象。
研究发现一些肠道炎症性疾病患者中,干细胞起源的肠道上皮细胞化生与幽门中的细胞有着转录组相似性。过去研究认为幽门化生与胃黏膜修复有关,但研究者鉴定出了一种全新的幽门腺化生细胞(MUC6+ 化生细胞),将其称为炎症上皮细胞(INFLARE),这些化生细胞可参与免疫细胞募集,包括T细胞和中性粒细胞,促进炎症发生。
INFLARE与其他参与炎症的胃肠道细胞具有遗传相似性,研究者认为IBD的炎症进一步导致了这些化生细胞的变化,进而促进更多炎症发生的恶性循环。黏膜转化为上皮细胞,增加患胃癌和食管腺癌的风险。肠道细胞图谱的数据已全部公开(gutcellatlas.org),可供全球研究者分析探讨更多有关胃肠道疾病的奥秘。
另一项研究重点整合了来自人类神经类器官的海量数据,这些类器官是当下用于研究人类大脑发育、进化和神经系统疾病的重要工具,但此前很难评估这些类器官研究与真实大脑的覆盖度,以及类器官的变异和保真度。
研究者整合了涵盖26种类器官构建流程,共36个单细胞转录组的数据集,构建了一个人类神经类器官细胞图谱,其中包含超过170万个细胞。研究还构建了一个分析管线,可以将类器官图谱与人脑发育图谱进行全面和定量分析。
借助这个新图谱,研究者可对类器官中的细胞类型进行注释,用来比较培养开始的原代细胞与类器官状态下细胞的转录组相似程度。图谱还可根据不同的对照队列来注释和比较不同的神经系统疾病模型,从中寻找与特定疾病相关的基因和通路。
研究发现不同的类器官培养模式会带来不同的结果,一种是通过形态因子的引导式培养,会让类器官朝特定脑区细胞强烈富集,但有些脑区也存在特殊,比如针对中脑的引导方案通常很难产生特异性的细胞类型,这表明相关神经干细胞对研究使用的形态因子反应不够,需重新组合形态因子的组合和使用时间;而非引导式培养则会让类器官中的细胞出现高度变异性,这对于研究大脑的演化和命运决定事件有重要作用。
人工智能助力细胞分类
由于技术演变和实验之间差异,加之生物材料有限,数据稀缺且存在噪音,多种组学数据混杂等,绘制人类细胞图谱过程中,标准化的细胞识别和分类一直是难题。人工智能技术的发展提供了新的契机,发表的文章中展示了机器学习算法在细胞识别与分类及解释细胞注释问题中的应用。
基因泰克公司的研究团队开发了一款名为SCimilarity的度量学习框架,为全身细胞的识别以及相似性查询提供了新方法。为了更充分地利用单细胞图谱,首先需要建立起描述细胞状态的模型,找到细胞相似性的度量方式。研究者认为,解决方案就是机器学习应用。
机器学习在进行图像处理时,会使用“反向图像搜索”的度量学习模型。如通过训练比较数据集中的不同面庞照片后,模型可在数据集之外找到同一个人的其他照片。基于相似思路,度量学习也可使用经过注释的RNA测序数据来训练模型,从而用于比较细胞间的相似性。
研究者开发了可以快速查询数千万个细胞图谱的SCimilarity模型。利用这款工具,研究者从超过2000万个细胞图谱中,查找出间质性肺病的巨噬细胞和成纤维细胞图谱,并在其他纤维化疾病和组织中找到相似细胞图谱,验证了方法的有效性。该研究为跨器官、系统和条件的可扩展细胞搜索提供了支持。
两项研究解决了细胞注释即根据细胞属性进行细胞分类的问题。一项研究开发了一种用于对细胞进行分类的模型——popV。在单细胞测序分析中,细胞分类是一个关键步骤。现有工具可将细胞类型标签从注释的图谱转移到未注释的数据集中,但这样的分类预测方式也存在问题,那就是难以估计最终标签的不确定性。
popV 模型是一个集成模型,即结合了现有模型的分类预测。该工具可同时生成细胞类型的标签和不确定性分数,由此增强了结果的可解释性,并简化了注释过程,为将来的研究提出了有力的支持。
另一项研究揭示了全新的深度学习模型scTab,该模型可利用单细胞RNA测序数据注释各种组织中的细胞类型。研究者引入了一种用于单细胞测序结果的数据增强方法,能克服传统机器学习在处理大规模数据集方面的局限性,实现对训练数据集的扩增,从而能在组织中进行推广。研究者指出,scTab将有助于促进细胞标签,以及细胞类型命名的标准化。
HCA联盟指出,此次发布的研究成果为建立完整的人类细胞图谱奠定了基础,展示了已有的大规模开放数据,阐释了迄今取得的方法学进展、生物学和临床洞见。
(编译 张俊熙)