研究者联合开发可精准诊断脑瘤的AI系统
来自全球100多个实验室的近150位研究者联合开发了一个超级人工智能AI系统,基于肿瘤组织DNA甲基化,可准确区分近100种不同的中枢神经系统肿瘤,该系统还发现了一些目前指南里没有的新分类。(Nature. 2018 Mar 22, 555: 469-474. doi: 10.1038/nature26000)
该研究为尚不完善的中枢神经系统肿瘤分类提供了参考,有望改善中枢神经系统肿瘤难以诊断的状况。目前已确定中枢神经系统肿瘤有100种左右,临床表现和生物学特性有高度特异性,确诊较难。加之分子标志物较少,目前临床上核心诊断仍基于显微镜组织学检查结果。很多显微镜下表现相似的肿瘤,有不同的基因学特征,虽然FDA已批准基于组织病理学切片成像辅助诊断技术,也有很多公司尝试用AI分析这些病理图片,辅助医生诊断,但以上问题仍不能避免。近年来,WHO在分类中逐渐增加了分子指标,有一些与特定脑瘤亚型相关的基因突变和甲基化。
该研究团队认为,分析甲基化或许可另辟蹊径,甲基化特征可代表相应的细胞改变,还能用于追踪细胞来源,诊断病灶不明的肿瘤。此前有研究证实了甲基化的可靠性,小样本研究中得到重复,目前研究者旨在在这些数据基础上,探讨甲基化是否可作为统一标准的全方位的诊断和分类工具。
近年来技术上的进步,使得人们已经可以从福尔马林固定石蜡包埋的少量组织中提取DNA,这样即便没有用来开发AI系统的现成的甲基化数据训练算法,但无论实验室还是医疗中心都保存石蜡标本,于是这一庞大的研究团队开始收集石蜡标本,用Illumina公司的主流甲基化芯片450K(可分析人体45万个甲基化位点)分析了近3000份肿瘤标本的甲基化数据,几乎覆盖了目前WHO分类的所有中枢神经系统肿瘤种类。
此外,为了区分中枢神经系统肿瘤与其他肿瘤及正常脑组织之间的差异,研究团队还分析了部分间充质肿瘤、黑色素瘤、弥漫性大B细胞淋巴瘤、浆细胞瘤、6种垂体腺瘤以及健康脑组织的DNA甲基化情况。
研究者将每个样本的几十万个甲基化信息交给计算机,根据WHO分类及样本诊断结果,在有监督的计算机学习算法下,分析WHO定义每类肿瘤的甲基化特征,无监督的计算机学习算法再分析一遍,让AI系统总结出对中枢神经系统肿瘤甲基化的认知。
最终,研究团队得到了82个中枢神经系统肿瘤甲基化特征,以及9个对照样本的甲基化特征,这91个甲基化特征就是AI系统在WHO定义指导下,对中枢神经系统肿瘤的分类。研究者将这82个甲基化特征分成5类。
第一类的29个分类完全与WHO分类匹配,即AI系统基于甲基化特征划分的肿瘤类型,与WHO分类标准基础上医生诊断的类型一致,第二类29个与WHO分类中某种肿瘤下的亚型匹配。其他是部分匹配或完全不匹配。
研究者将这91个甲基化类型交给基于随机森林模型的机器学习算法,开发出一个AI决策系统,只要研究人员将从测序机器上得到的甲基化数据导入该AI系统,即可快速诊断这一肿瘤属于哪一类。为验证该AI决策系统的准确性,研究者选取了1104份组织学和分子生物学诊断的中枢神经系统肿瘤患者组织样本,同时用传统组织病理学手段和该AI系统进行诊断。
结果显示,在60.4%的样本中,AI系统与病理学诊断结果一致,15.5%的样本中,AI系统与病理学家诊断一致,且AI系统显示肿瘤还应划分入更小的亚型。还有12.6%的样本中,AI系统与病理学家诊断结果不一致,进一步分析(如基因测序)发现,其中92.8%的样本中AI系统诊断结果是对的。还有11.5%的样本,AI系统无能为力,不知如何分类,进一步分析发现,其中三分之一是罕见肿瘤,可能前期样本量不够,导致AI系统无法识别。
目前,该AI系统已免费向科研机构开放,自2016年上线以来,已有近万份个体DNA甲基化数据上传,实用性已得到千余例真实病例支持。
不过,研究者也指出,甲基化特征不能作为单一诊断标准,还需临床验证,不过作为研究工具,不失为中枢神经系统肿瘤研究的有力推手。
(编译 孙菲菲)