最新研究破解癌症全基因组密码
《自然》杂志以封面专题的形式刊载了一组超重磅研究论文,包括《自然》主刊刊发的6篇论文在内,《自然》及其旗下子刊共计发表21篇论文、3篇新闻报道及评论。
这些研究报告出自近年来备受关注癌症基因组研究,是以全球癌症基因组协会(ICGC)和癌症基因组图谱计划(TCGA)工作为基础的癌症全基因组泛癌分析(PCAWG,Pan-Cancer Analysis of Whole Genomes Consortium)。
过去,人类对癌症基因组的研究集中在功能基因,即编码蛋白质的突变后致癌的基因,而这些编码蛋白质的功能基因仅占全基因组的不到2%。剩余98%的基因中哪些变异可能与癌症有关,正是全基因组分析的意义所在,进一步探索编码区和非编码区中体细胞和种系基因变异的性质及后果,特别关注顺式调控位点、非编码RNA及大规模结构变异。
PCAWG项目主导下,来自四大洲744个科研机构科研人员对38个瘤种2658份癌症及相应正常组织样本进行了全基因组测序和整合分析,带来了关于癌症全基因组的全新认识。
PCAWG研究
数据概述
发表在《自然》杂志的6篇论文报告分别从不同角度介绍了癌症全基因组的分析结果。本次报告的研究成果揭示了大规模结构突变在癌症中所发挥的广泛作用,在基因调控区域找到了新的癌症相关突变,推断了多种肿瘤的进化等。
在第一篇文章中,研究人员概述了PCAWG数据的深度和广度。平均看,每个肿瘤基因组样本中,大约有4~5个驱动癌症发生的突变,给这些肿瘤细胞带来生存的选择性优势,有5%的样本未检出驱动性突变,提示我们在癌症驱动突变的发现中还有很多工作要做。
研究所用的肿瘤样本中,很多出现了复杂的DNA重排(17.8%为染色体重排,chromoplexy;22.3%为染色体碎裂,chromothripsis),它们导致了基因组结构的变化。
其余5篇文章中,不同小组的研究人员分别从基因组突变特征、癌症进化史、RNA改变和非编码DNA这几个方面进行了详细的讨论。
基因组突变特征
5篇文章有2篇分析了不同类型的突变特征,其中一篇是关于体细胞突变。
癌症基因组中的体细胞突变是由多个突变过程引起的,每个突变过程都会产生具有特征性的突变特征。研究人员通过对4645个全基因组和19184个外显子序列的测序,确定了49个单碱基取代,11个双碱基取代,4个簇碱基取代和17个小插入/缺失特征。
在这些突变特征中,既包含过去研究已经发现的,也有一些全新的。虽然有些突变特征的诱因没有找到,但是在这些数据的基础上建立突变特征库并确定它们在不同癌症中的作用,可以帮助研究人员更系统地了解癌症的发展。
另一篇则是关注了结构变异。结构变异也是癌症的关键突变过程,研究人员共找到了16种结构变异特征并且解析了它们在癌症中的作用。例如缺失,在各种癌症类型和患者中分布不均,在晚期复制区域富集,并且和倒位相关。
总的来说,这些突变特征的发现为理解癌症发展机制以及风险因素的诱变暴露的作用奠定了基础。
癌症进化史
关于癌症进化史的文章中,研究人员重建了38种癌症的发展史以及突变过程和驱动突变序列的演变。
通过比较不同细胞亚群里的突变,可以倒推出这些突变出现的先后顺序。分析发现,早期肿瘤发生的特征是一组受限制的驱动基因的突变,以及特定的拷贝数增加;而后期,驱动基因突变有了近4倍的多样化,基因组的不稳定性增加。在整个肿瘤发展过程中,有至少40%的肿瘤突变谱会发生显著变化。
在癌症早期,最常出现的是驱动型突变。值得注意的是,驱动基因突变的发生通常要比癌症的诊断早几年甚至几十年,驱动基因突变可在诊断数年甚至几十年前出现,这可能对癌症早期诊断或生物标志物的开发有重要意义。
时序分析表明,环境对肿瘤进展的影响随时间推移而逐渐减弱,DNA修复缺陷的频率和严重性逐渐增加,即随着时间推移,环境造成的影响会越来越小,DNA修复缺陷造成的影响则会越来越大。
RNA改变
在癌症研究中,针对RNA改变的研究相对较欠缺,这次的新研究利用庞大的样本量为我们提供了迄今为止最全面的数据。
研究人员分析了1188个转录组的数据,发现拷贝数变异仍是癌细胞中驱动基因表达变化的主要因素,但数百个单核苷酸突变也会影响到周围的基因表达。此外,癌细胞里的一些突变还会引起转录信息的变化,如产生新的蛋白编码序列等。
通过匹配的全基因组测序,研究人员将几类RNA改变(包括过表达和基因融合等)与DNA改变功能性地关联在一起,共确定了649个影响基因表达的体细胞单核苷酸变异和1900个与体细胞突变有关的剪切改变。
此外,高达82%的基因融合和结构变异有关,包括75种新的“桥接”融合(两个基因中插入第三个基因并发生融合)。
研究人员观察到,转录组改变的特征在不同癌症中是不同的,且与DNA突变特征的变化相关。这种RNA改变为了解与癌症相关的功能性基因和机制提供了新的可能。
非编码DNA
研究人员尝试从非编码DNA里寻找癌症的驱动因素,发现了一些全新的癌症驱动突变,如抑癌基因TP53的一段非编码区里,反复出现了一种突变。而编码端粒酶的基因TERT的非编码区,也有会导致其过度表达的突变,这或许会促进癌细胞异常分裂。
由于准确检测非编码区突变比编码区突变难度更大,因此研究人员开发了两种新的发现驱动突变的方法。
研究人员检测发现了一些新的突变,包括TP53的5’端非编码区,NFKBIZ和TOB1的3’端非翻译区的点突变等,同时,也对过去发现的个别突变提出了质疑,例如NEAT1和MALAT1。
研究人员还发现端粒酶基因TERT的非编码区中相对频繁的突变导致端粒酶的过表达,会促进癌细胞的分裂。
虽然驱动癌症的点突变和结构变异在非编码基因和调控序列中发生的频率比编码基因和序列中要低,但随着更大的基因组分析,还会有很多非编码DNA突变被发现。
线粒体与癌症
线粒体是人体内的能量工厂,由于能量代谢改变是癌症的普遍特征,因此一直以来,很多科学家怀疑线粒体也参与到癌症的发病过程中。
此外,线粒体在细胞的生物合成、信号传导、分化、凋亡、维持细胞周期和细胞生长的控制等方面也起重要的作用,上述过程也都与癌症发生有内在联系。
虽然之前也有研究探索了线粒体与癌症的关系,但未充分探索线粒体基因组和核基因组之间的相互作用,以及线粒体改变的生物学意义。
PCAWG为上述研究提供了充足的数据。MD Anderson癌症中心的研究人员,从多个方面分析了线粒体基因组数据和相关的RNA测序数据。
研究人员绘制了线粒体基因突变图谱,还确定了几个超突变病例。他们发现,线粒体基因的截断突变在肾癌、结直肠癌和甲状腺癌中非常多,提示这些基因信号的改变有致癌作用。
研究人员还发现,线粒体DNA存在频繁的细胞核转移,其中一些线粒体DNA片段会破坏治疗靶基因。而且,线粒体拷贝数在癌症内部和之间差异很大,并且与一些临床变量相关。
共表达分析凸显了线粒体基因在氧化磷酸化、DNA修复和细胞周期中的功能,而且还发现它们与临床上可干预基因位点之间存在联系。该研究为线粒体生物学意义转化成临床应用奠定了基础。
拓扑相关结构域与癌症
人类体内的DNA是以特定的三维结构折叠在一起的。早有研究发现,具有相同拓扑相关结构域(TAD)的基因,表现出相似的表达水平和组蛋白修饰。且区分不同结构域的边界,对于维持上述特点的稳定性至关重要。
实际上,学界已经发现,在人类癌症中,这种结构域破坏,会导致基因表达的失调。不过结构域的在癌症中被破坏的程度,仍了解较少。PCAWG数据库提供了一个研究此类问题的好机会。
MD Anderson癌症中心等研究机构的研究人员分析了PCAWG数据库中的288457个结构变异,以了解结构变异在拓扑相关结构域中的分布,以及对拓扑相关结构域的影响。
分析发现,结构变异可导致离得很远的拓扑相关结构域发生融合,或发生复杂的重排,最终破坏癌症基因组染色质折叠图谱。此外,只有14%的结构域边界缺失,导致附近基因表达水平变化超过2倍。
该研究探索了体细胞结构变异在不同类型肿瘤中的分布,及其在染色体折叠和基因调控中的作用。
LINE-1逆转录转座子与癌症
LINE-1逆转录转座子是人类基因组中一个广泛存在的重复元件,占整个DNA的17%。可通过转录和逆转录的转座过程产生新的DNA拷贝,插入到基因组不同的位置。
显然,LINE-1转座会影响基因组中其他基因的表达和调控,进而影响基因组的稳定性。在约一半的癌症中发现了逆转录转座子的这种破坏行为。不过LINE-1的插入对癌症的影响,还了解较少。
英国威康桑格研究所等机构的研究人员,以PCAWG数据库为基础,分析了癌细胞的逆转录模式和机制。研究人员发现了19166个获得性逆转录事件,影响了35%的肿瘤样本。
LINE-1插入是食管腺癌中最常见的结构变异类型,是头颈肿瘤和直肠癌中第二常见的体细胞结构变异类型。且异常的LINE-1插入甚至可导致染色体上数百万碱基对的DNA片段被删除,有些抑癌基因就在被删除的DNA片段之中。
此外,LINE-1插入还会诱发复杂的DNA片段异位和大规模的重复,甚至还会导致癌基因表达水平大幅上升。
这些发现阐明了LINE-1逆转录转座子在重塑癌症基因组中的作用,对肿瘤的发展存在潜在的影响。
病毒感染与癌症
世卫组织估计,15.4%的癌症归因于感染,9.9%的癌症与病毒有关。可见病毒感染与癌症之间存在密切关系。在癌症相关的病毒中,最为人们熟知的是HPV、HBV、HCV和EBV四种。
德国癌症研究中心的研究人员在PCAWG数据库中,发现382个基因组数据和68个转录组数据集中存在病毒的踪迹。他们发现,在发现的病毒数据集之中,EBV、HBV和HPV(尤其HPV16和HPV18)的出现频率较高。
研究人员还发现,在头颈肿瘤中,HPV的存在与驱动基因突变之间存在显著的排他性;而HPV与APOBEC(有广谱的抗病毒作用)突变间的相关性,意味着抗病毒能力的减弱,是宫颈癌、膀胱癌和头颈癌的驱动因素。
HBV、HPV16、HPV18和AAV2病毒的整合,与基因组拷贝数的局部变异有关。在TERT启动子处发生的病毒整合,与端粒酶表达水平高有关,意味着这个肿瘤驱动基因被激活。高水平的内源性逆转录病毒(ERV1)表达,与肾癌患者的预后差有关。
该研究提示,病毒感染与癌症的关系值得深入研究。
染色体碎裂与癌症
在染色体的复制过程中,有时会出现一种被科学家称为染色体碎裂的灾难性大规模基因重组。染色体碎裂的细胞一般会死亡,若不幸存活下来,就会引发癌症。
虽然近年来科学家对染色体碎裂的机制有了一些研究,但对于染色体碎裂的成因、出现频率及对细胞的影响还知之甚少。
哈佛大学路德维希中心等研究机构的研究人员,基于PCAWG数据库,对癌症中的染色体碎裂事件进行了深入研究。
研究发现,染色体碎裂事件普遍存在于所有类型肿瘤中。在几种类型肿瘤中,出现频率甚至超过50%。从功能上看,染色体碎裂有助于癌基因的扩增,还会导致DNA错配修复相关基因失活。
该研究表明,染色体碎裂是驱动癌症基因组进化的重要过程。
云计算与癌症基因组数据分析
欧洲分子生物学实验室(EMBL)发在《自然·生物技术》的研究成果,介绍了一种名为Butler的计算工具,它可以帮助科学家在公有云和学术云上开展大规模的基因组分析。
Butler包括创新的异常检测和自我修复功能,与当前方法相比,该方法将数据处理和分析的效率提高了43%。通过Butler,可以高效、统一地处理PCAWG项目中的725TB癌症基因组数据。
结语
数千位科学家合力带来了这些突破,让我们对癌症基因组有了全新的认识。正如一篇报道中指出的,我们目前还比较缺乏临床上与患者治疗和预后相关的数据,这些数据有助于我们更好地了解这些基因组信息与治疗的相关性。
如今,科研的方式已经与几十年前大不相同,全球的科学家们通过云技术分享,数据的获取不再是难题。《自然》杂志评论中的数据显示,2019年,共有来自146个国家和地区的83000余名研究者从欧洲信息学研究所获取DNA数据,总下载量达到6.7PB,相当于约2300亿个完整的人类基因组。这样的共享还会随着数据的可及性而增加。
当前科研界要考虑的已经不再仅仅是基因数据本身,还包括与其匹配的临床信息的收集、基因组信息与医疗保健系统的整合、参与者的隐私保护、国际统一标准的建立等这些当下需要思考解决的问题。
(编译 余新)