分子进化的无限位点模型认为,基因组中的每个位置最多发生一次突变,通过限制可能的突变历史、单倍型和等位基因的数量,就能构成肿瘤系统发育分析的基石。因此,在检测、分析、解释突变体和研究整体突变图谱时,无限位点模型经常被提及。
在单个二倍体谱系中,由于双等位基因突变(即同一碱基在两个亲本上独立突变)发生概率较小,一直都被忽视或被认为是“技术错误”,但其确实发生在超五分之一的癌症病例中,需要在分析癌症基因组时加以考虑。
近日,英国弗朗西斯·克里克研究所的研究团队及其合作者在Nature Genetics上发表了最新的研究成果,文章题目为“Biallelic mutations in cancer genomes reveal local mutational determinants”。研究团队从全基因组泛癌症分析研究(PCAWG)的559份(21%)批量测序样本中鉴定出了18,295个双等位基因突变,并对其进行了研究。研究结果显示,双等位突变揭示了E26转化特异性(ETS)和活化T细胞核因子(NFAT)结合位点的紫外线损伤热点,以及POLE突变体和其他癌症中的超可变基序。此外,研究团队还提供了建模和检测双等位基因突变的框架,以便变体的识别。
文章发表在Nature Genetics上
研究团队首先从PCAWG肿瘤集中筛选出了包含38种不同肿瘤类型的2,658个肿瘤样本,涉及食道癌、胃癌、结直肠癌或皮肤癌等癌症。平行突变增加了变异等位基因频率(VAF),研究团队设计了neighbor resampling模型,通过将VAF与相邻杂合SNP的等位基因频率进行比较来区分局部拷贝数增益。
接下来,研究团队使用neighbor resampling模型对从肿瘤样本观察到的突变进行了重新采样,保留了其突变特征,并设计了新的计算方法对突变进行深入的筛查。最终,在559个(21%)PCAWG样本中共鉴定出了18,295个双等位基因突变(其中有12,937个平行SNV被归类为双等位基因突变)以及5,330个不同突变(图1) 。
图1.PCAWG队列中无限位点违反的模拟图谱。 来源:Nature Genetics
此外,研究团队发现能够通过活跃的突变过程分析出肿瘤内出现的双等位基因突变类型。例如,紫外线(UV)是皮肤黑色素瘤中的主要诱变因素,使肿瘤在CC和CT环境下产生几乎唯一的C>T替换,从而导致了双等位基因平行突变的积累(图2);与之相反,在食管癌DO50406中,SBS17a和SBS17b之间的相互作用导致CTT环境中的T被替代,进而产生突变体。
图2:在黑色素瘤病例中检测双等位基因突变。来源:Nature Genetics
双等位基因突变与体细胞重排无关,但其常出现在突变率较高的位点上,有些位点甚至会出现具有复发性的双等位基因事件(图3)。在黑色素瘤中,研究团队发现双等位基因和与三核苷酸匹配的单等位基因位点富集了YCTTCCGG和WTTTCC基序(图3),这两个短DNA序列对紫外线高度敏感且经常引起双等位基因突变。其中,YCTTCCGG基序能够被E26转化特异性(ETS)转录因子家族识别;WTTTCC基序则与活化T细胞核因子(NFAT)转录因子的识别序列相匹配。
研究团队对结直肠癌中双等位基因突变富集的SBS10a/b和SBS28序列同样进行了分析。分析结果显示,这些序列存在超可变现象,并且它们的出现与POLE外切酶结构域突变有关(图5)。此外,研究团队还在与SBS17 CTT相邻的序列中发现了作用于食管、胃腺癌中一些位点的超可变基序。
图3:双等位基因突变揭示了热点基序。 来源:Nature Genetics
综上所述,研究团队在21%的PCAWG病例中鉴定出了18,295个双等位基因突变,证明了无限位点假设在对大比例的肿瘤样本进行分析时会出现遗漏。如果忽视双等位基因突变带来的影响,将会对驱动因素、亚克隆聚类、时序分析以及系统发育进行错误推断。该研究结果显示,通过对双等位基因突变的检测可以分析细胞中起作用的突变过程,例如热点、超可变基序等。目前,该研究团队正努力开发新算法,以便其他科学家们也能检测并分析这些双重突变。