T2T(Telomere-to-Telomere)基因组是指结合多种测序技术完成的高准确性、高连续性和高完整性的从端粒到端粒的基因组组装,有利于对基因组中高度重复序列区域进行深入研究,帮助解析着丝粒和端粒等复杂结构的变异特征和进化模式。
2021年,在人类基因组序列草图发布20周年之际,世界T2T联盟公布了最新的人类基因组完整序列CHM13v1.1,其中不仅包含所有尚未解析的序列,也同时纠正了原本的组装错误,成为目前最完整的人类基因组序列[1]。
由于二倍体物种的同源染色体相似性高,基因组组装通常并不区分同源染色体的差异,只组装成为一个拥有一套亲本遗传信息混合的基因组。但这种组装方式可能导致基因注释的不精确,也不利于部分区分亲本遗传信息的相关生物学研究。因此,获得来自亲本的两套单倍型基因组将为深入挖掘等位基因变异,了解物种亲缘关系及进化历史提供了重要的参考信息。
物种的性染色体往往携带了关键的性别决定遗传信息,决定了两性之间截然不同的生殖器官发育命运和成年个体的外形差异,展现出许多与常染色体截然不同的基因组特点和演化模式, 然而由于性染色体的高度重复序列以及异染色质化使得组装困难重重。
近年来,随着技术的突破,人们对获得更高质量基因组提出了的新要求。
目前,以Pacific Biosciences (PacBio) HiFi和Oxford Nanopore Technologies (ONT)为代表的长读长测序技术克服了Sanger测序的通量低及短读长测序技术的读长短的缺陷,结合组装算法的不断优化为基因组的De novo组装提供了极大便利。越来越多的物种基因组复杂区域导致的拼装缺口、结构复杂的性染色体及多倍体组装中单倍体基因组得到解析,这些发现关乎疾病发生和物种进化等多种层面。
因此,构建包含T2T、单倍型信息和性染色体信息的“完美参考基因组”已成为基因组学的研究潮流。
完美参考基因组的研究策略
首先利用DNBSEQ短读长测序技术完成待测基因组的Survey、PacBio HiFi或ONT ultra-long测序完成基因组的初步组装,最后通过结合Hi-C技术获得基因在染色体上的相对位置信息完成基因组染色体水平的组装,构建T2T参考基因组序列。随后,结合Hi-C数据和来自亲本的短读长测序数据构建单倍型基因组。
表1 完美参考基因组推荐研究策略
01
完美无“缺”的T2T基因组
T2T基因组主要利用测序准确度较高的PacBio HiFi reads或ONT ultra-long reads完成基因组的初步组装,通过结合Hi-C技术获得基因在染色体上的相对位置信息完成基因组染色体水平的组装,对于复杂区域进行手动调节,最终获得T2T参考基因组序列。
图1 物种De novo T2T基因组组装流程
案例1:人类基因组端粒到端粒完成图发布
着丝粒区域卫星阵列、端粒、基因组大段重复以及rRNA区域长期以来都处于序列不明或未知的状态,而其中却包含了许多与疾病、衰老和进化等生命进程相关的重要遗传信息。因此,T2T联盟的科研人员先后组装发表了首个人类X染色体完成图、常染色体完成图、人类基因组完成图等,相关成果刊登在Nature等期刊上。
在X染色体的完成图中,研究人员利用测序深度为50X的ONT ultra-long数据结合测序深度为70X的PacBio HiFi数据对基因组进行初步组装,随后利用10x Genomics和Bionano Genomics数据对组装的基因组错误进行纠正[2]。最终获得了NG50 = 75Mb的X染色体完成图,重建了~3.1 Mb的着丝粒卫星DNA阵列(DXZ1),并填补了GRCh38参考基因组上存在的29个缺口。
人类8号染色体的组装与X染色体组装方法有所差异,研究人员利用了ONT ultra-long和PacBio HiFi数据的各自优点填补了8号染色体上的5个空白区域[3]。与此同时,也确认了着丝粒区域的甲基化排列模式,完成了黑猩猩、猩猩和猕猴8号同源染色体着丝粒的高质量草图组装,解析了着丝粒区域的进化模式。
最终,T2T联盟直接采用兼具高精准度和长读长的PacBio HiFi数据完成了人类全部基因组的端粒到端粒组装,再利用ONT数据及其他技术进行辅助组装[1]。在这张人类基因组完成图中,研究者新增加或修正了238Mb的序列,其中182Mb是全新的序列,并注释到2,226个新基因。
接下来,人类泛基因组参考联盟 (Human Pangenome Reference Consortium) 则会通过完成超过300个来自不同种族的个体基因组测序,以达到了解不同种族与个体基因多样性的目的,为未来的精准医学目标提供更大助力。
图2 基于HiFi数据组装的人类CHM13 genome
案例2:拟南芥基因组完成图揭示着丝粒组成及进化机制
研究人员首先利用ONT ultra-long完成拟南芥染色体的初步组装,随后利用PacBio HiFi数据对初步组装基因组进行scaffold水平拼接以及矫正,最终的基因组版本命名为Col-GEN v1.2,其中包含5个着丝粒的拟南芥近完成图:1,3和5号染色体包含端粒到端粒的完整序列,2号和4号仍然在短臂的45s rDNA区域和相邻的端粒区域未组装完成[4]。
拟南芥的着丝粒中存在数百万个碱基组成的卫星阵列,其中单个卫星重复序列长度为180bp左右,因此这些序列被称为CEN180。通过鉴定着丝粒上的CEN180序列,研究者发现不同染色体上CEN180序列存在显著差异,而同一条染色体内的CEN180序列呈现均质化趋势。拟南芥5号染色体着丝粒的CEN180序列含量很低(仅为其它着丝粒的12%-22%),进一步研究发现该区域逆转录转座子ATHILA入侵促进了CEN180序列的进化以及表观遗传修饰的组织模式改变,进而影响了拟南芥5号染色体着丝粒内CEN180序列的均质化过程。
最终,研究人员提出了CEN180序列基于重组的均质化过程模型:拟南芥着丝粒重复区域是一个均质化过程,但是逆转录转座子ATHILA的入侵造成了CEN180序列的多样化,二者共同推动了其着丝粒结构和功能的进化过程。
图3 拟南芥基因组完成图
02
单倍型基因组
助力物种驯化改良研究
二倍体物种的同源染色体相似度较高,组装过程中通常由于测序读长较短并不能很好区分同源染色体的差异,但是长读长测序技术能够帮助我们鉴定出同源染色体之间的细微差异,结合其他测序数据的辅助组装,可以完成对二倍体的单倍体分型工作,鉴定出来自亲本之间的染色体差异,进一步揭示物种的古老起源及驯化过程。
图4 二倍体单倍型基因组分析流程
案例1:狨猴二倍体基因组揭示Y染色体的特殊演化区域
狨猴(Callithrix jacchus)是原产地在南美的小型灵长类哺乳动物,成年的狨猴只有手掌大小,为医学研究常用的模式动物。华大生命科学研究院生物多样性基因组研究团队利用狨猴家系的长读长及短读长测序数据,独立组装出分别来自亲本的两套高质量单倍型基因组,发表在国际顶级学术期刊Nature上[5]。
研究发现与人类相比,狨猴的Y染色体多出一段雄性特异性序列。同时,来自父本的种系突变是来自母本的两倍,可能与卵细胞和精子形成过程中细胞发生复制分裂的次数不同有关。父母本基因组序列的比较刷新了人们对于父母本之间遗传信息差异的认识,并通过分析生长发育相关基因,展示了狨猴作为医学模式物种的遗传学基础。相关的研究结果可以应用到神经退行性疾病、生殖生物学、药物动力学感染性疾病等多方向的研究中。
图5 二倍体狨猴基因组变异分布及杂合性模式图
案例2:荔枝两个不同单倍型基因组表明早晚熟栽培品种各自独立驯化
近期,华南农业大学等国内外多家合作单位利用长读长测序技术(PacBio HiFi),结合Hi-C、10x Genomics和短读长测序技术等最新的基因组测序数据,通过优化基因组组装策略,完成“妃子笑”荔枝基因组假染色体水平的组装,同时完成基因组编码基因的结构注释,为未来荔枝功能基因组研究提供重要的参考[6]。
更重要的是,他们通过组装两套不同的单倍型基因组证实了“妃子笑”荔枝基因组的高杂合性,并且通过利用72份荔枝资源重测序数据,提出了荔枝“一个起源中心、两个独立驯化事件”假说:云南作为荔枝的起源中心,人工栽培驯化后培育出特早熟荔枝品种;而云南的野生荔枝沿西江流域向东和向南传播,到海南岛后在环境变化影响下发生独立的驯化事件,产生了晚熟性状。
图6 荔枝基因组的组装、组成和进化
案例3:苹果单倍型基因组研究揭示起源及驯化历史
美国康奈尔大学联合USDA-ARS植物遗传资源研究中心通过对苹果栽培种(Malus domesticacv. Gala)及其主要的祖先野生种M. sieversii和M. sylvestris不同梯度的短读长测序及长读长测序(10x Genomics、PacBio HiFi),获得了高质量的苹果的单倍型基因组,初步实现了非家系依赖的单倍型基因组组装的简化[7]。
值得注意的是,单倍型基因组不仅可以帮助解析苹果基因组的来源,同时有利于研究苹果果实发育过程中等位基因的特异性表达。该文章中挖掘出多个与苹果果实发育和品质相关的基因,利用群体结构和种群历史分析揭示了苹果的种群进化过程。该项研究为深入研究苹果驯化及遗传育种提供精准而有价值的基因组数据。
图7 野生祖先对栽培苹果的遗传贡献及彼此差异
03
性染色体组装
揭示性染色体演化模式多样性
在基因组分析过程中,性染色体常常受到忽视。这往往源于性染色体(尤其Y染色体)固有的组装难度,Y染色体具有高度的重复区域以及大型的重复片段,存在大范围的异染色质。
因此,截止目前,Y染色体被正确鉴定的物种屈指可数。而长读长测序技术为解析复杂的性染色体序列并进行性染色体演化模式的相关研究提供了机遇。
案例1:鸭嘴兽性染色体组装解析祖先环状性染色体演化模式
一般动植物只有一对性染色体,然而鸭嘴兽融合了鸟类、哺乳类和爬行类的特点,拥有五对性染色体,且其性染色体在减数分裂过程中并非两两配对,而是通过首尾相接的配对模式形成链式结构(“meiotic chain”)。张国捷、Frank Grutzner和周琦三方组成的国际合作团队利用最新的长读长PacBio、10x Genomics、BioNano和Hi-C数据,并结合大量的原位杂交实验验证,从头组装完成了新的雄性的鸭嘴兽染色体水平 的基因组,其中包含五对XY染色体的序列。[8]。
研究发现,链式结构的最后一条Y染色体Y5并非和与其配对的X染色体X5序列相近,而是与染色体链的第一条X染色体X1的序列同源。这一结果证实鸭嘴兽的性染色体祖先状态为由十条染色体形成的环状结构,因为性染色体演化过程中的重组抑制,最终形成了今天的链式结构。
图8 鸭嘴兽性染色体
案例2:大刺鳅性染色体组装揭示性染色体近着丝粒起源
与哺乳类不同,很多低等脊椎动物的Y染色体没有发生退化,具有更近期的起源。这为研究脊椎动物Y染色体退化的早期阶段提供了重要窗口。大刺鳅隶属于合鳃目,具有性逆转的现象,其Y染色体具有更早期的起源,这为研究Y染色体退化的早期阶段提供了标本。
福建省淡水水产研究所薛凌展团队及合作团队利用长读长测序PacBio HiFi、Hi-C辅助组装以及RNA-Seq等多组学测序技术,从染色体层面解析了大刺鳅基因组,对性染色体的起源及重组抑制进行了相关研究,构建了鱼类Y染色体完整图谱,提出动物性染色体近着丝粒起源的假说,为性染色体起源的研究提供了新线索[9]。
图9 大刺鳅性染色体组装流程及结果
华大基因作为人类基因组计划参与者和全球领先的科学技术服务机构,主导及参与过多种动植物基因组De novo组装和全基因组重测序,在相关数据的获取及分析方面积累了大量经验,为人类疾病研究、物种遗传育种和进化分析提供了宝贵的参考数据。
近些年,华大基因也致力于提高长读长测序技术的应用和研发,目前,已利用ONT ultra-long、PacBio HiFi等多种长读长测序技术结合Hi-C等三维空间测序技术共同分析,完成多个基因组的De novo组装。华大基因期盼与更多的合作伙伴共同描绘更多物种的基因组完成图,通过解读基因序列揭示人类和自然的精彩奥秘。