• 您现在位置:首页图片新闻2》Cell |中国松遗传密码与针叶树关键特征演化

Cell |中国松遗传密码与针叶树关键特征演化

来源: 作者: 浏览次数: 发表时间(2021-12-29)


2000年第一种植物拟南芥被全基因测序以来,尤其是近10年来,第二代和第三代测序技术的连续开发极大地促进了植物基因组学迅猛发展,目前已经累积公布了超过788种不同植物的1031个全基因组序列,其中有47个植物基因组组装到了染色体水平(Sun et al., 2021)。然而,占世界木材产量45%的针叶树门(Pinophyta)植物通常具有巨大的基因组(中位数~17 Gb),重复序列高达70-80%,给高质量基因组组装带来了巨大挑战。此外,随着基因组的膨胀,针叶树特征性的超长内含子给基因注释造成了更为严峻的困境,一直无法取得突破。

近日,江南的注册网址生物科学与技术学院钮世辉副教授团队,江南的注册网址北京市林木分子设计育种高精尖研究中心与瑞典农业大学吴夏明教授团队,联合美国密歇根理工大学卫海荣教授团队等6个国家11家单位,组装获得了油松25.4 Gb染色体级高质量基因组,并空前地利用包含760个样本的超大大规模RNA-seq序列数据进行了基因(包括外显子和内含子边界线的)精确识别与注释,在针叶树超大基因组组装与注释领域取得重大突破,大幅度刷新多项针叶树基因组组装和注解的纪录,为其它具有超大型基因组的针叶树的组装和注解开辟了一条蹊径,此研究将会极大地推动针叶树研究并使其提前进入后基因组时代,在高质量参考基因组与基因注释的基础上,该研究系统地阐明或澄清了针叶树基因组的一些特有的特征和进化过程中多个在过去20年一直悬而未决或存在争议的问题,为针叶树进化和利用研究提供了重要资源和参考价值。该研究成果以The Chinese pine genome and methylome unveil key features of conifer evolution为题,发表在最新Cell期刊上。该研究是Cell期刊创刊以来发表的第1篇针叶树以及祼子植物研究论文,必将成为该研究领域的一个重要里程碑。

1.油松基因组扩张的“单程票”和特异的进化风景| Niuet al., Cell, 2022

1)大幅度刷新祼子植物超大基因组组装质量

全球现存的~1100余种祼子植物中,已经有422个物种具有基因组大小文献纪录,其平均值与中位数均达~17 Gb。虽然当前已有15种祼子植物相继公布了基因组草图,但组装质量与被子植物相比仍存在明显差距,特别是超大基因组(>15 Gb),当前所有的组装仍极度碎片化。为突破这一困境,该研究团队利用更高效的工作流描述语言(WDL)对表现最优但运行缓慢的组装工具Canu进行了重编程,将利用大规模数据组装运算时间压缩~4倍至可接受范围(2.6 Tb~6个月).基于103X高深度Pacbio sequel II三代测序数据,经过改良的Canu最终成功地组装并获得了25.4 Gb染色体级油松基因组,连续性指标contig N502.6 Mb,是当前已公布的连续性最高的超大基因组,Scaffold N50更是将此前针叶树纪录提升了近一千倍。

2.422种祼子植物基因组大小及全基因组测序情况|Niuet al., Cell, 2022

2)在针叶树基因注释上取得重大突破

在后基因组时代,随着第三代测序技术的发展,对大多数物种来说,基因组组装已经不再是最主要障碍,而基因结构的精确识别与注释对于参考基因组的应用已经越来越被重视。最近研究表明,即便是对于研究十分深入的模式物种如拟南芥(Zhang et al., 2020)和大(Rattus norvegicus)(Ji et al., 2020),其转录组也存在严重的低估。本研究发现,仅基于通用流程,油松基因注释的完整性仅能达到~30%;后续分析发现,油松基因平均内含子长度达10kb,是被子植物平均内含子长度的20

,这些超大内含子给外显子的识别带来了极大的障碍,这也是目前针叶树基因组项目面临的最严峻挑战。最终,该团队基于包含多种组织及不同年龄和培养条件的760个样本的大规模RNA-seq数据,通过20多种注释流程的比较与多轮优化,最终将针叶树全长基因注释质量大幅度提升。在此基础上,首次对油松基因组全部2261个转录因子(TF)与758个转录调控因子(TR)进行了手工鉴定与逐一命名,并将基因名称写入注释文件供相关研究参考,为推动针叶树研究领域同源基因统一命名,通畅学术交流,起到了良好示范与引领作用。

3)破解针叶树卓越适应性的遗传基础

针叶树是北半球森林生态系统的骨干,同时也是世界林业的主导树种,我国每年进口木产品中,约有70%为针叶材。作为广泛分布的先锋树种,针叶树一直以其卓越的抗逆性而著称,然而其适应性的分子基础目前尚不清楚。

3.全球陆地植被覆盖情况|来源见图片

此前研究表明,全基因组复制事件(WGD)可能为被子植物自白垩纪中期后的快速扩张提供了重要进化动力,更高的基因冗余性使多倍体通常在逆境中表现出更强的适应性。然而,针叶树中WGD的发生频率远低于被子植物。本研究发现,虽然油松在进化中经历过2次极古老的WGD事件(>2亿年前),但并未发生近期WGD事件。不过,令人惊奇的是,针叶树的多数基因都发生了复制(91.2%),主要通过散在重复(dispersed duplicationDSD)机制进行复制,其中3,623个显著扩张基因家族在生物与非生物胁迫响应通路极显著富集。因此,基因复制带来的基因冗余性可能发挥了WGD相似的功能,赋予了针叶树更强的适应性,其中抗逆性相关基因的大量积累可能为针叶树卓越的抗逆性提供了遗传基础。

4)深入揭示了松脂合成代谢的完整通路

松脂生物合成是松类植物的重要特征。有趣的是,本研究首次把油松的汉语拼音“you song”引入英文文献,并解释了其汉语词义:“多脂的松树resin pine)”。本研究解析了针叶树中最完整的松脂合成通路,发现油松多数位点基因数量与被子植物相似,但关键限速酶发生了剧烈扩张,如拟南芥中仅存在2HMGR关键酶拷贝,但油松中存在20个拷贝。同时油松中发现了134个直接引起树脂萜类化合物多样性的TPS基因,油松也成为目前发现的存在TPS基因数目最多的物种。这些扩张基因有规律地根据功能分类成簇地聚集在染色体上,在DNA上铭刻着“油松”之名的名副其实。作为常绿植物,松树针叶通常可以在枝头宿存2-5年,有趣的是,本研究发现松树的新旧针叶可能具有不同的生理学功能,多数松脂合成通路基因仅在当年生新生针叶中高表达,表明幼嫩的新生针叶可能是针叶树松脂代谢的主要合成器官。

4.油松松脂代谢通路中关键酶的复制| Niuet al., Cell, 2022

5)构建了针叶树特异的生殖发育调控框架

与有花植物(被子植物)不同,针叶树并不能产生真正意义上的“花”,其生殖器官通常被称之为雌球花(大孢子叶球)与雄球花(小孢子叶球子)。模式植物拟南芥中目前已经鉴定了超过300个生殖发育调控基因,本研究对油松相关同源基因进行了逐一分析,发现针叶树基因组缺乏多个被子植物生殖调控网络骨干节点调控因子如FTFDFLCFLMAP1等,表明针叶树中存在特异的生殖发育调控网络。此外,通过详细的表达分析,本研究对在雌雄球花中高丰度表达的12MADS-box转录因子进行了双向一对一蛋白互作分析(12×12),构建了首张针叶树生殖发育精细蛋白互作网络,在此基础上,提出了一个比传统理论认为的BC模型要更精细的针叶树生殖器官决定模型。这些信息为针叶树生殖发育的进一步深入研究提供了蓝图。

5.油松生殖发育相关MADS-box蛋白互作网络与核心发育模型| Niuet al., Cell, 2022

6)对Science杂志提出的125个前沿科学问题的解答

2005年,Science杂志在创刊125年时,提出了125个最重要的前沿科学问题(125 Questions: What We Don’t Know),其中第66号问题是:为什么一些基因组很大,另一些则相当紧凑?(Why are some genomes really big and others quite compact?)

2021年,在更新版的125个科学问题中,Science杂志再一次发问:为什么有些基因组非常大而另一些却很小?(Why are some genomes so big and others very small?)

时隔16年对同一个问题的追问,表明这个问题如此重要但直到现在依然迷雾重重。

6.Science杂志提出的125个前沿科学问题中的第66号问题|来源见图片

针叶树超大基因组高质量组装的突破为这个问题的解答提供了重要线索。本研究从四个不同角度首次深入地阐释了这一前沿问题,包括:1)针叶树的超大基因组大在哪里?2)针叶树基因组如何耐受超剂量的可以转座扩增的入侵性序列(TE)而不崩溃?3)基因组扩张造成的超长基因是否可以正常转录?4)为什么所有的针叶树基因组都很大,但被子植物基因组却有大有小?

本研究发现油松25.4Gb基因组中基因编码区仅占0.28%,而93.2%为基因间区,6.5%为内含子区。与其它大基因组研究结果一致,油松非编辑区的扩张同样是由转座元件(TE)的复制直接造成的。

全基因组水平DNA甲基化分析发现,油松非编辑区具有目前在植物中观察到的最高的甲基化水平,并且与被子植物不同,转座元件的甲基化水平并未随着其插入时间的推移而降低,表明这些转座元件始终处于严密的表观遗传系统监控之中。这可能是针叶树基因组在超剂量入侵性序列(TE)的冲击下仍可以保持完整与功能性的重要保障。

7.内含子大小与基因组扩张显著正相关| Niuet al., Cell, 2022

有趣的是,本研究发现针叶树中基因长度与基因组大小显著相关,即随着基因组扩张,基因也变得越来越大,这主要是内含子的延长引发的外显子疏松造成的。由于大量单个基因的长度甚至超过此前针叶树基因组组装碎片的长度,因此,多数超长基因为本研究首次鉴定到。令人惊奇的是,这些超长内含子似乎并没有给臃肿基因的转录带来负面影响,与预期相反,超长基因反而倾向具有更高的表达丰度。而在被子植物中,5.8 kbT-DNA插入内含子通常会完全阻断靶基因的表达。这种在被子植物中罕见的转录调控能力可能依赖于油松中数量加倍的转录调控因子(TR)参与,同时也保障了针叶树超大基因组的功能性。

然而,为什么所有的针叶树基因组都很大,而被子植物基因组的众数值(modal value)仅为0.6 Gb呢?本研究发现,针叶树对于古老TE的清除速率要比被子植物慢得多,几乎至少要低一个数量级。虽然由于强大的DNA甲基化系统的监控,TE的活性很大程度地被抑制了,但这种迫不得已维持基因组稳定性的机制同时也“锁死”了依赖同源重组的TE清除通路。在漫长的地质时间上,当TE的平均积累速率始终略高于古老TE的清除速率,就会造成针叶树的基因组的膨胀将仅有一张单程票——一直膨胀下去。


尽管针叶树研究难度极大,但该研究团队秉承科学工匠精神,历经4年,联合6个国家,11家单位,先后组织了54场跨国线上研讨会,35位科研工作者与研究生共同参加研究,共调用410万运算核时(相当于普通4核电脑全速运算120年的计算量),基于760RNA-seq样本,历经20轮注释优化,手动注释并逐一命名3718个关键基因,构建144组蛋白一对一互作图谱,精制63张图表,为针叶树研究领域提供了蔚为壮观的庞大高质量参考数据。本研究是Cell期刊创刊以来发表的第1篇祼子植物研究论文,在针叶树研究领域漆黑坎坷的隧道尽头撕开了一道希望的口子。可以预见,这道希望之光必将指引勇者前行,在全球重要生态与用材针叶树种生物学基础研究中不断取得新的突破。

江南的注册网址生物科学与技术学院钮世辉副教授为本研究第一作者兼通讯作者(共同),江南的注册网址李江博士后、薄文浩副教授、安诺优达基因科技公司杨伟飞为本研究共同第一作者,美国密歇根理工大学卫海荣教授、北京市分子设计育种高精尖创新中心与瑞典农业大学吴夏明教授为本研究共同通讯作者,江南的注册网址李悦教授,李伟教授,林金星教授,袁同琦教授,王君教授等参与了相关研究工作,阿里云计算有限公司胡耀等工程师为组装软件的WDL重编程提供了强力支持。该研究得到了国家自然科学基金(3187065131600535)及高等学校学科创新引智计划(111Project, B13007)的支持。

钮世辉副教授与研究生

江南的注册网址生物科学与技术学院钮世辉副教授团队长期专注于针叶树高效育种技术基础研究,近年来以第一作者/通讯作者发表多项针叶树创新成果,包括构建国内首个松属树种(油松)高质量参考转录组(BMC Genomics2013);揭示油松性别调控机制(New Phytologist2016);破解积温调控针叶树散粉时间经典理论的分子机制Tree Physiology2019);阐明赤霉素与光信号耦合调控油松苗期生长机制(Plant Physiology2020);解析针叶树(油松)首个年龄通路调控模块(Plant Physiology2021);开Y2H-seq技术并构建油松年龄通路蛋白互作网络(Forestry Research2021组装国际首个松属树种(油松)染色体级参考基因组(Cell2022)等,在国际针叶树研究领域产生了广泛的影响


参考文献:

Niu S.H., Li J., Bo W.H., Yang W.F., Zuccolo A., Giacomello S., ChenX., Han F.X., Yang J.H., Song Y.T., Nie Y.M., Zhou B., Wang P.Y., Zuo Q., Zhang H., Ma J.J., Wang J., Wang L.J., Zhu Q.Y., Zhao H.H., Liu Z.M., Zhang X.M., Liu T., Pei S.R., Li Z.M., Hu Y., Yang Y.H., Li W.Z., Zan Y.J., Zhou L.H., Lin J.X., Yuan T.Q., Li W., Li Y., Wei H.R. & Wu X. The Chinese pine genome and methylome unveil key features of conifer evolution.Cell, 2022, 185(1):

Chen, X., Zhu, Q., Nie, Y., Han, F., Li, Y., Wu, H.X., and Niu, S.H. Determination of conifer age biomarker DAL1 interactome using Y2H-seq.Forestry Res, 2021, 1, 12.

Ji, X., Li, P., Fuscoe, J.C., Chen, G., Xiao, W., Shi, L., Ning, B., Liu, Z., Hong, H., and Wu, J., et al. A comprehensive rat transcriptome built from large scale RNA-seq-based annotation.Nucleic Acids Res, 2020, 48, 8320-8331.

Li, W., Liu, S., Ma, J., Liu, H., Han, F., Li, Y., and Niu, S.H. Gibberellin signaling is required for far-red light induced shoot elongation inPinus tabuliformisseedlings.Plant Physiol, 2020, 182, 658-668.

Liu, S., Ma, J., Liu, H., Guo, Y., Li, W., and Niu, S.H. An efficient system for Agrobacterium-mediated transient transformation inPinus tabuliformis.Plant Methods, 2020, 16, 52.

Ma, J., Chen, X., Song, Y., Zhang, G., Zhou, X., Que, S., Mao, F., Pervaiz, T., Lin, J., Li, Y., and Niu, S.H. MADS-box transcription factors MADS11 and DAL1 interact to mediate the vegetative-to-reproductive transition in pine.Plant Physiol, 2021, 187, 247-262.

Niu, S.H., Li, Z.X., Yuan, H.W., Chen, X.Y., Li, Y., and Li, W. Transcriptome characterisation ofPinus tabuliformisand evolution of genes in thePinusphylogeny.BMC Genomics, 2013, 14, 263.

Niu, S.H., Liu, S.W., Ma, J.J., Han, F.X., Li, Y., and Li, W. The transcriptional activity of a temperature-sensitive transcription factor module is associated with pollen shedding time in pine.Tree Physiol, 2019, 39, 1173-1186.

Niu, S.H., Yuan, H.W., Sun, X.R., Porth, I., Li, Y., El-Kassaby, Y.A., and Li, W. A transcriptomics investigation into pine reproductive organ development.New Phytol, 2016, 209, 1278-1289.

Sun, Y., Shang, L., Zhu, Q., Fan, L., and Guo, L. Twenty years of plant genome sequencing: achievements and challenges.Trends Plant Sci, 2021, DOI: 10.1016/j.tplants.2021.10.006

Zhang, S., Li, R., Zhang, L., Chen, S., Xie, M., Yang, L., Xia, Y., Foyer, C.H., Zhao, Z., and Lam, H.M. New insights intoArabidopsistranscriptome complexity revealed by direct sequencing of native RNAs.Nucleic Acids Res, 2020, 48, 7700-7711.

Copyright @ 2012-2013 江南的注册网址林木育种国家工程实验室 江南的注册网址69号信箱 联系电话:62336226
Baidu
map