Nature Genetics:我们沿用20年的小鼠参考基因组,究竟错过了什么?一份T2T图谱的完整答案 |
![]() |
基因组的 拼图游戏 与最后的 纯色天空
想象一下,你正在玩一幅巨大的拼图,图案是梵高的《星空》。如果所有的拼图碎片都独一无二,比如月亮的一角、丝柏树的顶端,那么凭借颜色和形状,你总能找到它们的位置。这是基因组中大多数区域的样子,它们序列独特,容易拼接。
但现在,想象一下拼图中最棘手的部分,那片深蓝色的夜空。这里有成千上万块颜色和形状几乎一模一样的碎片。当你拿起一块深蓝色的碎片,你完全不知道它应该属于夜空的左边还是右边。这就是基因组测序中 重复序列 带来的困扰。端粒和着丝粒,正是由这种高度重复的、如同 纯色天空 般的序列构成的。
传统的测序技术,就像把整幅画撕成无数小纸片(短读长测序),然后再试图拼接回去。对于独特的区域,这很有效。但对于端粒和着丝粒,你得到的是一大堆无法区分的 深蓝色小纸片 ,根本无从下手。这就是为什么在过去的二十年里,我们使用的小鼠参考基因组 (GRCm39) 尽管历经数次更新,依然存在281个序列缺口,并且没有完整的端粒和着丝粒。它就像一张标注着 前方区域未知 的地图,而这些未知区域,恰恰是维持染色体稳定和细胞正常分裂的核心地带。
那么,研究人员是如何攻克这个难题的呢?答案在于技术的革新。他们采用了 三代测序 技术,特别是超长读长测序 (ultralong-read sequencing)。这项技术不再是将图画撕成小纸片,而是将其切成非常大的长条。一条长读长序列可以跨越数万甚至数十万个碱基,足以覆盖大部分重复区域。这就好比你得到了一条长长的、包含着部分夜空和一小块星星的拼图,你立刻就能确定它在整幅画中的大概位置。
通过结合两种强大的测序技术,既保证高准确度的PacBio HiFi测序,又利用能产生超过100kb读长的Oxford Nanopore超长测序,研究人员获得了高质量的、超长的 拼图碎片 。他们选择的不是单一品系,而是两个遗传背景差异巨大的小鼠亚种:经典的实验小鼠品系C57BL/6J (B6)和来自野生小鼠的近交系CAST/EiJ (CAST)。通过对这两个品系杂交产生的F1代胚胎干细胞进行测序,他们能够利用父母本的遗传差异,巧妙地将F1代混合的测序读长准确地分离回属于B6和CAST的两个单倍型。这个过程被称为 三联体分箱 (trio-binning) ,它确保了后续组装的精确性。
最终,经过复杂的算法拼接、打磨和校正,世界上第一个真正意义上的、从端粒到端粒 (Telomere-to-Telomere, T2T) 的完整小鼠基因组诞生了。这不再是一张残缺的草图,而是一部前所未有的、逐个碱基的生命法典。现在,我们可以真正深入那些曾经的 黑暗区域 ,去探索其中隐藏的秘密了。
填补空白:在 无人区 发现了什么新大陆?
当研究人员将新的T2T基因组与旧的GRCm39参考基因组进行比较时,其差异是惊人的。这不仅仅是填上几个小洞那么简单,而是发现了广袤的 新大陆 。
首先是数据量的巨大扩充。与GRCm39相比,新的B6 T2T基因组增加了2.13亿个碱基 (213 Mb)的新序列,而CAST T2T基因组更是增加了2.52亿个碱基 (252 Mb)。这相当于为每个基因组增添了好几条染色体的长度。一个关键问题随之而来:这些新发现的序列究竟是什么?
分析结果表明,新增序列的绝大部分是重复序列,特别是卫星DNA (satellite DNA)。在新序列中,卫星DNA的占比高达惊人的86%以上。在B6和CAST两个品系中,卫星DNA的总量相较于GRCm39参考基因组,增加了超过31倍。卫星DNA正是构成着丝粒和异染色质的主要成分。过去,我们只能在显微镜下模糊地看到它们,现在第一次能以碱基精度的分辨率阅读它们的序列,这对于理解染色体结构和功能具有里程碑式的意义。
然而,更令人兴奋的是,这些 无人区 并不仅仅是重复序列的荒漠。在这些新大陆上,研究人员发现了绿洲 517个新的蛋白质编码基因。这些基因在旧的参考基因组中完全不存在,它们像失落的宝藏一样,被隐藏在那些序列空白或组装错误的区域里。
通过功能注释,研究人员发现这些新基因并非无名之辈,它们的功能多种多样,其中许多属于跨膜信号受体 (transmembrane signal receptor)、基因特异性转录调节因子 (gene-specific transcriptional regulator)和染色质相关蛋白 (chromatin-associated protein)等关键类别。这意味着我们过去对小鼠基因功能网络的理解,可能遗漏了重要的一环。
一个生动的例子来自于小鼠1号染色体上的一个长期存在的缺口。在GRCm39中,这个缺口被估计为大约50千碱基 (kb)。但在新的B6 T2T基因组中,研究人员发现这个区域的真实长度竟达到了4.1兆碱基 (Mb),扩张了近80倍!更令人惊讶的是,在CAST品系中,这个区域的长度更是达到了7.1 Mb。
这片新大陆上居住着一个重要的免疫相关基因家族,斑点蛋白 (speckled protein, Sp) 基因家族,如Sp100、Sp110和Sp140。这些蛋白在抵抗病毒感染、调控基因表达等方面扮演着关键角色。新的T2T基因组揭示,这个区域的基因拷贝数在两个小鼠亚种之间存在巨大差异。例如,对于Sp140基因,B6品系有16个拷贝,而CAST品系则高达35个。对于Sp110基因,B6有4个拷贝,而CAST则有13个。
这种剧烈的基因拷贝数变异,很可能导致了不同小鼠品系在免疫应答能力上的显著差异。过去,如果一个与免疫相关的数量性状位点 (QTL) 定位到这个区域,研究人员会因为参考基因组的空白而束手无策。现在,有了完整的序列和精确的基因注释,他们终于可以深入探究这些拷贝数变异如何影响小鼠的健康与疾病,这为理解人类免疫系统疾病的遗传基础提供了全新的视角。
所以,填补空白不仅仅是让基因组序列变得 完整 和 好看 ,它实实在在地为我们揭示了新的生物学功能元件,解释了物种内的表型差异,并为未来的功能研究铺平了道路。
染色体的 束腰 与 护帽 :两种截然不同的设计哲学
端粒和着丝粒,一个是染色体末端的 保护帽 ,防止染色体被误认为DNA损伤而被降解或错误连接;另一个是染色体的 束腰 ,在细胞分裂时引导纺锤体的附着,确保遗传物质平均分配给子细胞。它们对基因组的稳定至关重要。旧的参考基因组几乎完全没有这些结构的信息,而新的T2T基因组则第一次让我们能够并排比较两个不同亚种的端粒和着丝粒,其结果揭示了两种截然不同的 设计哲学 。
着丝粒:大小与结构的变奏曲
小鼠的染色体属于端着丝粒型 (telocentric),意味着着丝粒非常靠近染色体的一端。着丝粒的核心区域由小卫星DNA (minor satellite)构成,其两侧是广阔的、由大卫星DNA (major satellite)组成的着丝粒周围区域 (pericentromere)。
在GRCm39中,大卫星序列只有区区99.6 kb,而小卫星序列则完全缺失。在新的T2T基因组中,这一景象被彻底改写。B6品系基因组中大卫星序列的总长度达到了200.07 Mb,小卫星序列则有13.07 Mb。而在CAST品系中,这两个数字分别是223.7 Mb和16.5 Mb。
这不仅仅是量的差异,更是分布和大小的显著不同。研究人员发现,CAST品系的着丝粒区域通常比B6品系更大。B6品系单个染色体的着丝粒区域大小范围在5-25 Mb之间,中位数为11.1 Mb。而CAST品系的范围则更广,从5-35 Mb不等,中位数为12.9 Mb。尤其是在16号染色体上,CAST品系的着丝粒区域达到了惊人的36.2 Mb,远超过B6品系中最大的着丝粒(17号染色体上的23.7 Mb)。
这种着丝粒大小和组成的差异意味着什么?着丝粒的结构直接影响其功能,包括动粒的组装和与纺锤体微管的相互作用。不同大小和结构的着丝粒,可能在细胞分裂的动力学上存在细微差别。在物种形成的过程中,着丝粒的快速进化被认为是一个重要的驱动力。T2T基因组提供的这种高分辨率视图,让我们第一次有机会去探究,在亚种分化的尺度上,着丝粒的结构变异是否以及如何影响杂交后代的生育能力,这是一个经典的进化生物学问题。
端粒相关区域:秩序与混沌的鲜明对比
如果说对着丝粒的观察已经足够颠覆,那么对端粒旁边亚端粒区域 (subtelomere)的分析,则更是上演了一场 秩序与混沌 的戏剧性对比。这个区域,被称为TLC区域,是连接末端 TTAGGG 重复序列和染色体主体臂的过渡地带。
在B6品系中,研究人员发现了一个高度保守、如同军队列阵般整齐划一的结构模式。在19条常染色体中,有16条的TLC区域都遵循着一个清晰的模板:一个高度保守的L1-LINE反转座子元件,紧接着是由TLC重复单体组成的阵列,这个阵列会被特定的LTR反转座子或简单重复序列有规律地 打断 ,最后整个结构终止于着丝粒的小卫星DNA序列。这种高度的结构一致性表明,在B6品系的进化过程中,可能存在一种协同进化的机制,维持着所有染色体末端结构的统一性。
然而,当研究人员转向CAST品系时,画面截然不同。这里的TLC区域呈现出高度的异质性,几乎每条染色体都有自己独特的结构,没有任何共享的、清晰的组织模式。B6品系那种整齐划一的 军阵 消失了,取而代之的是一个由各种重复元件随意组合而成的复杂镶嵌体,如同一个无序的、充满变化的 马赛克 。
更有趣的是,研究人员在CAST品系的TLC区域发现了一些B6品系完全没有的 新 元件。例如,一种名为CenSat的重复序列,在18条CAST染色体的TLC区域中都有出现,但在B6中却踪迹全无。这种从 极端秩序 到 极端混沌 的转变,为我们提出了一个深刻的问题:为什么两个如此接近的亚种,会在基因组最基本的结构单元上,演化出如此天差地别的策略?B6的 秩序 可能代表了一种稳定化的策略,而CAST的 混沌 则可能赋予了基因组更高的可塑性和适应潜力。这种结构上的巨大差异,可能正是两个亚种在进化道路上分道扬镳的分子印记。
破解遗传密码中的 X档案
除了端粒和着丝粒,基因组中还有一些其他区域,因其复杂的结构而长期被列为 悬案 。完整的T2T基因组为研究人员提供了前所未有的工具,去破解这些遗传学的 X档案 。
伪常染色体区 (PAR):X与Y的神秘 握手地带
在性染色体X和Y之间,存在一个被称为伪常染色体区 (Pseudoautosomal region, PAR)的小片段。在这个区域,X和Y染色体的序列是同源的,它们在雄性减数分裂时会像常染色体一样进行配对和重组。然而,这个区域富含重复序列,重组率极高(超过基因组平均水平100倍),因此极难测序和组装。
这项研究成功地组装了CAST品系的X染色体PAR区域,并将其与之前完成的B6品系PAR进行比较。结果发现,这个小小的区域里隐藏着巨大的结构差异。研究人员在小鼠PAR区域新发现了4个基因,并发现不同品系间基因和假基因的拷贝数存在差异。更重要的是,他们发现PAR与X染色体特异区之间的边界,PAB (Pseudoautosomal boundary),在不同品系中的位置是不同的。这种边界的移动是驱动性染色体进化的一个重要机制,完整的PAR序列让我们能够精确地追踪这一过程。
KRAB锌指蛋白 (KZFP) 家族:基因组的 沉默卫队
为了抑制基因组中 跳跃基因 ,转座元件 (Transposable elements, TEs)的活性,哺乳动物进化出了一支庞大的 沉默卫队 ,KRAB锌指蛋白 (KRAB zinc-finger proteins, KZFPs)家族。由于KZFP基因常常以庞大的、高度同源的基因簇形式存在,它们所在的区域也成为了组装的 老大难 。
T2T基因组的完成,彻底解决了这个问题。研究人员发现,仅仅在B6品系中,就新鉴定出了超过48个推测的KZFP基因。更重要的是,当比较B6和CAST的KZFP基因簇时,他们观察到了剧烈的结构变异,包括大段的倒位 (inversion)和拷贝数变异 (duplication)。这意味着,不同品系小鼠的 沉默卫队 ,其成员组成和部署策略是大不相同的,这为我们理解物种内表型变异的表观遗传学基础,打开了一扇全新的大门。
染色体倒位:驱动进化的 隐形之手
染色体倒位,即一段DNA片段发生了180度的翻转,是一种重要的结构变异。完整的T2T基因组让研究人员可以精确地检测它们。通过比较B6和CAST的基因组,研究人员共鉴定出133个大于1kb的倒位事件。
他们进一步探究了这些倒位是如何产生的。分析发现,倒位的断点显著富集了LINEs、LTRs等反转座子,以及节段性重复 (Segmental duplications, SDs)。一个非常有力的证据是,研究人员发现,用来形成倒位的SDs片段越长,所产生的倒位片段也越长。这项发现不仅加深了我们对基因组结构变异机制的理解,也为进化生物学家提供了一张高精度的倒位图谱。
一幅新地图,一个新纪元
这项研究,远不止是完成了一项技术壮举。它为我们描绘了一幅关于小鼠基因组的全新图景:它不再是一个静态的、线性的序列集合,而是一个远比我们想象的更加动态、更富结构多样性的生命系统。
从增加的2.13亿碱基和517个新基因,到B6与CAST在着丝粒和亚端粒结构上 秩序与混沌 的鲜明对比;从破解PAR和KZFP基因簇等 X档案 ,到揭示染色体倒位的形成机制,每一个发现都在刷新我们的认知,并提出更多、更深层次的问题。
这幅完整地图的意义,将远远超出基础研究的范畴。在现代遗传学研究中,研究人员常常使用像多样性远交系 (Diversity Outbred, DO)和协同杂交系 (Collaborative Cross, CC)这样的复杂小鼠群体,来精细定位导致疾病易感性或药物反应差异的基因位点 (QTL)。过去,当一个QTL定位到基因组的空白区域时,研究就陷入了僵局。现在,有了CAST品系的完整T2T基因组,研究人员终于可以深入这些区域,精确识别出真正的致病基因和变异。
这标志着一个新纪元的开始。未来,随着更多不同品系小鼠的T2T基因组被测序完成,我们将能够构建一个小鼠泛基因组 (mouse pangenome),它将包含这个物种几乎所有的遗传多样性。这张终极的生命蓝图,将使我们能够以前所未有的深度,去理解基因型与表型之间的复杂联系,加速人类疾病模型的构建,并最终推动医学的发展。
从一张充满空白的地图,到一个完整、精确的基因组图谱,我们不仅看到了碱基序列的延伸,更看到了科学探索的边界在不断向外拓展。而在这幅新地图的指引下,无数关于生命、进化与疾病的新大陆,正等待着我们去发现。
版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->
医药网新闻
- 相关报道
-
- Nature Genetics:我们沿用20年的小鼠参考基因组,究竟错过了什么?一份T2T图谱的完整答案 (2025-10-26)
- 情感传染!南方医科大学最新论文登上Science封面 (2025-10-26)
- Nature Biotechnology:数据基准与算法创新的双轮驱动——DeepSomatic研究定义的基因组学发现新范式 (2025-10-25)
- Nature:当饥饿遇上荷尔蒙——大脑如何权衡母爱与生存? (2025-10-25)
- 加科思药业在AACR-NCI-EORTC国际大会公布泛KRAS抑制剂(JAB-23E73)临床前数据 (2025-10-24)
- 《柳叶刀》:减肥神药,暗藏护心秘法!迄今最大规模临床试验证实,司美格鲁肽的心脏保护作用与基线肥胖和体重减轻无关,或有独特保护机制 (2025-10-24)
- Cell子刊:脂肪细胞脂解,激活上皮干细胞,促进毛发再生 (2025-10-24)
- AJPCP:线粒体钾通道调节棕色脂肪组织的产热,为新的肥胖治疗铺平道路 (2025-10-24)
- 生育力下降别只怪卵子!Science:卵巢里的神经、胶质细胞才是“隐形操控者” (2025-10-24)
- Science:泛素介导的线粒体自噬调节线粒体DNA突变的遗传 (2025-10-24)
- 视频新闻
-
- 图片新闻
-
医药网免责声明:
- 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
- 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040















