您的位置:医药网首页 > 医药资讯 > 医药政策法规 > Nature Methods:结构为桥,语境为王——Spacedust在de novo基因簇发现中的新范式

Nature Methods:结构为桥,语境为王——Spacedust在de novo基因簇发现中的新范式

物以类聚,基因成 区 :一个古老而深刻的演化智慧

在探讨Spacedust的巧妙之处前,我们先来看看一个在原核生物(如细菌)和病毒世界中普遍存在的现象:基因簇(gene clusters)。这并非简单的基因堆砌,而是一种深刻的演化智慧。想象一个高效的工厂车间,为了完成一项复杂的装配任务,比如制造一辆汽车,所有相关的零件、工具和机器都会被有序地安排在同一条流水线上。从底盘、引擎到车门、轮胎,每个工位各司其职,协同作业。

微生物的基因组在某种程度上也遵循着类似的逻辑。那些共同参与同一条生物学通路或构成一个复杂分子机器的基因,在演化过程中倾向于在物理位置上彼此靠近,形成功能相关的基因簇。这种 基因邻里关系 (gene neighborhood)的保守性,背后有其坚实的演化驱动力。

首先,是为了协同调控(co-regulation)。在细菌中,许多基因簇以操纵子(operon)的形式存在,它们共享同一个 开关 (启动子),可以被一次性地 开启 或 关闭 。当环境需要某种功能时,比如分解一种特定的糖类,与此相关的所有 工具 基因就能被同时激活,实现快速、高效的响应,避免了能源和资源的浪费。

其次,是为了基因的 打包 传播。微生物世界中存在着一种名为 水平基因转移 (horizontal gene transfer)的现象,基因可以在不同物种间进行传递,就像交换工具箱一样。如果一个 工具箱 (基因簇)包含了制造某种或抵御病毒的全套 设备 ,那么将它们打包在一起,一次性转移给其他细菌,显然比零散地、一件件地转移要成功得多。这最大化了功能模块整体转移的几率,也最小化了在基因重组过程中被拆散的风险。

因此, 基因因功能而聚集 的现象,为我们提供了一个强有力的推断原则,即 关联有罪 (guilt by association)原则。如果一个功能未知的基因,总是和一群功能已知的、参与光合作用的基因稳定地 居住 在一起,那么我们就有充分的理由怀疑,这个神秘的基因很可能也是光合作用这条 流水线 上的一员。这正是所有利用基因簇进行功能预测的工具所依赖的核心思想。

远亲难认:当序列相似性成为 脸盲

既然 基因邻里关系 如此重要,那么发现这些基因簇不就行了吗?事情远没有那么简单。传统的基因功能注释,主要依赖于同源推断(homology inference)。它的逻辑很简单:如果一个未知基因A的序列,与一个功能已知的基因B的序列非常相似,我们就可以推断A和B是同源基因,功能也可能相同。这就像通过相貌来认亲,长得像,很可能就是一家人。像BLAST这样的工具,就是通过序列比对来寻找 长得像 的基因。

然而,这条路很快就走到了一个 黄昏地带 (twilight zone)。当两个蛋白质的氨基酸序列一致性低于20%-30%时,序列比对工具就变得 脸盲 ,很难判断它们是否是 远亲 。演化的长河会不断冲刷基因序列,使其发生改变,但蛋白质为了维持其核心功能,其三维空间结构往往比一级序列要保守得多。

想象两种不同品牌的开瓶器,一个是不锈钢的,一个是塑料的,颜色、材质(相当于序列)千差万别,但它们都拥有能够打开瓶盖的螺旋结构和力臂(相当于三维结构)。如果你只看材质和颜色,可能认不出它们是同类工具;但只要看到它们的立体形状,其功能便一目了然。

过去的许多基因簇发现工具,正是受困于这种基于序列的 脸盲症 。它们依赖BLAST或DIAMOND这类工具寻找同源基因,其敏感性严重不足,只能识别出那些亲缘关系很近的物种间保守的基因簇。对于那些经历了漫长演化、序列差异巨大的 远亲 基因簇,它们便束手无策。此外,一些工具还要求基因簇的排列顺序必须严格一致(即共线性),这在真实的演化过程中过于理想化,因为基因的插入、缺失和重排时有发生。这些局限性,导致我们对微生物基因组中保守基因簇的认知,仍然是一幅模糊不清的地图。

戴上 结构 眼镜:Spacedust的破局之道

Spacedust的出现,正是为了打破这种局面。它带来的第一个革命性武器,就是一副能看透序列迷雾的 3D结构眼镜 Foldseek工具。

Foldseek是一个快速且灵敏的蛋白质结构比对工具。它不再纠结于氨基酸序列的相似度,而是直接比较蛋白质的(预测)三维结构。得益于AlphaFold2等AI模型的突破,我们现在可以为几乎所有蛋白质地预测其三维结构。Spacedust利用这一点,将基因的比较从一维的字母串,提升到了三维的立体空间。这极大地增强了识别远缘同源蛋白的能力,那些在序列上早已面目全非的 远亲 ,在结构上却可能依然 神似 ,从而被Spacedust精准地识别出来。这相当于为基因簇的搜寻工作,换上了一台更高分辨率的探测器。

然而,仅仅找到同源基因还不够。如何将这些散落的 点 (同源基因)连接成有意义的 星座 (基因簇)?这里,Spacedust展示了它的第二个巧妙设计:一种灵活且基于概率的聚类算法。

它没有采用僵化的 必须完全共线 规则,而是引入了两个新颖的学P值来评估基因簇的保守性:

1.聚类P值(clustering P value):这个值评估的是,在一片随机的基因海洋中,偶然发现这样一小群同源基因紧密聚集在一起的概率有多大。概率越小,说明这种聚集越不可能是偶然,其功能相关的可能性就越大。

2.排序P值(ordering P value):这个值评估的是,在这群聚集的基因中,它们的相对排列顺序和转录方向(链方向)也恰好保守的概率。这个值允许部分基因的顺序发生颠倒或插入,从而能够识别出那些 部分保守 的基因簇。

想象一下,一个经典的食谱,列出了面粉、鸡蛋、糖和黄油。在大多数厨房里,它们可能都放在烘焙区。Spacedust的聚类P值就在寻找这个 烘焙区 。而排序P值则关心这些食材在架子上的摆放顺序。也许在一些厨房里,糖和黄油的位置换了一下,或者中间多了一瓶香草精,但只要大体顺序还在,Spacedust的排序P值就能识别出这仍然是遵循同一个 食谱 的布局。

通过将这两个P值结合,Spacedust为每一个潜在的基因簇打出一个综合的 保守性得分 ,并利用这个得分来不断优化聚类的边界,直到找到最显著的保守核心。这种设计,使得Spacedust既能像侦探一样敏锐地发现线索,又能像法官一样审慎地评估证据,最终圈定出那些在演化长河中被反复验证、真正有意义的基因簇。

横扫1308个属的细菌 户口本 :Spacedust交出的惊人答卷

理论上的巧妙,必须通过实践来检验。研究人员对一个包含1308个不同细菌属的代表性基因组构成的数据库进行了全面的 普查 。这个数据库总共含有420万个蛋白质编码基因,是一个规模庞大且物种多样的测试场。Spacedust在这里进行了一场 全体对全体 (all-versus-all)的地毯式搜索,即每个基因组都与其他所有基因组进行了比较。

结果是惊人的。Spacedust总别出了72,843个非冗余的保守基因簇。更重要的是,这些基因簇覆盖了数据集中58%的基因。这意味着,超过一半的细菌基因并非 独行侠 ,而是生活在有组织的 社区 中。

而最令人振奋的发现,来自于对那些功能未知的 暗物质 基因的分析。在数据集中,大约有106万个基因被注释为 功能未知 或 假想蛋白 。经过Spacedust的分析,其中35%的基因被成功地归入到了某个保守基因簇中。这是一个决定性的突破。这些基因虽然自身的身份依然成谜,但通过它们所在的 社区 ,我们获得了推断其功能的关键线索。它们不再是孤立的、漂浮在基因组中的 幽灵 ,而是被赋予了具体的 功能语境 。

Spacedust还揭示了一个规律:一个基因簇在越多的物种间保守,其内部基因功能相关的可能性就越高。例如,当一个基因对只在两个基因组间保守时,它们属于同一条KEGG代谢通路的精确度约为50%,这其中包含了不少 滥竽充数 的 搭便车 基因。但是,当这个基因对在超过50个基因组中都被发现保守时,其功能相关的精确度飙升至80%以上。这为我们提供了一个可靠性标尺:广泛的保守性,是功能关联的有力证明。

全能选手 还是 样样松 ?Spacedust与专业工具的正面交锋

一个通用的基因簇发现工具,能否与那些为特定目标量身打造的 专业选手 相抗衡?为了回答这个问题,研究人员让Spacedust在两个热门领域:抗病毒防御系统和生物合成基因簇,与顶级专业工具进行了正面比较。

第一场对决:抗病毒防御系统(antiviral defense systems)

细菌为了抵御噬菌体等病毒的入侵,演化出了一系列复杂的防御武器,如CRISPR-Cas系统。PADLOC是识别这类防御系统的权威专业工具。研究人员首先用PADLOC在1308个基因组中找到了5,520个多基因的防御系统集群。随后,他们用Spacedust进行盲测。结果显示,Spacedust成功地找回了其中95% (5,255个) 的防御系统,其中93%是完全匹配的。这表明,作为一个从零开始、没有任何先验知识的通用工具,Spacedust的发现能力几乎与专业工具无异。

第二场对决:生物合成基因簇(Biosynthetic Gene Clusters, BGCs)

BGCs是微生物的 化工厂 ,负责生产抗生素、物等各种具有重要药用价值的次级代谢产物,是药物发现的宝库。研究人员选取了三个顶尖的BGC预测工具:ClusterFinder、DeepBGC和GECCO,与Spacedust在9个被手动注释过BGCs的基因组上进行比较。评估指标是F1分数,它综合了预测的准确率(精确度)和覆盖率(召回率)。

结果再次令人印象深刻。Spacedust的平均F1分数达到了0.61,显著优于其他三个专业工具,后者的F1分数分别为0.44 (ClusterFinder)、0.39 (DeepBGC)和0.43 (GECCO)。Spacedust的优势在于更高的精确度和更高的召回率,它既能更准地圈定BGC的边界,也能发现更多被其他工具遗漏的BGCs。

这两场对决有力地证明了,Spacedust并非 样样通,样样松 的平庸之辈,而是一个基础扎实、能力全面的 全能冠军 。它的高灵敏度和高准确性,使其在各种专门化的基因簇发现任务中,都具备强大的竞争力。

蓝藻基因组中的 寻宝游戏 :从光合作用到神秘激酶

为了更直观地展示Spacedust的应用,让我们跟随研究人员的脚步,深入一个具体的例子:一种名为集胞藻PCC6803(Synechocystis sp. PCC 6803)的蓝藻的基因组。

Spacedust的分析结果,就像一张基因组的 藏宝图 ,清晰地标示出了保守的功能模块。例如,它准确地识别出了与光系统II(Photosystem II)相关的基因簇,这是蓝藻进行产氧光合作用的核心机器。这个簇包含了rubredoxin、ycf48以及psbEFLJ等多个基因,它们在许多不同的蓝藻中都以相似的结构排列在一起,共同构成了光系统II的 动力核心 。

同样,它也发现了构成藻胆体(phycobilisome)的基因簇。藻胆体是蓝藻的 捕光天线 ,负责收集光能。这个簇包含了cpcA、cpcB、cpcC、cpcD等一系列基因,它们编码了藻胆体的不同蛋白亚基和连接蛋白。有趣的是,Spacedust的比较分析显示,在一些蓝藻中,cpcC基因出现了重复,变成了两个拷贝(cpcC和cpcC2),而在另一些蓝藻中,基因的顺序发生了部分重排,但它们依然聚集在一起。这正是Spacedust灵活算法的用武之地,它能捕捉到这种演化过程中的动态变化。

除了验证已知的功能模块,Spacedust还带来了新的发现。在集胞藻基因组的另一个区域,它识别出了一个包含三个基因的保守簇。其中前两个基因都被注释为spkA,编码一种丝氨酸/苏氨酸蛋白激酶,参与信号转导和细胞。第三个基因的功能则完全未知。单独看这个基因组,我们很难理解为什么需要两个几乎一样的激酶 并排站立 。但Spacedust通过跨物种比较,揭示了一个惊人的秘密:在其他一些蓝藻中,这两个spkA基因融合(fusion)成了一个单一的、更长的基因!这一发现强烈暗示,这两个独立的基因在集胞藻中很可能扮演着一个蛋白复合体的角色,共同执行融合蛋白的功能。而那个一直与它们形影不离的未知基因,现在则成了解开这个激酶功能之谜的头号嫌疑人,它极有可能参与了相同的信号通路。

基因簇 的星尘,照亮功能未知的宇宙

从破译蓝藻的光合密码,到与专业工具的巅峰对决,再到为功能未知的 暗物质 基因提供线索,Spacedust所展现的,远不止是一款新软件的发布。它代表了一种探索基因组数据的新范式。它告诉我们,要理解基因的功能,不能再将它们视为孤立的个体,而必须将它们置于其所在的 社区 和 语境 中去考察。

通过巧妙地结合前沿的蛋白质结构预测和新颖的概率统计模型,Spacedust成功地解决了传统方法中 远亲难认 和 规则僵化 两大痛点。它将我们对基因保守性的认知,从一维的序列,拓展到了三维的结构和动态的基因邻里关系。这使得大规模、高灵敏度地绘制微生物世界的 基因簇星图 成为可能。

当然,Spacedust的探索之旅才刚刚开始。研究人员也指出,其预测的精确度还有提升空间,并且它目前的算法复杂度使其在处理超大规模数据集时仍面临挑战。但它所开辟的道路是清晰的:未来的功能基因组学,将越来越依赖于这种整合性的、基于系统模块的分析思路。

Spacedust,这个名字意为 空间尘埃 ,恰如其分。它在浩瀚如宇宙的基因组数据中,搜寻着那些微小但重要的 基因簇 的星尘。正是这些星尘,汇聚成了璀璨的功能星座,照亮了我们此前无法看清的、广阔的未知功能宇宙。下一次,当我们面对一个沉默的、功能未知的基因时,或许我们首先应该问的不是 它是什么 ,而是 它的邻居是谁 。因为在基因组的悄悄话中,已经隐藏了我们想要的答案。

版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

医药网新闻
返回顶部】【打印】【关闭
扫描100医药网微信二维码
视频新闻
图片新闻
医药网免责声明:
  • 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
  • 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040