您的位置:医药网首页 > 医药资讯 > 医疗器械行业 > Nature Biotechnology:D

Nature Biotechnology:D

图片

D-I-TASSER的 超能力 揭秘:深度学习与物理模拟的完美融合

想象一下,如果蛋白质结构预测像是一场侦探游戏,我们需要从有限的线索中拼凑出复杂的立体模型。传统的物理模拟方法就像是凭借 直觉 和 经验法则 去尝试各种拼法,而深度学习则像是拥有 千里眼 和 顺风耳 ,能够更准确地识别出关键的联系和距离。D-I-TASSER的 超能力 就在于它不再偏废任何一方,而是将两者有机地结合起来,形成了一套无懈可击的 组合拳 。

D-I-TASSER的核心理念是: 利用深度学习的强大预测能力为传统的物理模拟提供精准的 导航图 ,从而在原子层面(Atomic-level)构建蛋白质结构模型。 它是如何做到的呢?

首先,它通过迭代搜索基因组(Genomic)和宏基因组(Metagenomic)序列数据库,构建深度多序列比对(MSA),并采用深度学习引导的排名流程来选择最佳MSA。这一步骤至关重要,因为高质量的MSA是后续深度学习预测的基础。

接着,D-I-TASSER利用多种深度学习模型,如DeepPotential、AttentionPotential和AlphaFold2的自身距离约束,预测出蛋白质内部残基之间的接触图(Contact Map)、距离图(Distance Map)以及氢键网络(Hydrogen-bonding Network)等空间结构约束(Spatial Restraints)。这些约束就像是为蛋白质折叠设定了一系列 规则 ,大大缩小了搜索空间。

然后,D-I-TASSER将这些深度学习预测的约束与先进的迭代线程组装细化模拟(Iterative Threading Assembly Refinement Simulations),特别是采用副本交换蒙特卡洛(REMC,Replica-Exchange Monte Carlo)模拟方法相结合。这种模拟方式能有效地探索蛋白质的构象空间(Conformational Space),克服了传统基于梯度的优化方法可能陷入局部最优的缺陷,确保模型在满足深度学习约束的同时,也能符合物理化学原理。

最值得称道的是,D-I-TASSER引入了全新的域分割与组装协议(Domain Splitting and Assembly Protocol)。 对于包含多个结构域的大型蛋白质,D-I-TASSER会先识别出其结构域边界,然后对每个结构域进行单独的MSA和线程比对,生成域级别的空间约束。最后,它再将这些域级别的约束与全链(Full-chain)约束结合起来,通过全链模拟将各个结构域组装成完整的、具有正确域间(Interdomain)取向的多域结构模型。这种分而治之、再合而为一的策略,极大地提升了多域蛋白预测的准确性和效率。

单域蛋白的 巅峰对决 :D-I-TASSER如何超越AlphaFold系列

首先,让我们聚焦于相对简单的单域(Single-domain)蛋白质预测,这是所有蛋白质结构预测的基础。研究团队在包含500个难以预测的 硬核 (Hard)单域蛋白数据集上,对D-I-TASSER进行了严格的基准测试。这些蛋白之所以被称为 硬核 ,是因为它们在PDB(Protein Data Bank)中没有与查询序列相似性超过30%的同源模板,使得传统方法难以进行预测。

测试结果令人惊叹:D-I-TASSER预测模型的平均TM分数(Template Modeling Score,一个衡量模型与真实结构相似度的指标,0.5以上通常认为折叠正确,1为完美匹配)达到了 0.870。这与之前的I-TASSER(仅使用模板信息)的平均TM分数0.419相比,提升了 108%;与使用深度学习接触约束的C-I-TASSER的平均TM分数0.569相比,也提升了 53%。这意味着D-I-TASSER能够预测出比以往方法多得多的正确折叠结构:在500个 硬核 蛋白中,D-I-TASSER成功折叠了 480个(TM分数大于0.5),而I-TASSER只有145个,C-I-TASSER有329个,D-I-TASSER分别是它们的 3.3倍和1.5倍。

更引人注意的是与当今最先进的AlphaFold2(v.2.3)的对比。尽管AlphaFold2已经非常强大,但D-I-TASSER的平均TM分数 0.870 仍然比AlphaFold2的 0.829 高出 5.0%。在84%的测试目标中,D-I-TASSER都取得了更高的TM分数。尤其是在那些对AlphaFold2而言也属于 困难 的蛋白上,D-I-TASSER的优势更为明显:对于148个 困难 域,D-I-TASSER的平均TM分数高达 0.707,而AlphaFold2则为 0.598。在其中63个域上,D-I-TASSER的TM分数比AlphaFold2高出至少0.1分,而AlphaFold2仅在一个域上具有显著优势。

研究团队进一步将D-I-TASSER与AlphaFold系列的 所有版本(包括AlphaFold2.0、2.1、2.2、2.3和最新发布的AlphaFold3)进行了比较。D-I-TASSER的平均TM分数 0.870 显著高于所有AlphaFold版本(分别为0.817、0.818、0.819、0.829和0.849),这再次印证了D-I-TASSER的卓越性能。

为了排除 过拟合 (Over-training)的疑虑,研究团队还专门选取了176个在AlphaFold训练日期之后才发布的蛋白质(即全新的、未被AlphaFold 见过 的结构)进行测试。结果显示,D-I-TASSER的平均TM分数仍为 0.810,显著优于AlphaFold2.0(0.734)、2.1(0.728)、2.2(0.727)、2.3(0.739)以及AlphaFold3(0.766)。这有力地证明了D-I-TASSER的泛化能力和鲁棒性。

那么,D-I-TASSER为何能取得如此优异的成绩?研究揭示,这主要归功于其对不同深度学习约束源的最佳整合。例如,如果只使用AlphaFold2的距离约束,模型的平均TM分数为0.857,虽然很高,但仍略低于整合了DeepPotential、AttentionPotential和AlphaFold2所有约束后的0.870。这表明, 多源深度学习约束的协同效应才是D-I-TASSER成功的关键。

高质量的多序列比对(MSA)也是D-I-TASSER成功的基石。研究发现,如果将D-I-TASSER流程中的DeepMSA2模块移除,模型的平均TM分数会下降到0.836。这强调了DeepMSA2通过其庞大的宏基因组数据库(Metagenomics Databases)和深度学习驱动的MSA排名算法,为D-I-TASSER提供了更丰富、更准确的共同进化信息。即使AlphaFold2结合了DeepMSA2,其表现(平均TM分数0.841)仍然不及完整的D-I-TASSER(0.870),这进一步凸显了D-I-TASSER将深度学习约束与基于知识的力场(Knowledge-based Force Field)相结合,进行结构重组和细化的独特优势。

以酿酒酵母(Yersinia pestis)的2-C-甲基-D-赤藓糖醇-2,4-环二磷酸合酶(PDB ID: 3fpiA)为例,这是一个LOMETS3无法识别出合理模板的案例,最佳模板的TM分数仅为0.196。AlphaFold2也创建了一个糟糕的模型,TM分数为0.335,其距离图预测存在较高的平均绝对误差(MAE,Mean Absolute Error),高达3.20 。然而,在D-I-TASSER的新型深度学习势能引导下,模型组装出了一个TM分数高达 0.986 的优秀结构,其距离图预测的MAE低至 0.24 。这意味着模型与真实结构几乎完美吻合。D-I-TASSER的模拟轨迹也显示,在REMC循环的早期阶段,模型的MAE迅速从7.7 降低到1.2 ,TM分数从0.31上升到0.71,并在100次REMC扫描后稳定在约0.39 的MAE和0.96的TM分数。这清晰地表明了D-I-TASSER在优化和实施高质量空间约束方面的强大能力。

值得一提的是,即使对于那些 容易 预测的、具有同源模板(Homologous Templates)的蛋白质(762个非冗余域),D-I-TASSER的平均TM分数也达到了 0.936,显著高于I-TASSER(0.729)和AlphaFold2(0.901)。这表明,深度学习约束的准确性已经达到甚至超越了传统线程模板的水平,对所有类型的目标都带来了性能提升。

此外,D-I-TASSER在建模无序区域(Disordered Regions)方面也展现出潜力。尽管目前还没有完美的解决方案,但D-I-TASSER通过REMC模拟探索更广泛的构象空间,生成了比AlphaFold2具有更大构象变异(平均RMSD为4.37 ,而AlphaFold2为2.75 )的结构模型。这暗示了物理模拟方法在处理柔性、动态的无序区域时,可能比纯深度学习方法更具优势。

多域蛋白的 统一战线 :D-I-TASSER的创新突破

多域蛋白质是生命体中执行高级功能的主力军,它们由多个结构域组成,这些结构域之间通过域间相互作用(Domain-domain Interactions)协同工作。然而,建模多域蛋白质的复杂性远超单域蛋白,因为不仅要预测每个结构域的内部结构,还要准确捕捉结构域之间的相对取向。传统方法和端到端(End-to-end)深度学习方法在这方面都面临挑战。

研究团队收集了230个包含2到7个结构域的非冗余多域蛋白质,进行了全面的基准测试。结果再次令人惊喜:

在 全链(Full-chain) 结构预测方面,D-I-TASSER模型的平均TM分数达到 0.720,比AlphaFold2模型的 0.638 高出 12.9%。

在 结构域层面(Domain-level) 预测方面,D-I-TASSER模型的平均TM分数达到 0.858,比AlphaFold2模型的 0.835 高出 2.8%。

D-I-TASSER在 88% 的全链蛋白质和 63% 的结构域层面预测中,都取得了比AlphaFold2更高的TM分数。尤其是在那些预测难度较大的多域目标上,D-I-TASSER相对于AlphaFold2的TM分数提升更为显著,全链提升 17.1%,结构域层面提升 9.9%。

更具体地看不同结构域数量的蛋白质:D-I-TASSER在两域、三域和多于四域蛋白质上的表现都非常稳定,平均TM分数分别为0.714、0.747和0.715,均显著高于AlphaFold2的对应表现(0.62、0.65和0.65)。

以莱茵衣藻(Chlamydomonas reinhardtii)鞭毛径向辐蛋白(PDB ID: 7jtkB)为例,这是一个包含801个残基、分为两个结构域(1-202和203-801)的蛋白质。AlphaFold2的全链模型TM分数仅为0.425,域间距离预测的MAE高达5.91 ,域内距离预测的MAE也达到了1.30 和0.83 ,这可能与其浅层的MSA收集(neff仅为0.1)有关。而D-I-TASSER通过迭代的DeepMSA2搜索,获得了更深度的全链MSA(neff为0.4),并通过域分割过程为两个结构域分别检测到688和15个额外的同源序列,极大地丰富了深度学习模型所需的共同进化信息。最终,D-I-TASSER的距离图预测精度显著提高(全链MAE为0.71 ,结构域1为0.57 ,结构域2为0.48 ),成功构建了一个TM分数高达 0.934 的卓越全链结构模型,域内TM分数也分别达到0.971和0.910。

另一个来自人类InaD样蛋白(PDB ID: 6irdC)的例子也印证了D-I-TASSER的优势。AlphaFold2虽然在结构域层面表现尚可,但由于浅层的全链MSA,其域间距离预测的MAE高达8.46 ,导致全链TM分数仅为0.503。D-I-TASSER则构建了更深度的全链MSA(neff高达296.6),使得域内和域间距离图预测都更加准确(域间MAE为1.32 ,域1为0.78 ,域2为0.69 ),最终全链TM分数提升到 0.890。这些案例共同表明,D-I-TASSER新引入的域分割与组装策略在处理多域蛋白时发挥了至关重要的作用。

值得注意的是,多域蛋白经常会为了执行特定功能而采用不同的构象,特别是在结构域取向(Domain Orientation)上。研究团队以SARS-CoV-2刺突蛋白复合体为例,该蛋白可以呈现开放和闭合两种构象。D-I-TASSER成功预测了这两种构象的模型(闭合态TM分数0.94,开放态TM分数0.99),并且通过模拟生成的构象骗子(Decoys)可以有效地聚类出多种构象状态,而不仅仅是单一的静态模型。这凸显了D-I-TASSER基于物理的模拟在探索构象多样性方面的内在能力。

尽管D-I-TASSER在多域蛋白预测上取得了显著进步,但多域目标的平均TM分数(0.747)仍低于单域目标(0.893)。这提示我们,准确预测复杂的域间取向,仍然是蛋白质结构预测领域的一个重要挑战。

盲测的 荣耀时刻 :CASP15大赛的铁证

如果说基准测试是 模拟考 ,那么CASP(Critical Assessment of Protein Structure Prediction)大赛就是蛋白质结构预测领域的 高考 。在2022年最新一届的CASP15盲测中,D-I-TASSER(以 UB-TBM 身份参赛)在激烈的竞争中脱颖而出,取得了令人瞩目的成绩。

CASP15大赛共发布了77个蛋白质目标,包括55个单域和22个多域目标。D-I-TASSER在 95% 的结构域(106/112)和 94% 的全链序列(72/77)上都成功预测了正确折叠(TM分数大于0.5),平均TM分数分别为 0.878(结构域)和 0.851(全链)。

更直观的对比是,D-I-TASSER在 常规建模 (Regular Modeling,对应单域结构)和 域间建模 (Interdomain Modeling,对应多域结构)两个类别中,Z分数总和均位居所有参赛组的第一名。具体而言:

在 常规建模 中,D-I-TASSER的累积Z分数高达 67.20,是公开版AlphaFold2(NBIS-AF2-standard)的 2倍(AlphaFold2的累积Z分数为32.05)。

在 域间建模 中,D-I-TASSER的累积Z分数更是达到了 35.53,是公开版AlphaFold2的 16倍(AlphaFold2的累积Z分数为2.11)。

即使与允许人类专家干预的 人类组 相比,D-I-TASSER服务器版在 常规建模 中仍位居第二(或第一),在 域间建模 中更是遥遥领先,累积Z分数比第二名高出 42.3%。

与AlphaFold2和Wallner等强劲对手的直接对比也再次验证了D-I-TASSER的优势:

在112个结构域目标中,D-I-TASSER在 84% 的情况下TM分数高于AlphaFold2,在 79% 的情况下高于Wallner。

在50个 自由建模 (FM,Free Modeling)目标(最难预测的类型)中,D-I-TASSER的平均TM分数高达 0.833,比AlphaFold2的0.701高出 18.8%,比Wallner的0.726高出 14.7%。

在22个多域目标中,D-I-TASSER在 82% 的情况下TM分数高于AlphaFold2,在 77% 的情况下高于Wallner。多域目标的平均TM分数达到 0.747,比AlphaFold2的0.578高出 29.2%,比Wallner的0.602高出 24.1%。

此外,与CASP15中所有版本的AlphaFold系列相比,D-I-TASSER在FM域和多域蛋白质上的表现依然显著领先。例如,在50个FM域上,D-I-TASSER的平均TM分数是0.833,而AlphaFold系列则在0.715到0.727之间;在20个多域目标上,D-I-TASSER的平均TM分数是0.742,而AlphaFold系列则在0.592到0.609之间。

CASP15的成绩单清楚地表明,D-I-TASSER在各种挑战性蛋白质结构预测任务中,特别是对于无同源模板的自由建模和复杂的多域蛋白质,都展现出了无与伦比的领先地位。甚至对于一些超大型的多域蛋白质(例如T1169,拥有3364个残基),D-I-TASSER也成功预测出了高质量模型,TM分数达到0.8。这标志着利用深度学习约束建模大型蛋白质结构的重要进展,这也是传统结构建模方法长期以来的一个挑战。

然而,我们也必须清醒地认识到,尽管D-I-TASSER在多域蛋白预测方面表现出色,其平均TM分数(0.747)仍显著低于单域蛋白(0.893)。这再次强调了域间取向的准确预测仍然是一个复杂而具有挑战性的问题,需要未来的研究进一步攻克。

生命蓝图 的绘制:D-I-TASSER对人类蛋白质组的深远影响

蛋白质结构预测的终极目标,是为整个蛋白质组(Proteome)绘制出详细的结构蓝图,从而深入理解生命的运转机制。为了展示D-I-TASSER在全基因组(Genome-wide)层面的实际应用能力,研究团队将其应用于人类蛋白质组中,预测了 19,512个 长度在40到1,500个残基之间的蛋白质(这几乎覆盖了人类蛋白质组的95%)。

这些蛋白质包括了12,236个单域蛋白和7,276个多域蛋白,后者又进一步细分为22,732个结构域。总计,D-I-TASSER为人类蛋白质组中的 34,968个 结构域和 19,512个 全链蛋白质生成了结构模型。

由于大多数人类蛋白质尚未有实验结构,研究团队设计了 估计TM分数 (eTM Score)来量化D-I-TASSER模型的质量。通过在1,492个基准测试目标上的验证,eTM分数与真实TM分数表现出高度相关性,皮尔逊相关系数(PCC)高达0.79。当以eTM分数0.5作为 可折叠 (Foldable)的判断标准时,马修斯相关系数(MCC)达到0.46,假阳性率仅为2%。这表明eTM分数是一个可靠的模型质量评估指标。

根据eTM分数,D-I-TASSER预测:

在 结构域层面,人类蛋白质组中 80.5% 的结构域(28,152/34,968)被预测为具有正确折叠(eTM分数大于等于0.5)。

在 全链层面,人类蛋白质组中 72.8% 的蛋白质(14,195/19,512)被预测为具有正确折叠(eTM分数大于等于0.5)。

有意思的是,人类蛋白质的eTM分数分布呈现出两个峰值,分别在0.55和0.80附近,这可能对应着 困难 和 容易 两类目标。

D-I-TASSER预测的人类蛋白质组模型与DeepMind发布的AlphaFold2人类蛋白质组模型(AlphaFold2 Structure Database)之间展现出高度的 互补性。在近2万个人类蛋白质中, 57% 的序列(11,116个)被两个程序共同预测为可折叠(AlphaFold2的pLDDT分数大于0.7,D-I-TASSER的eTM分数大于0.5)。更重要的是, 26% 的序列(5,083个) 仅由其中一个方法成功预测:其中 3,020个 仅由D-I-TASSER预测,而 2,063个 仅由AlphaFold2预测。这种互补性意味着,将两种方法结合使用,可以覆盖更广泛的蛋白质组范围,为更全面的人类蛋白质结构图谱提供基础。

对于1,907个有实验结构的、覆盖度超过90%的人类蛋白质,D-I-TASSER的平均TM分数为 0.931,略高于AlphaFold2的0.916。在这些蛋白质中,D-I-TASSER在 79% 的情况下(1,501/1,907)取得了更高的TM分数。对于那些较难预测的蛋白质(TM分数小于0.8),D-I-TASSER的平均TM分数是0.699,而AlphaFold2是0.633,优势更为明显。这再次证明了D-I-TASSER在解决结构预测难题方面的卓越能力。

基于D-I-TASSER预测的结构模型,研究团队进一步利用COFACTOR协议对人类蛋白质的功能进行了注释,包括配体结合位点(LBS)、酶学委员会分类(EC)和基因本体(GO)。

研究发现,人类蛋白质组中,最常见的生物过程(Biological Process)是 氧化还原过程 (Oxidation-reduction Process),最常见的细胞组分(Cellular Component)是 胞质 (Cytosol)和 细胞外囊泡 (Extracellular Exosome),最常见的分子功能(Molecular Function)是 金属离子结合 (Metal Ion Binding),最常见的酶学分类是 溶菌酶 (Lysozyme),并且最常结合的是 腺苷酰亚氨基二磷酸 (Adenylyl Imidodiphosphate)和 二- -硫-二铁 (Di-mu-sulfido-diiron)。

有趣的是,对不同染色体的分析显示,D-I-TASSER预测模型的质量分布在不同染色体上大致均匀,表明模型质量与基因的染色体位置无关。但第11号染色体是一个明显的例外,它在与 眼科相关 的功能注释上表现出显著富集,如GO中的 视觉感知 (Visual Perception)和 相机型眼视网膜发育 (Retina Development in Camera-type Eye),以及配体结合中的 视黄醛 (Retinal)。这与之前的实验研究结果高度吻合,进一步验证了D-I-TASSER在结构预测基础上进行功能注释的准确性和生物学意义。

以乙酰辅酶A乙酰转移酶(UniProt ID: Q9BWD1)为例,D-I-TASSER模型与实验结构的TM分数高达 0.99。该蛋白被预测能与辅酶A(CoA)分子结合,预测的CoA构象与实验构象的RMSD仅为0.74 ,这意味着结合位置预测极其精准。在实验结构中与CoA分子结合的23个残基中,D-I-TASSER通过COFACTOR成功预测了 22个,展现了其在精确识别功能位点上的强大能力。

未来的 星辰大海

D-I-TASSER的诞生,标志着蛋白质结构预测领域的一个新里程碑。它通过巧妙地整合深度学习的强大预测能力和物理模拟的构象探索优势,不仅在单域蛋白质预测上超越了AlphaFold系列,更在复杂的多域蛋白质预测上实现了关键突破。CASP15盲测的卓越表现以及对人类蛋白质组的大规模预测,都充分证明了D-I-TASSER的先进性和实用性。

当然,这项技术也并非没有 成本 。相较于AlphaFold2(预测30-350个氨基酸的蛋白质,平均耗时1.2小时,需要60GB内存),D-I-TASSER的资源需求更高(平均耗时8.2小时,需要20GB内存)。但考虑到其显著提升的建模性能,尤其是在处理高难度、复杂多域蛋白质方面的优势,这种计算资源的投入是完全值得的。在未来的药物发现、疾病机制研究以及蛋白质设计等领域,D-I-TASSER有望扮演愈发重要的角色。

尽管如此,蛋白质结构预测仍有广阔的 星辰大海 等待探索。D-I-TASSER在宏基因组数据库方面进行了大量拓展,但对于某些蛋白质,特别是病毒基因组中快速进化、缺乏同源序列的蛋白质,MSAs仍然可能很浅,导致预测难度较大。此外,蛋白质-蛋白质复合体(Protein-protein Complex)结构的预测,以及如何更准确地建模蛋白质的动态构象,仍然是尚未完全解决的重大挑战。

但D-I-TASSER的成功,为我们指明了未来的方向: 深度学习与经典物理模拟的结合,并非简单的叠加,而是深层次的融合与协同,它能够弥补各自的不足,在精度、鲁棒性和构象探索方面达到新的高度。 这项研究不仅为蛋白质结构预测带来了新的解决方案,更为我们理解生命、设计新药物、改造酶提供了前所未有的工具。

版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

医药网新闻
返回顶部】【打印】【关闭
扫描100医药网微信二维码
视频新闻
图片新闻
医药网免责声明:
  • 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
  • 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040