Nature Methods：蛋白质工程新范式！当AI开始“补习”第一性原理，METL框架从“知其然”到“知其所以然”

2025-09-19 00:00
来源：100医药网
阅读：491

AI蛋白质设计的两条路线：从进化大数据中猜，还是从物理原理出发算？

要理解METL框架的巧妙之处，我们先来看看当前AI蛋白质设计领域并存的两种主流思想，它们可以被形象地比作经验主义和理性主义两条路线。

经验主义路线的典型代表，是近年来大放异彩的各种蛋白质语言模型，例如ESM (Evolutionary Scale Modeling)系列。它们的学习方式，好比一个婴儿学习母语。通过接触海量的语言环境（对应于数据库中数以亿计的天然蛋白质序列），模型逐渐掌握了词语搭配的规律（氨基酸的上下文关系）。它不需要理解主谓宾的语法结构，就能凭语感判断一个句子是否通顺，甚至能写出像模像样的诗句。同样，这些PLMs通过在庞大的进化数据上进行完形填空（即掩码语言模型任务, masked language model task），学习到了氨基酸序列的深层表示。这种表示隐含了关于蛋白质结构、功能和进化压力的丰富信息。它们在预测突变效应、生成全新蛋白质等任务上取得了巨大成功，证明了从进化大数据中挖掘规律的强大威力。然而，这种方法的局限性也同样明显：它极度依赖数据，并且其知识边界被已知的生物序列空间所限制。当面对一个与进化历史截然不同的、全新的设计目标时，它的语感可能会失灵。更重要的是，它是一个黑箱，我们很难知道它做出决策的具体物理化学依据。

与之相对的，是理性主义路线。这条路线的老前辈是基于物理原理的计算建模方法，其杰出代表是Rosetta等分子模拟软件。它的工作方式，更像一位严谨的工程师，依据经典力学和热力学定律，一砖一瓦地构建和评估蛋白质结构。它会精确计算原子间的范德华力(van der Waals forces)、静电力(electrostatic forces)、氢键(hydrogen bonding)和溶剂化能(solvation energy)等，通过寻找能量最低的构象来预测蛋白质的稳定性和功能。这种方法的优点是它建立在坚实的物理基础上，具有很强的解释性，并且理论上可以探索任何可能的序列空间，不受进化数据的束缚。但它的阿喀琉斯之踵在于巨大的计算开销。对一个蛋白质的成千上万种突变体进行精确的物理模拟，需要耗费惊人的计算资源和时间，这使得它难以应用于大规模的序列筛选和设计任务。

于是，一个核心的矛盾摆在了研究人员面前：我们能否将经验主义的速度与广度，同理性主义的深度与精度结合起来？我们能否让AI既是一位博览群书的文学家，又是一位精通物理的科学家？这正是METL框架试图搭建的桥梁。

METL的诞生：当海量虚拟实验遇上Transformer架构

METL框架的核心思想，可以用虚拟预训练，真实微调八个字来概括。它巧妙地利用计算成本相对低的生物物理学模拟来生成海量伪标签数据，先让模型闭门修炼物理内功，然后再用少量、珍贵的真实实验数据对其进行点拨，打通任督二脉。整个过程分为三步，如同一套精心设计的武功秘籍。

第一式：创生万象，生成海量合成数据

研究人员首先选择一个目标蛋白质，然后利用Rosetta软件，在计算机中创造出数以百万计的该蛋白质的序列变体。例如，对于一个蛋白质，他们可以生成高达2000万个包含1至5个氨基酸突变的序列。这就像是进行了一场规模空前的虚拟实验。对于每一个虚拟创造出的蛋白质序列，Rosetta都会一丝不苟地计算出其对应的55个生物物理学属性，这其中包括了总能量得分、原子间吸引与排斥能、氢键网络、溶剂可及表面积(relative solvent accessibility, RSA)等一系列描述其结构稳定性和能量状态的关键参数。这个过程，虽然仍需要大量计算，但相比于在实验室中合成并测试2000万个蛋白质变体，其成本和效率已经有了天壤之别。这批包含了序列-物理属性对应关系的海量数据，构成了METL模型预训练的第一本教科书。

第二式：格物致知，生物物理学预训练

有了这本厚重的教科书，接下来就是让AI模型来学习了。METL采用的是目前在自然语言处理领域大获成功的Transformer架构。在预训练阶段，模型的任务非常明确：输入一个氨基酸序列，输出其对应的55个生物物理学属性的预测值。通过这个过程，模型被迫去理解序列中氨基酸的微小变化是如何引起蛋白质整体物理化学性质的剧烈波动的。它不再是简单地记忆哪些序列看起来眼熟，而是开始学习什么样的序列组合能形成稳定的氢键、哪个位置的氨基酸突变会严重破坏疏水核心。这种学习，使得模型在内部形成了一种基于生物物理学原理的、对蛋白质序列的全新表示 (representation)。这种表示，可以说是模型对蛋白质物理世界的心法口诀。研究人员还进一步设计了两种预训练策略：一种是METL-Local，它专注于一个特定的蛋白质，旨在培养一个专才；另一种是METL-Global，它同时在148种结构多样的蛋白质上进行预训练，旨在培养一个通才。

第三式：融会贯通，实验数据微调

当模型通过预训练掌握了深厚的物理内功后，最后一步就是将其应用于真实世界的实战。研究人员会使用少量的、通过真实实验测得的序列-功能数据（例如蛋白质的荧光亮度、催化活性或结合能力）对预训练好的模型进行微调(fine-tuning)。在这一阶段，模型会将它学到的生物物理学知识与特定的生物学功能联系起来。由于模型已经具备了强大的物理先验知识(prior knowledge)，它不再需要从零开始学习，因此即便是非常少的实验数据，也足以让它快速地掌握序列与特定功能之间的映射关系。

小考见真章：在数据稀缺的考场上，谁能更胜一筹？

理论的巧妙，最终需要由实验数据来检验。研究人员设置了一系列严苛的考场，让METL模型与当前主流的多种基准模型同台竞技。其中，最关键的考验，莫过于在小样本学习场景下的表现。在真实的蛋白质工程项目中，获取大量高质量的实验数据往往是昂贵且耗时的，因此，一个模型能否在数据稀疏的情况下依然保持强大的预测能力，是其是否具有实用价值的关键。

研究人员在11个不同的实验数据集上进行了测试。结果令人振奋。在绝大多数数据集上，当训练样本数量非常有限时（例如，少于100个），专为特定蛋白质预训练的METL-Local模型表现出了明显的优势。以绿色荧光蛋白(Green Fluorescent Protein, GFP)数据集为例，当训练样本只有几十个时，METL-Local的性能曲线显著高于其他所有模型。这背后的原因不难理解。对于没有经过物理预训练的模型来说，当面对少量数据时，它们很容易陷入过拟合 (overfitting)的陷阱。而METL-Local，由于在预训练阶段已经见过了数千万个虚拟突变体，并深刻理解了其背后的物理规律，因此它在微调时，实际上是在一个已经高度优化的知识基础上进行学习。这种强大的生物物理学先验，使其能够更有效地利用每一个宝贵的实验数据点，从而在数据荒中脱颖而出。

真正的挑战：当AI面对没见过的突变和没考过的位置

如果说小样本学习是检验模型数据效率的期中考，那么外推能力(extrapolation)的测试，则是一场检验模型智慧与想象力的期末大考。在蛋白质工程实践中，我们常常希望模型能够预测那些在训练集中从未出现过的情况。

在这四场严苛的加试（突变外推、位置外推、组合外推和功能值外推）中，METL-Local再次展现了其独特的优势，尤其是在最具挑战性的位置外推任务上。在所有11个数据集上，METL-Local的位置外推性能平均斯皮尔曼相关系数达到了0.59，与另一个表现优异的ProteinNPT模型（0.65）并驾齐驱，显著优于那些纯粹依赖序列进化信号的模型。

为何METL-Local在此项任务上表现如此出色？答案依然在于其独特的预训练方式。在其虚拟实验阶段，METL-Local的预训练数据已经系统性地覆盖了蛋白质所有位置的所有可能的氨基酸突变。尽管这些只是物理模拟数据，但它们已经为模型注入了关于每个位置在结构和能量上的重要性的先验知识。因此，即使在微调阶段某个位置没有任何实验数据，模型依然可以调用其在预训练中学到的物理直觉来做出合理的推断。这种能力，对于指导蛋白质工程师探索全新的、未知的序列空间，具有不可估量的价值。

虚拟与现实的汇率：多少模拟数据才顶得上一次真实实验？

METL框架的核心是利用模拟数据来增强模型，那么一个自然而然的问题是：模拟数据和真实实验数据之间的价值关系是怎样的？为了量化这一关系，研究人员进行了一项巧妙的分析。他们以GB1蛋白为研究对象，系统地改变预训练和微调的数据量，绘制了一张等性能图谱 (iso-performance map)。

这张图谱揭示了一个有趣的汇率。例如，研究人员发现，一个在8000个模拟数据点上预训练、然后在80个实验数据点上微调的模型，其最终性能与一个在1000个模拟数据点上预训练、然后在320个实验数据点上微调的模型几乎完全相同。

让我们来算一笔账：在这两种情况下，为了达到同样的性能，前者比后者多用了7000个模拟数据点，但节省了240个实验数据点。这意味着，在这个特定的任务和数据范围内，大约29个模拟数据点所提供的信息增益，才相当于1个真实实验数据点。

这个 29:1 的汇率，一方面说明了真实世界实验数据的含金量之高，但另一方面，它也证明了模拟数据的巨大价值。在实验资源极其有限的情况下，通过大规模的计算机模拟，我们确实可以有效地弥补真实数据的不足，以一种极具性价比的方式来提升模型的性能。

从预测到创造：仅凭64个样本，AI能否设计出全新的功能蛋白？

所有理论和模型的最终试金石，都是解决真实世界的问题。在该研究中，研究人员进行了一项极具挑战性也极具说服力的实验：利用METL-Local模型，在一个极度数据稀缺的场景下，从头设计全新的、具有功能的GFP变体。

他们设定了一个非常苛刻的条件：用于微调模型的训练集，仅仅包含了64个随机挑选的GFP序列及其对应的荧光亮度数据。为了进一步增加难度，他们还设置了两种设计策略：一种是所见即所得 (Observed AA)，设计的序列只能使用训练样本中出现过的突变类型；另一种是大胆想象 (Unobserved AA)，设计的序列必须排除所有训练样本中出现过的突变。

实验结果令人瞩目。在相对简单的所见即所得策略下，AI设计的10个蛋白质全部成功，都表现出了可测量的荧光，成功率高达100%！而在极具挑战性的大胆想象策略下，模型设计的10个蛋白质中，有6个也成功发光，成功率达到了60%。相比之下，作为对照的20个随机序列中，只有一个表现出微弱的荧光。

这一结果有力地证明，METL模型在数据极其有限的情况下，不仅学到了有效的序列-功能关系，更重要的是，它能够将这些知识泛化到遥远的、未曾探索过的序列空间，成功地指导了全新功能蛋白的创造。这已经不再是简单的预测，而是真正意义上的设计。

推开一扇新门：当物理定律成为AI的母语

METL框架的问世，其意义远不止是创造了一个性能更优的模型。更重要的是，它代表了一种全新的、将第一性原理知识与数据驱动学习深度融合的设计哲学。AI在探索生命奥秘的征途上，不应仅仅满足于做一名过目不忘的史学家，记录和模仿进化的结果；它更应该努力成为一名洞悉底层的物理学家，理解并运用支配生命分子的基本法则。

该研究所推开的，是一扇通往未来的大门。METL的框架具有极强的可扩展性。我们可以想象，未来的预训练数据将不再局限于Rosetta计算的静态结构能量。同时，我们也不应将生物物理学与进化信息对立起来。未来的终极模型，或许会将两者完美融合：以强大的进化语言模型作为基座，使其具备广博的进化常识，然后再利用METL的框架，为其注入精准的生物物理学洞见。

从知其然到知其所以然，METL在这条道路上迈出了坚实而关键的一步。它让AI的思考方式，向着生命运作的本质，又靠近了一分。对于所有致力于和编写生命密码的研究者而言，这无疑是一个令人心潮澎湃的信号。一个由物理定律引导、由数据驱动的蛋白质工程新纪元，正悄然拉开序幕。

87%用户都在用100医药网APP 随时阅读、评论、分享交流请扫描二维码下载->