您的位置:医药网首页 > 医药资讯 > 医药行业分析 > Nature系列综述:乔治·丘奇绘制 AI 蛋白质设计路线图,逐步指导利用AI工具设计蛋白质

Nature系列综述:乔治·丘奇绘制 AI 蛋白质设计路线图,逐步指导利用AI工具设计蛋白质

来源:生物世界 2025-09-15 09:12

该综述的核心是提供一个全面且可操作的蛋白质设计路线图,逐步指导如何将最先进的 AI 工具整合到蛋白质设计工作流程中,包括结构与功能预测工具以及用于从头设计的生成式模型。

蛋白质设计(protein design)正在经历一场由人工智能(AI)驱动的革命,彻底改变了我们为药物发现、生物技术和合成生物学应用而设计蛋白质的方式。通过驾驭蛋白质序列空间的巨大复杂性,并克服结构和功能数据的局限性,AI 能够以前所未有的度和速度设计具有定制功能的新型蛋白质。

2025 年 9 月 8 日,哈佛大学医学院乔治 丘奇(George Church)、Li Li,格里菲斯大学潘世瑞等人在Nature 旗下综述期刊Nature Reviews Bioengineering上发表了题为:AI-driven protein design的综述论文。

该综述的核心是提供一个全面且可操作的蛋白质设计路线图,逐步指导如何将最先进的 AI 工具整合到蛋白质设计工作流程中,包括结构与功能预测工具以及用于从头设计的生成式模型。为了在实践中说明这一路线图,作者展示了 AI 驱动蛋白质设计的案例研究,涵盖从工程化治疗性蛋白质到设计解锁酶功能及重编程生物分子系统的新型蛋白质。展望未来,该综述勾勒出未来的发展方向,强调了 AI 在革新合成生物学、加速药物研发和推动可持续生物技术方面的巨大潜力,将其定位为蛋白质设计前沿的一股变革性力量。

该综述的要点:

AI 从根本上重塑了蛋白质设计,将曾经的反复试验过程转变为具有预测性的学科。如今,由 AI 驱动的工具能够以前所未有的速度和精度生成、评估和优化蛋白质。

该综述为将 AI 工具融入蛋白质设计提供了一条切实可行的路线图:首先概述了定向进化和理性设计的工作流程,然后将不断扩大的 AI 工具套件分类为七个工具包,这些工具包支持工作流程中不同的任务。

该路线图将从初始设计到蛋白质合成以进行实验验证的每个工作流程步骤与最合适的 AI 工具包相匹配,并指导设计人员组装端到端的 AI 驱动工作流程。

案例研究展示了该路线图的实际应用,表明工具包如何协同作用创建由 AI 驱动的工作流程,从而缩短实验周期,并实现传统方法无法企及的功能。

蛋白质设计长期以来一直是科学创新的基石,在药物研发、生物技术和合成生物学等领域推动着突破性进展。然而,尽管已取得了许多显著进展,但传统方法在应对蛋白质序列的庞大复杂性和功能多样性方面已接近极限。

随着对精准、可扩展的设计解决方案的需求不断增长,人工智能(AI)正成为一股变革力量,以应对那些曾经被认为难以解决的挑战。

蛋白质设计主要依赖两种策略 定向进化(directed evolution)和理性设计(rational design)。定向进化通过引入随机突变、筛选大量突变文库并选择具有所需特性的蛋白质来模拟自然选择。相比之下,理性设计则依据结构和功能数据进行有针对性的、基于假设的修改。定向进化费时费力,而理性设计则受限于结构信息的可用性和准确性。

这两种方法都无法高效地遍历巨大的序列空间。即便采用传统的计算方法,寻找最优设计也颇具挑战性,因为这些方法往往无法充分利用现代硬件的能力,也无法弥补对蛋白质生物物理学理解上的不足。在蛋白质设计中,搜索空间本身极其庞大:一个典型的由 350 个氨基酸组成的蛋白质大约有 10455种可能的序列,这显然是一个庞大到难以想象的数字(与之相比,可观测宇宙中的总原子数量约为 1082个),用常规方法进行详尽探索是不切实际的。

人工智能(AI)驱动的进步推动了新工具的发展,这些工具定向进化和理性设计这两种策略提供了前所未有的速度、规模和精度。在定向进化中,AI 工具能够准确地提出有益的突变,并从序列预测功能,大大缩短了实验周期。在理性设计中,AI 工具能够在没有同源模板的情况下,以接近实验的精度从序列预测结构,并从零开始生成新的蛋白质。此外,生物分子共折叠模型现在可以直接从序列数据预测蛋白质、核苷酸和小分子之间的多分子复合物,扩大了 AI 驱动设计的范围。

基于深度学习方法的 AI 工具已经发展成熟,将其融入蛋白质设计工作流程不仅可行,而且至关重要。通过实现蛋白质结构和序列的准确生成、评估和优化,AI 已将蛋白质设计从一个反复试验的过程转变为一个具有预测性和高效性的学科。

为了理解 AI 在蛋白质设计这一快速发展的领域所发挥的作用,作者们提供了一份全面的路线图,探讨了 AI + 蛋白质设计的关键方面。首先,审视了定向进化和理性设计所涉及的工作流程,强调了 AI 的整合如何通过简化和优化各个阶段来增强这些策略;接下来,深入探讨了蛋白质设计工作流程中每个步骤可用的特定 AI 工具,说明了这些技术如何在每个阶段提高效率和精;最后,探讨了 AI 驱动的蛋白质设计在生物技术、药物发现和合成生物学等领域的当前应用,并讨论了该领域未来的发展方向。

AI 驱动的蛋白质设计工具的发展史

该时间线突出了蛋白质设计领域的重要事件,分为三个不同的阶段

蛋白质设计的基础(1950-1990 年代),建立了关键的序列和结构数据集,以及蛋白质分析和设计的基础工具;

计算辅助蛋白质设计(1990-2010 年代),引入了同源建模和用于结构预测及蛋白质工程的计算工具,对蛋白质设计领域做出了重大贡献。深度学习在 2010 年代的变革性影响在其他领域也显而易见,比如 AlexNet 在图像识别方面的成功以及 AlphaGo 在围棋领域的突破。这些进展最终促成了 2017 年 Transformer 模型的问世,为蛋白质设计的进步奠定了基础。

AI 驱动的蛋白质设计(2018 年至今),随着诸如 AlphaFold 2 等 AI 工具的出现而彻底改变了这一领域,在蛋白质结构预测方面达到了接近实验精度。近期的创新包括结构和功能预测方法、生成式模型以及 DNA 合成工具,为蛋白质设计提供了前所未有的能力。展望未来,发展方向将集中在通过先进的 AI 架构来增强蛋白质设计,加速药物发现和开发,并拓展合成生物学的前沿。

蛋白质设计中的 AI 学习范式和模型架构

蛋白质设计中的人工智能学习范式和模型架构

a、三种 AI 学习范式:(L1)监督学习,使用有标签的数据训练模型,包括两个子类别:标准监督学习,直接从有标签的示例中学习(例如序列-功能预测器或结构预测模型);标签高效监督学习,减少对大型有标签数据集的依赖;(L2)无监督学习,通过语言建模(预测下一个标记或推断被遮蔽的标记)、扩散模型(逆转噪声干扰以恢复有意义的数据)、变分自编码器(捕捉概率潜在空间)和对比学习(区分相似与不相似的样本)从无标签数据中学习模式;(L3)强化学习,通过与环境交互来优化智能体的长期决策,其中智能体观察状态、采取行动并接收奖励以指导学习。关键组件包括策略(将状态映射到行动)、价值函数(估计预期奖励)和模型(预测未来状态和奖励)。

b、具有代表性的模型架构:(M1)循环神经网络:将输入数据视为序列,逐步处理以捕获序列内的依赖关系,例如氨基酸链;(M2)Transformer:使用注意力机制,为输入序列(或 标记 )中的每个单元分配不同的重要性(或 注意力 ),使模型能够学习蛋白质序列中残基或结构中的结构段的长程关系;(M3)卷积神经网络:通过应用滑动窗口捕获局部结构特征,适用于网格状数据;(M4)图神经网络:将蛋白质表示为图,节点为原子或残基,边为化学键或相互作用;(M5)几何 3D 网络:捕获蛋白质的 3D 空间结构,在提供 3D 蛋白质结构时可提高折叠和功能预测的准确性。

蛋白质设计策略与工作流程

蛋白质设计策略与工作流程

a、蛋白质设计项目首先明确目标,并从功能、结构和可开发性这三个维度对其进行评估,这些评估结果将指导设计策略的制定,以在广阔的可探索序列空间中寻找最优序列。然后通过三个阶段的迭代循环来实现设计目标:(I)确定策略:在定向进化和理性设计策略之间做出选择,以指导寻找最优序列。定向进化是一种结果驱动的方法,通过反复筛选突变的蛋白质变体来实现目标,而理性设计是一种知识驱动的方法,依赖于对序列 - 结构 - 功能关系的理解来指导设计。(II)库设计:此阶段设计一系列序列以最大程度地提高找到功能性蛋白质的机会。对于定向进化,首先选择具有有利特性的现有蛋白质(亲本选择),然后使用诱变和多样化来寻找改进的变体;对于理性设计,首先阐明驱动蛋白质功能的机制和随后进行有针对性的修改。(III)筛选与优化:设计的文库序列进行 DNA 合成和蛋白质表达以进行实验验证,完成一轮设计流程,实验结果指导后续轮次。重复循环直至获得满足目标的蛋白质,通常涵盖活性、特异性、可开发性和稳定性等多个关键特性。项目可能会结合这两种策略来解决蛋白质设计的各个方面。

b、利用 AI 工具包推进蛋白质设计:AI 工具支持设计的每个阶段,从策略定义到蛋白质数据库搜索(T1)、结构预测(T2)和功能预测(T3),再到蛋白质序列(T4)和结构(T5)生成,最后进行虚拟筛选(T6)和 DNA 合成(T7),以实现高效的筛选和验证。

用于蛋白质设计的人工智能工具包

作者们将 AI 工具分为七个工具包,每个工具包包含特定的子工具包:(T1)蛋白质数据库搜索使用序列比对(T1a)和结构模板(T1b)来检索候选蛋白质;(T2)蛋白质结构预测从序列预测折叠(T2a 和 T2b),评估结构稳定性(T2c)以及建模构象动力学(T2d);(T3)蛋白质功能预测涵盖基因本体论(T3a)、结合位点识别(T3b)以及翻译后修饰分析(T3c);(T4)蛋白质序列生成基于进化模式(T4a)、功能标签(T4b)或结构模板(T4c)创建序列;(T5)蛋白质结构生成设计满足特定折叠目标的结构;(T6)虚拟筛选包括结合和功能活性预测(T6a)以及可开发性和原性评估(T6b);(T7)DNA 合成执行反向翻译和密码子优化以增强蛋白质合成。

AI 驱动的蛋白质设计路线图

该路线图展示了 AI 工具包(a)如何贯穿两个阶段:库设计(b)和筛选与优化(c),作为从概念到验证开发人工智能驱动的蛋白质设计项目的。该路线图应在明确目标并选定设计策略之后应用。在每个阶段,编号步骤(1-6)表示更精细的任务操作。b,定向进化和理性设计都遵循其自身的三步库设计序列(步骤 1-3,蓝色图标)。c,步骤 4-6(红色图标)涉及筛选和优化。在每个步骤中,特定的设计任务(黄色图标)指明所需的操作, 工具包:T\。a,人工智能工具包:工具被组织成七个主要工具包(T1-T7),并细分为服务于蛋白质设计各个方面的小工具包,成熟度水平(萌芽、高级和成熟)反映了真实世界中的验证和部署准备情况。b,定向进化设计候选库三个步骤:第一步(DE.1),选择具有基本功能和适应性的 母体 蛋白质;第二步(DE.2),确定关键的突变区域;第三步(DE.3),引入突变以产生多样性,从而便于寻找改进的变体。相比之下,理性设计在三个步骤中构建库:第一步(RD.1),设计满足特定标准的功能性结构;第二步(RD.2),生成预测可折叠成该结构的序列;第三步(RD.3),进行有针对性的修改以增强符合设计目标的特性。c,筛选和优化:在库设计之后,第四步(SO.4)虚拟筛选库以提高效率;第五步(SO.5)将蛋白质设计转化为 DNA 以便在宿主细胞中表达;第六步(SO.6)通过实验验证设计。如果设计通过验证,则目标达成;否则,将重复使用 AI 预测和/或实验验证,提供反馈以指导库设计的下一轮迭代。请注意,该路线图具有灵活性;步骤可以跳过或在中途启动。例如,在理性设计中,如果只需对现有蛋白质进行细微修改以实现优化,则直接从第三步(RD.3)开始。

AI 驱动的蛋白质设计案例研究

a、AI 能驱动的腺相关病毒(AAV)衣壳定向进化:在野生型(WT)AAV2 亲本的指定位置引入随机突变,生成包含 1010个 AAV2 序列的虚拟文库。利用集成 AI 模型高效筛选这些序列,以预测衣壳的存活能力。该过程将文库筛选至 20426 个序列,其中 110689 个(58.1%)经实验验证为存活序列,包括与野生型相比最多有 29 个突变的设计。

b、AI 驱动的抗体定向进化:使用 ESM 蛋白质语言模型生成重链和轻链突变体,通过预测最有可能提高总体适应性的突变来实现,无需依赖结构或特定功能指导。在每一轮中,对 ESM 生成的前 20 个或更少的抗体变体进行实验筛选。经过两轮此过程,四个高度成熟的抗体的结合亲和力提高了多达 7 倍,三个不成熟的抗体提高了多达 160 倍。

c、AI 驱动的理性抗体优化:使用 ESM-IF 反向折叠来当给定实验确定的抗体-抗原复合物时,识别用于序列生成的有益突变,然后对合成的变体进行实验筛选。

d、基于 AI 从头设计的荧光素酶的理性设计:使用 trRosetta 工具生成新的 NTF2 框架,该框架由从结构数据库中搜索到的类似 NTF2 的结构引导,并使用Rosetta进行拓扑引导突变预测。这些框架进一步使用 RifDock(一种蛋白质-配体对接模型)和 RosettaDesign 进行优化,以优化口袋结构,而 ProteinMPNN 则用于优化和虚拟筛选数千种新的蛋白质序列。实验筛选确定了几种活性变体,其中 LuxSit 表现出色,具有出色的热稳定性(熔点 95 C)和对 DTZ 与合成底物的化学发光反应的高度特异性。

AI 已将蛋白质设计从优化抗体推进到创造新型荧光素酶。然而,设计复杂的多功能蛋白质,例如大型多结构域组装体或具有复杂别构网络的蛋白质,仍然具有挑战性,这凸显了未来创新的机会。

要应对这些挑战,下一代 AI 工具必须建立在坚实且多样化的数据基础之上。训练数据驱动模型学习,而验证数据则用于评估性能。训练集中的偏差或缺失会扭曲预测结果,不具代表性的验证数据会误导开发,掩盖其真正的效用。因此,稳健的数据协议至关重要。这包括全面的训练库、严格的验证以及诸如对代表性不足的序列进行重新加权等偏差缓解策略。同样重要的是,AI 工具能够动态整合新的生物学和实验数据。例如,Chai-1 通过纳入表位条件约束将预测准确率提高了一倍,而变分合成则能够以优化的实验参数实现千万亿级的合成。利用大规模、高质量的数据集可能会在诸如内在无序蛋白质等此前难以触及的领域开辟新的途径。

除了数据之外,可解释性仍然是一个关键障碍。许多 AI 工具都像黑箱一样运作,对其决策过程几乎毫无解释。为了促进采用和建立信任,需要可解释的 AI 方法来阐明计算机模拟设计的基础。早期使用稀疏自动编码器的努力显示出发现可解释特征的前景,让人们得以一窥这些工具背后的 思考 过程。

当这些方法论基础就位时,由 AI 驱动的蛋白质设计有望开启精准治疗的新时代,将诸如癌症相关但没有明显小分子结合口袋的蛋白质等曾经 不可成药 的靶点向蛋白质药物开放。先进的 AI 模型能够微调结合特异性,并增强诸如稳定性、溶解性和可制造性等特性。这种能力加快了设计-制造-测试-分析的循环,使个性化、可及的治疗成为可能。然而,实验验证仍然是瓶颈,生物的复杂性甚至会使准确的模型转向不相关的靶点或遗漏关键的疾病机制。关键属性(尤其是稳定性和免疫原性)的稀疏数据也限制了进展。扩大数据覆盖范围,例如纳入新的高通量稳定性测量或经过整理的免疫原性数据,将增强模型的稳健性和可转化性。

AI 驱动的方法也在超越传统的蛋白质工程,后者一直专注于对天然蛋白质进行改造或重组已知的功能域。新兴的方法现在能够设计出具有自然界中不存在的功能的全新蛋白质和生物系统。诸如family-wide hallucination、RFDiffusion 和 AlphaProteo 等策略在从头生成结合蛋白方面实现了高精度。这种能力的影响不仅限于单个蛋白质,还延伸到了更广泛的合成生物学领域,在该领域,未来的 AI 工具或许能够预测和优化复杂的基因网络,从而实现具有精确控制功能的分子电路。然而,由于细胞系统的复杂性以及对蛋白质与其他细胞成分之间相互作用的新兴行为理解有限,设计分子电路仍然具有挑战性。此外,合成生物学的伦理问题也必须得到解决。

展望未来,AI 有可能设计出包含非标准氨基酸或全新化学骨架的系统,从而带来前所未有的稳健性和全新功能,甚至整个蛋白质组的设计也变得可以想象 基因组语言模型 Evo 已经开始构思整个蛋白质组,凸显了这种可能性(尽管这种能力尚未完全实现,而且由此产生的蛋白质组目前还不具备功能)。

版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

医药网新闻
返回顶部】【打印】【关闭
扫描100医药网微信二维码
视频新闻
图片新闻
医药网免责声明:
  • 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
  • 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040