您的位置:医药网首页 > 医药资讯 > 医药行业分析 > Nature Biotechnology:AI 的“完形填空”,解锁“不可成药”靶点——PepMLM 为多肽药物设计开启新纪元

Nature Biotechnology:AI 的“完形填空”,解锁“不可成药”靶点——PepMLM 为多肽药物设计开启新纪元

当蛋白质遇上语言模型:AI 如何学会 遣词造句 ?

要理解PepMLM的巧妙之处,我们先将视角从三维空间拉回到一维的序列。想象一下,任何一种蛋白质,无论其空间结构多么复杂,其本质都是由 20 种氨基酸(amino acids)按照特定顺序串联而成的链条。这与人类的语言何其相似:有限的字母(氨基酸)构成了无穷的单词和句子(蛋白质),并承载着丰富的功能和意义。

近年来,受自然语言处理(Natural Language Processing, NLP)领域成功的启发,研究人员开发出了蛋白质语言模型(Protein Language Models, pLMs)。它们通过 阅读 数亿条天然蛋白质序列,学习到了氨基酸之间复杂的 语法规则 和 上下文逻辑 ,即蛋白质的进化规律和理化性质。其中,ESM-2模型是当今最先进的代表之一,它如同一个博览群书的 蛋白质语言学家 ,对蛋白质序列的理解达到了前所未有的深度。

PepMLM的核心思想,就是对这位 语言学家 进行一次巧妙的 专科培训 。研究人员没有让模型去预测蛋白质的复杂结构,而是设计了一个极其简洁却直击要害的任务 完形填空 。他们将目标蛋白的氨基酸序列与一个已知能与之结合的短肽序列拼接在一起,然后,用一个特殊的 掩码 (mask)将整个短肽区域完全遮盖起来,再将这个 残缺的句子 输入到精调后的ESM-2模型中。

模型的任务,就是根据目标蛋白这段 上文 ,准确地 填 出被遮盖的短肽。这个过程不断重复,模型在一次次 猜词 和 核对答案 中,逐渐学会了特定目标蛋白序列与它的结合肽序列之间的深层关联。它不再仅仅是一个通晓普遍语法的语言学家,更成为了一位能够根据特定语境(目标蛋白)进行精准 遣词造句 (设计结合肽)的专家。训练完成后,当研究人员给PepMLM一个全新的目标蛋白序列和一串指定长度的空白 掩码 时,它就能够生成一个全新的、理论上能够与该目标蛋白结合的肽序列。这种完全基于序列信息的设计范式,从根本上绕开了对三维结构的依赖,为靶向那些 无形 的蛋白质提供了可能。

虚拟战场的 模拟对抗 :PepMLM 的计算验证

一个新算法的诞生,必须经过严格的考验。在投入昂贵且耗时的湿实验验证之前,研究人员首先在计算机世界里为PepMLM设置了一系列严苛的 模拟对抗 ,以检验其设计的可靠性与优越性。

第一个考验是评估设计的 合理性 。研究人员引入了一个名为 伪困惑度 (pseudo-perplexity, PPL)的指标。在语言模型中,困惑度越低,代表模型对生成序列的 信心 越足,序列也越符合其学到的 语法规则 。研究人员在一个包含 203 对已验证的蛋白-肽结合体的测试集上进行了评估。结果显示,真实存在的结合肽,其PPL值普遍较低,分布在一个合理的范围内。而PepMLM生成的肽,其PPL值的分布曲线与真实结合肽的曲线高度重合,都集中在低分区域。相比之下,未经精调的原始ESM-2模型生成的肽和完全随机生成的肽,其PPL值则显著偏高,分布曲线明显右移。这有力地证明了,PepMLM生成的肽在 语言学 层面是合理且自然的,与真实世界中的功能肽非常相似。

接下来是更具挑战性的 擂台赛 。研究人员将PepMLM与当前顶尖的、基于结构的肽设计方法RFdiffusion进行了正面比较。他们让两种算法为测试集中的每个靶点各设计一个肽,然后利用AlphaFold-Multimer(一种能高精度预测蛋白质复合物结构的工具)来预测这些设计出的肽与靶点结合的 牢固程度 ,这个程度用一个名为ipTM的分数来衡量,分数越高代表预测的结合越可靠。

结果令人振奋。研究人员将每个靶点上已知的真实结合肽的ipTM分数作为 基准线 ,如果AI设计的肽获得了比基准线更高的分数,就被视为一次 成功命中 。在这场竞赛中,PepMLM的命中率达到了 38.39%,而RFdiffusion的命中率为 29.86%。当把标准进一步提高,要求预测的复合物结构整体质量也非常高时(pLDDT分数大于 0.8),PepMLM的优势更加明显,命中率提升至 49%,而RFdiffusion仅为 34%。这意味着,即使在面对有清晰结构的靶点时,PepMLM这个 序列派 选手的表现也毫不逊色,甚至更胜一筹。

最后,研究人员还考察了设计的 特异性 。一个好的药物分子不仅要能结合靶点,更要能 指名道姓 地结合,避免 误伤友军 。他们进行了一项巧妙的置换检验(permutation test):对于一个设计好的 蛋白-肽 配对,他们保持蛋白不变,但将肽的氨基酸序列随机打乱 100 次,形成 100 个错误的配对。结果发现,这些 乱序 肽的PPL分数急剧升高,与原始配对的低PPL分数形成了鲜明对比。这就像一把钥匙,只有以正确的齿序排列时才能轻松打开锁芯(低PPL),一旦打乱顺序,就再也无法匹配(高PPL)。这一结果清晰地表明,PepMLM设计的肽是为特定靶标 量身定制 的,具有高度的序列特异性。

从比特到试管:实验室里的 真刀真枪

虚拟世界的成功固然可喜,但真正的考验终将回归到物理世界。PepMLM设计出的肽序列,在真实的生物环境中是否依然有效?为了回答这个问题,研究人员将计算设计带入了实验室,进行了一系列 真刀真枪 的验证。

他们选择了两个与人类疾病密切相关的蛋白质作为靶点:一个是神经细胞黏附分子 1(NCAM1),它在急性髓系中扮演着关键角色;另一个是抗苗勒管激素 II 型受体(AMHR2),是多囊卵巢综合征的重要调控因子。研究人员分别使用PepMLM和RFdiffusion为这两个靶点设计了四条候选肽,并在体外通过酶联吸附测定(ELISA)的方法检测它们的结合能力。

实验结果清晰地展示了两种方法之间的差异。对于两个靶点,PepMLM设计的全部四种肽都表现出了结合信号。其中最优的候选肽,在靶点蛋白浓度低至约 60 nM 时就能检测到显著的结合反应,显示出良好的亲和力。当研究人员进一步测试NCAM1的最优结合肽时,发现在大约 30 nM 的浓度下,其结合信号就已显著高于背景对照。

反观基于结构的RFdiffusion,其表现则不尽如人意。它为NCAM1设计的肽虽然产生了一定的结合信号,但远弱于PepMLM的设计;而为AMHR2设计的肽,则几乎没有显示出任何有效的结合,与阴性对照无异。这一轮直接的实验对比,强有力地证实了PepMLM不仅在理论上可行,在实践中同样能够高效地生成具有真实生物活性的功能肽,其成功率和效果甚至超越了主流的结构设计方法。

制导导弹 的诞生:靶向降解顽固的致病蛋白

找到能够结合靶点的肽只是第一步,更激动人心的应用在于如何利用这些肽来主动干预疾病进程。研究团队将目光投向了近年来炙手可热的靶向蛋白降解(Targeted Protein Degradation, TPD)技术。其核心思想是,不再仅仅抑制问题蛋白的功能,而是直接将其 标记 并送入细胞内的 垃圾处理厂 蛋白酶体(proteasome),进行彻底清除。

为此,他们利用了一种名为 泛素抗体 (ubiquibody, uAb)的巧妙工具。这是一个融合蛋白,一端是PepMLM设计的、能够精准识别靶点的肽(如同导弹的 制导系统 ),另一端则连接着一个能够招募 E3 泛素连接酶的结构域(如同 战斗部 )。当这个uAb在细胞内表达时,它会像一枚精确制导的导弹,找到目标蛋白并与之结合,然后 E3 连接酶会为目标蛋白贴上 泛素化 的死亡标签,引导其被蛋白酶体降解。

研究人员首先将这一策略应用于亨廷顿病(Huntington s disease)的治疗。这是一种毁灭性的神经退行性疾病,由亨廷顿蛋白(HTT)基因中的CAG重复序列异常扩增导致。他们设计了uAb来降解两种关键蛋白:一种是导致疾病的突变型亨廷顿蛋白(mHTT)本身;另一种是名为MSH3的蛋白,它会加剧CAG序列的不稳定性,从而恶化病情。

实验结果非常出色。在人类细胞模型中,他们测试了六种针对MSH3的uAb,其中五种都成功地、显著地降低了 MSH3 蛋白的水平。随后,他们又将五种针对mHTT的uAb转染到来自亨廷顿病患者的成纤维细胞中。在药物诱导uAb表达后,所有的五种uAb都显著降低了mHTT蛋白的含量。这表明,PepMLM能够设计出高效的 制导系统 ,引导细胞清除这些顽固的致病蛋白。

研究团队并未止步于此,他们将目光转向了另一个严峻的公共卫生挑战 新发病毒感染。他们选择了三种危险的病毒作为目标:尼帕病毒(Nipah virus, NiV)和亨德拉病毒(Hendra virus, HeV),这两种病毒致死率极高,具有大流行的潜力;以及人类偏肺病毒(human metapneumovirus, HMPV),这是一种常见的呼吸道病毒,在儿童和老人中可能导致重症。他们针对这三种病毒中对于病毒复制至关重要的磷蛋白(phosphoprotein),分别设计了 20 种uAb。

在细胞共转染实验中,研究人员观察到,总共有 37 种uAb表现出对病毒磷蛋白的降解能力,平均降解效率在 20% 到 49% 之间,整体命中率高达约 63%,这与他们之前的计算模拟预测的命中率惊人地一致。为了进一步验证其在真实病毒感染环境下的效果,他们将几种针对HMPV的候选uAb转染到细胞中,然后用活的HMPV病毒进行感染。通过免疫荧光成像可以直观地看到,在表达了高效uAb的细胞中,病毒磷蛋白的绿色荧光信号几乎被完全清除了。这一结果极具说服力,它不仅证明了PepMLM能够在细胞内实现高效的蛋白降解,更揭示了其作为一种广谱抗病毒药物开发平台的巨大潜力。

开启 无结构 设计新范式:AI 将如何重塑药物研发的未来?

PepMLM的问世,其意义远不止于提供了一个新的算法。它代表了一种药物设计理念的深刻转变 从 眼见为实 的结构依赖,转向 洞察本质 的序列驱动。这为我们打开了通往广阔 不可成药 世界的大门。那些因结构无序、动态多变而被传统方法搁置的靶点,如转录因子、融合蛋白等,如今都有了被精准靶向的希望。

这项工作的巧妙之处在于它的简洁与高效。研究人员并没有从头构建一个庞大而复杂的模型,而是站在巨人(ESM-2)的肩膀上,通过一个简单而深刻的 完形填空 任务,对现有模型进行高效的 再训练 ,就实现了功能上的巨大飞跃。这使得该技术具有很高的可及性和可扩展性,任何具备目标蛋白序列信息的研究者,都有可能利用它来快速生成候选的结合肽。

当然,PepMLM的征途才刚刚开始。未来的研究可以在此基础上进行更多激动人心的探索。例如,将PepMLM的生成能力与高通量的实验筛选相结合,形成一个 设计-测试-学习 的闭环,通过主动学习(active learning)让模型在迭代中变得越来越 聪明 。此外,还可以通过训练模型识别和理解蛋白质的翻译后修饰,从而设计出能够特异性靶向特定修饰状态(如磷酸化)的肽,实现更高层次的精准调控。

总而言之,PepMLM的出现,就像为药物研发人员配备了一副能够破译蛋白质 内在语言 的 解码器 。它让我们相信,即使面对那些最难以捉摸的疾病靶点,只要我们能读懂其最核心的序列信息,就有可能设计出与之对话、乃至掌控其命运的分子工具。在人工智能的助力下,一个全新的、由序列直接主导的药物发现范式正在拉开帷幕,它必将深刻地改变我们对抗复杂疾病的方式,为无数患者带来新的希望。

版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

医药网新闻
返回顶部】【打印】【关闭
扫描100医药网微信二维码
视频新闻
图片新闻
医药网免责声明:
  • 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
  • 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040