您的位置:医药网首页 > 医药资讯 > 医药政策法规 > 百度研究成果发表于《Nature》子刊:利用几何构象提高化合物分子建模效果

百度研究成果发表于《Nature》子刊:利用几何构象提高化合物分子建模效果

近日,百度在国际顶级期刊《Nature》的子期刊《NatureMachine Intelligence》(影响分16.65)上发表了AI生物计算的最新研究成果《Geometry Enhanced Molecular Representation Learning for Property Prediction》,提出了“基于空间结构的复合表征学习方法”。即几何增强分子表征学习(GEM模型)揭示了一种基于三维空间结构信息的复合建模方法及其在药物研发中的应用。

论文:https://www.nature.com/articles/s42256-021-00438-4

公开资料显示,《Machine Intelligence》是《Nature》的顶级期刊,专注于机器学习领域。在过去的两年中,该期刊的数量已超过16。在本次研究中,百度propeller PaddleHelix团队首次将化合物的几何结构信息引入自监督学习和分子表示模型,并在十余个下游属性预测任务中获得SOTA,成为百度在AI赋能药物研发领域公开的又一重大成果。

改变医学研究领域,人工智能生物计算成为最佳选择。

众所周知,药物研发成本高、周期长、风险大。根据塔夫茨大学2014年的研究,新药进入市场的平均成本约为26亿美元,从首次合成到临床试验的平均时间为31.2个月,从I期临床试验到上市的时间为96.8个月。另一方面,随着全球老龄化社会的到来,对新药的需求逐年增加。到2024年,全球医药市场规模将超过11万亿。相反,药企每投入10亿美元上市的新药数量却在逐年减少。如何通过新的技术手段快速找到潜在的候选药物,降低失败的风险,成为药物研发领域最迫切的问题。

在计算方法出现之前,药物研发基本都是用生物实验来寻找药物,成本高,耗时长。随着计算化学和计算生物学的发展,传统的机器学习方法也被用来辅助药物设计。然而,这些方法在效果和效率方面或多或少是不够的。以小分子为例,寻找一个候选药物,筛选(搜索)的数量级达到10的60次方,传统的计算方法很难高效完成。另一方面,随着AI技术的发展和普及,药物研发逐渐进入AI时代。天生擅长处理的AI深度学习技术近年来成为关注的焦点。希望新的AI技术能够提高药物研发的效率,降低后期失败的概率,降低药物研发的成本。

化合物性质预测的主要目的是及时发现理化性质不达标的化合物,从而降低候选化合物在临床试验中失败的风险,提高药物研发的成功率。传统的化合物性质预测和分析一般采用实验方法,成本高,耗时长。业界也有一些基于AI算法的作品,但大多是利用化合物的二维信息,没有包括化合物的三维空间结构信息。百度首次提出将化合物的空间结构信息引入化合物预训练,通过几何增强的自监测学习对化合物分子进行表征,通过化合物的表征自主推断空间结构信息,从而预测化合物分子的性质和属性,辅助药物研发,提高效率,降低成本。

值得一提的是,这项研究是由百度propeller PaddleHelix生物计算团队独立完成的,它已经在药物研发领域与早期药物研究管道中的合作伙伴联手。

百度创业板模式加速药物研发进程

大量的研究工作证明了机器学习技术,尤其是深度学习在预测化合物性质方面的巨大潜力。这些作品使用序列(微笑表达式)或图形(原子作为节点,化学键作为边)来表示化合物,并使用序列建模或图形神经网络(GNN)来预测化合物的性质。在一些研究中,直接将每个化合物看作一个图,利用基于图拓扑的自监督学习方法进行分子表征,例如覆盖和还原化合物的图中的原子、化学键或子结构。但是,这些方法只是把化合物看作拓扑图,没有充分利用化合物的几何结构信息。化合物的几何结构,即三维空间结构,对化合物的物理、化学和生物性质起着关键作用,同样拓扑结构的两种化合物的空间结构可能完全不同。另一方面,由于生物实验操作复杂,成本高,化合物的标记数据稀缺而珍贵。数据稀疏使得深度神经网络容易过拟合,难以发挥其强大的建模能力。如何从海量的未标记化合物中学习高质量的化合物表示,成为化合物建模和属性预测的关键。

鉴于此,百度提出了一种全新的基于空间结构——几何构象增强AI算法GEM的化合物建模方法,设计了多个几何层次的自监督学习策略来学习化合物的空间结构知识,使化合物的表征能够自主推断空间结构信息。该技术在十余个化合物属性预测基准数据集上取得了显著效果,并成功应用于候选化合物ADMET药性预测任务中,取得了良好的效益。

几何构象增强人工智能算法的GEM模型解读

几何形态增强人工智能算法的GEM模型由两个主要部分组成:基于空间结构的图形神经网络(A)和多几何层次的自监督学习任务(B)。

图1:的总体框架

基于空间结构的图形神经网络由于化合物的聚集态结构,完全可以由原子-化学键键长-键角来决定。GEM提出了基于空间结构的图网络,同时对原子、化学键、键角关系的空间结构信息进行了建模。每个化合物由两个图形组成:原子-化学键的图形G和化学键-键角的图形H。与之前的工作类似,原子-化学键图G将原子作为图的节点,化学键作为连接原子的边。但首次引入了化学键-键角的图形H,以化学键作为图形的节点,以两个化学键形成的键角作为图形的边。图神经网络包括多次迭代,每次迭代中以化学键作为图G和图H之间交换信息的桥梁。最后一次迭代的特征用于复合属性预测。

基于空间结构的自监督学习为了使模型更好地学习化学空间知识,GEM不仅以几何信息为输入,还设计了一个基于几何信息的学习任务(目标):预测化学键的长度;预测化学键组成的键角;预测两个原子之间的距离。其中,键长和键角描述了化合物的局部结构,而两个原子之间的距离更关注化合物的全局结构。描述局部结构的自监督学习任务随机选择一个以化合物中一个原子为中心的子图并覆盖它,预测覆盖子图中化学键的键长和化学键之间形成的键角。描述全局结构的自我监督学习任务估计原子距离矩阵中的元素。通过这些基于空间结构的自监督学习任务,图神经网络可以有效地推断化合物的空间信息,从而对化合物的表征产生积极的影响。

实验结果GEM在14个复合属性基准数据集上取得了最好的性能,这些数据集都是目前学术界公认的复合属性预测数据集。例如,在毒性相关数据集(tox21,toxcast)和HIV (AIDS)病毒数据集上,GEM的预测结果远远好于其他基线模型。总体而言,百度的GEM模型在ESOL和FreeSolv等回归任务上提高了8.8%,在BACE、BBBP和SIDER等分类任务上提高了4.7%。此外,对自监督学习方法的烧蚀实验也证明了基于空间结构的自监督学习方法的有效性。

医药网新闻
返回顶部】【打印】【关闭
扫描100医药网微信二维码
视频新闻
图片新闻
医药网免责声明:
  • 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
  • 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040