生物学DeepSeek来了!华人学者联合英伟达推出最大生物学AI模型,完全开源,可生成所有生命的基因组,甚至从头设计生命 |
![]() |
生物学DeepSeek来了!华人学者联合英伟达推出最大生物学AI模型,完全开源,可生成所有生命的基因组,甚至从头设计生命
来源:生物世界 2025-02-24 14:45
Arc 研究所的 Patrick Hsu 和 Brian Hie 团队联合斯坦福大学、加州大学伯克利分校、加州大学旧金山分校以及英伟达的科学家,发布了有史以来最大的生物学人工智能模型——Evo-2。2025年 2 月19 日,生物学领域的一个重要里程碑诞生了!
Arc 研究所的Patrick Hsu 和 Brian Hie 团队联合斯坦福大学、加州大学伯克利分校、加州大学旧金山分校以及英伟达的科学家,发布了有史以来最大的生物学人工智能模型(AImodel for biology) Evo-2,其在规模上堪比当前最强大的生成式人工智能大语言模型,但其训练仅使用了 2000多个英伟达 H100 GPU,且该模型完全开源。
该模型训练了从单细胞的细菌、古菌到真核生物以及多细胞的植物以及人类的生命之树中的 12.8 万个基因组 DNA 序列,从而能够实现对所有生命域的理解、建模和设计遗传密码,从头开始编写整个染色体,甚至从头设计生命,还能准确预测所有类型的基因突变(包括编码基因和非编码基因)的影响。
Evo-2 的训练使用了2000多个英伟达H100 GPU,并得到了英伟达研究人员和工程师的合作支持。更重要的是,Evo-2 是完全开源的,在 GitHub 上共享了模型参数、训练代码、推理代码以及训练使用的 OpenGenome 2 数据集。世界各地的研究人员可以通过英伟达 BioNeMo 平台免费访问以及部署 Evo-2。
Evo-1
2024 年 11 月 15 日,Patrick Hsu 和 Brian Hie 团队在国际顶尖学术期刊 Sciencce 上发表了题为:Sequence modeling and design from molecular to genome scale with Evo 的研究论文,该论文还被选为当期的封面论文。
该论文发布了首个在全基因组规模上以单核苷酸分辨率预测和生成 DNA 序列的 AI 模型 Evo。
Evo是在原核生物(细菌、古菌)和噬菌体的基因组上进行训练,能够在 DNA、RNA 和蛋白质模式下实现零样本功能预测,还能够生成长度超过百万碱基对的具有合理基因组结构的 DNA 序列。研究团队使用 Evo 生成了 CRISPR-Cas 分子复合物和 IS200/IS605 转座子,并验证了它们的功能活性,这是首次通过语言模型实现蛋白质- RNA 和蛋白质- DNA 协同设计的实例。
值得一提的是,PatrickHsu 是 CRISPR 基因编辑先驱张锋教授的第一届研究生,现为 Arc 研究所联合创始人、加州大学伯克利分校助理教授。2024 年 6 月 26 日,PatrickHsu连发两篇Nature 论文,开发了一种基于桥 RNA(Bridge RNA)的新型基因编辑工具,其能够在特定基因组位点插入、倒位或删除。
Evo-2
Evo-2 的前身 Evo 完全是在单细胞生命的基因组上进行训练的,而Evo-2 进一步将其训练数据扩展到了生命的所有域 从细菌、古细菌、噬菌体,以及植物、动物、人类和其它单细胞和多细胞的真核生物,总计12.8 万个全基因组和宏基因组数据的 9.3 万亿个核苷酸,训练参数高达 400 亿(Evo-2 有两个版本,训练参数分别是 70 亿和 400 亿)。
此外,Evo-2 使用了 StripedHyena 2 架构,这是一种新的卷积混合架构,结合了多种不同的操作符,相比 Transformer 架构,能够大幅提高训练速度和推理效率。Evo-2 的训练分为两个阶段:预训练阶段和中训练阶段。预训练阶段使用 8192 碱基对的上下文窗口,专注于功能性遗传元件;中训练阶段将上下文窗口扩展到 100 万碱基对,以学习长基因组距离之间的作用(真核生物中调控序列与基因序列之间距离可能很远)。
Patrick Hsu 表示,Evo 和 Evo-2 代表了新兴生成式生物学领域的一个关键时刻,这些模型已经使机器能够用核苷酸的语言来读、写以及思考。Evo-2 对生命之树有着全面的理解,这对许多任务都很有用,从预测致病突变到设计人工生命。期待科学家和工程师们在Evo-2 基础上建立起一个生物学的 应用商店 (App Store)。
Evo-2 的模型架构、训练程序、数据集和评估概述
Evo-2 的预测能力
与原核生物相比,真核生物的基因组要复杂得多,真核生物的基因是由编码区和非编码区的分散片段组成,而且非编码的调控序列可能远离其所调控的编码序列。而 Evo-2 的长达 100 万碱基对的长上下文窗口,使其具备了理解真核生物基因组的能力。
验证实验显示,Evo-2 能够预测跨越所有生命域的基因突变的功能影响,包括非编码序列的致病突变,还能准确预测人类相关的BRCA1 基因突变(在预测良性突变和潜在致病突变方面准确率超过 90%),而无需针对任务特定进行微调。
Evo-2 的生成能力
研究团队还验证了 Evo-2 的生成能力,Evo-2能够从头生成线粒体基因组序列、原核生物(细菌)基因组序列以及真核生物(酵母)整个染色体序列,其生成序列的自然性和连贯性优于以前的方法。此外,Evo-2 还能通过推理时搜索(inference-time search,指 AI 模型推理阶段动态调整搜索策略以优化输出结果),可控地生成表观基因组结构。
跨越生命域的基因组规模的生成能力
需要指出的是,从安全角度考虑,研究团队从 Evo-2 的基本数据集中排除了能够感染人类和其他复杂生物的病原体,并确保 Evo-2 不会对有关这些病原体的查询提供有效答案。
Evo-2 的潜在应用
Evo-2 在包括细菌、植物、动物以及人类的大量物种的基因组序列中进行了训练,其预测和生成能力可应用于医疗保健、药物研发、农业技术、合成生物学以及材料科学等各个领域。
在医疗保健和药物研发方面,Evo-2 能够帮助寻找人类疾病的遗传原因,揭示基因表达与疾病之间的关联,帮助设计治疗疾病的新型分子,从而加速新药研发,节省进行细胞实验或动物实验所需的大量时间和研究资金。
在农业技术方面,Evo-2可以提供对植物生物学的见解,帮助科学家开发更适应气候变化或营养密度更高的作物新品种,从而帮助解决全球粮食短缺问题。
在合成生物学领域,Evo-2 可用于设计生物燃料或制造分解石油或塑料的蛋白酶。
总的来说,Evo-2 是一个强大的基因组建模和设计 AI 工具,能够跨越所有生领域进行基因组的预测和生成,通过完全开源,Evo-2 为生物复杂性的探索和设计提供了新的可能性。Evo-2 及其未来的迭代版本代表了基因组和表观基因组设计的第一步,结合大规模可编程 DNA 操作的实验进展,Evo-2 有望实现直接编程多样化的合成生命。
版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

- 相关报道
-
- 生物学DeepSeek来了!华人学者联合英伟达推出最大生物学AI模型,完全开源,可生成所有生命的基因组,甚至从头设计生命 (2025-02-24)
- Nat Med:新研究发现利用CAR (2025-02-24)
- 战胜时间的癌症斗士!Nature:HIV病毒蛋白Nef助力新型CAR (2025-02-24)
- 《癌症通讯》:一旦感染,阴魂不散!新桥医院团队首次发现,幽门螺杆菌能将促癌“写入”宿主细胞基因组 (2025-02-24)
- 厦门大学和万泰生物联合研制生产的P85-Ab鼻咽癌诊断检测试剂盒入选2024年中国医药生物技术十大进展 (2025-02-24)
- Cell Biomaterials:北京大学林志强/张强团队全面综述脑病中的线粒体——从分子结构机制到靶向治疗 (2025-02-24)
- Cell:脑细胞模拟肌肉信号传导来增强学习和记忆 (2025-02-24)
- 柳叶刀:AAV基因疗法,帮助遗传性失明儿童重见光明 (2025-02-24)
- 血管中也有“捣蛋鬼”!Angiogenesis研究用可视化血管类器官模型,揪出“捣乱分子”,给新药研发“开绿灯”! (2025-02-24)
- Cell Stem Cell:揭示成年人类大脑中神经干细胞被激活的分子机制 (2025-02-23)
- 视频新闻
-
- 图片新闻
-
医药网免责声明:
- 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
- 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040