全球首个百亿级人类基因组基础模型Genos发布! |
![]() |
在生命科学的前沿探索中,我们早已能高效 读出 生命的序列,但如何从30亿碱基对中 读懂 生命奥秘,长期以来都是一项巨大挑战,如同在没有地图的荒野中寻找路径。
10月23日,在第二十届国际基因组学大会(ICG-20)上,华大生命科学研究院与之江实验室联合发布了全球首个百亿参数人类基因组通用基础模型 Genos。这一针对人类基因组深度优化的基因组基础模型,可支持高达百万碱基对的超长上下文分析,并实现单碱基分辨率的识别。
Genos的推出标志着基因组研究从 读出 碱基序列迈向 读懂 生命底层逻辑的一次关键转折,有望为临床疾病、个人基因组及前沿科学研究带来突破性变革。
据悉,Genos的相关成果已发表于国际学术期刊GigaScience。
文章截图(https://doi.org/10.1093/gigascience/giaf132)
广度、深度、效率兼具,一款真正具有生产力的基因组大模型
要读懂 生命之书 ,首先需要一本完整的 字典 。
基因组学领域内的现有模型大多基于一到两个参考基因组进行训练,难以捕捉人类丰富的遗传多样性。而Genos则系统整合了人类泛基因组参考联盟(HPRC)、人类基因组结构变异图谱计划(HGSVC)等多个权威公开资源,首次汇聚了全球范围内636个 端粒到端粒 (T2T)级别的高质量人类基因组作为训练数据。这些数据覆盖了全球不同人群,旨在从源头减少数据偏见,更全面地代表人类遗传多样性。
基因组的语言极其复杂,一个微小的单碱基突变,其影响可能由百万碱基之外的 遥远 调控元件决定。这要求模型既要有 显微镜 般的单碱基精度,又要有 广角镜 般的百万级超长上下文理解能力。
如同阅读一部鸿篇巨著,既能一字不差地记住细节,又能洞悉全局的宏大叙事。Genos通过混合专家(Mixture-of-Experts, MoE)架构,巧妙地解决了这一挑战。MoE架构如同一个拥有众多顶尖专家的智慧团队,面对任务时,总能精准调度最相关的几位专家协同处理,而不是调动所有人全部待命。这一 按需激活 的机制,让Genos在拥有百亿级参数的庞大知识总量的同时,推理成本和资源消耗却远低于同等规模的模型,真正实现了 既强大,又好用 。
为了全面验证模型的性能,研发团队进行了一系列测试。在基因组元件识别、远程调控预测、突变致病性预测等经典评测任务里,Genos在超过一半的任务里比所有现有模型都表现更好,而且长序列评测任务里,如突变热点识别和族群分类上,Genos的表现远超同类模型,展现了其强大的上下文分析能力,有效破译基因组中的 暗物质 。
更重要的是,Genos在直接面向临床应用的致病性突变解读任务中,实现了92%的准确性,当结合021科学基础模型后,准确率更是高达98.3%,为临床诊断提供了全新的高效工具。综合多项评测结果,Genos在各项核心任务中的表现均全面超越了现有最佳水平(SOTA),证明了其卓越且全面的能力。
共有、共为、共享,让前沿科技触手可及
一个模型无论多么强大,如果不能被方便地部署和使用,其价值便大打折扣。目前,全球基因组学领域尚无一款能够被开发者和研究者直接部署、用于下游应用的百亿级人类基因组基础大模型。而Genos的发布,则填补了这一空白。它是一个可以走向临床、走向个人、走向每一个实验室的 实践先锋 ,为无限的下游应用创新提供了坚实的地基。
今年是人类基因组草图绘制完成25周年。 共有、共为、共享 ,既是人类基因组计划的精神传承,也是Genos与生俱来的核心理念。
发布会上,华大生命科学研究院宣布,Genos模型将全面、彻底地开源开放,且同时提供12亿和100亿参数两个版本,满足不同应用场景的需求。目前,两个版本的模型权重、架构细节与完整训练流程,均已在GitHub、Hugging Face、魔搭等平台依据MIT开源协议公开发布,供全球开发者和科研人员自由使用。同时,在之江实验室的开放平台Zero2X也已发布。
另外,考虑到并非所有使用者都拥有强大的算力资源,该模型已被深度整合进DCS Cloud云平台。用户无需进行复杂的安装配置,即可一键调用Genos,平台为每个账户提供了高达10万次的免费推理服务,极大地降低了基因组智能分析的门槛。
目前,在科研领域,Genos模型通过与DCScloud结合,能仅凭DNA序列 秒级 预测RNA表达谱,将过去数周甚至数月才能完成的生物信息分析流程极大提速。此外,Genos模型也已整合进生命科学数据库CNGBdb,可帮助用户精准预测细胞表达量,高效筛选和验证关键候选基因,大幅加速科研发现。
在临床应用领域,Genos模型与华大已发布的GeneT深度思考模型结合,能为遗传疾病诊断提供专家级的多模态解读。而在个人健康领域,目前Genos模型已整合进BGE平台,将赋能个人基因组报告解读,把复杂的生命代码翻译成每个人都能读懂的、个性化的健康 说明书 。
值得一提的是,Genos的诞生,源自一次大胆的跨界融合与人才培养实践。该模型的核心研发团队,来自华大生命科学研究院与之江实验室联合发起的 大模型种子班 。这个汇聚了生物信息专家与计算科学骨干的精英团队,依托 以问题导向实训、以任务驱动创新 的模式,正推动生命科学研究从 数据挖掘 迈向 智能涌现 的新纪元。也正是这种跨界碰撞,为Genos的颠覆性创新注入了最核心的动力。
此次Genos的发布,标志着一个新时代的开启:一个基因组智能分析的时代,一个人人都能读懂自己生命天书的时代,正加速到来。为持续推动模型迭代,华大生命科学研究院近期还联合国内外多家单位共同发起了 十万长读长大人群联盟(Long100K Genomes Consortium) 和 百亿细胞计划(10BC) 两项大科学计划。其中, 十万长读长大人群联盟 将依托最新的Cyclone长读长测序技术,完成10万人的 端粒到端粒 级别完整基因组测序,为基因组大模型提供高质量的训练数据。而 百亿细胞计划 则将依托Stereo-Cell超高通量细胞组学技术,完成百亿细胞测序,助力基因和细胞的融合大模型开发。从基因组到多组学,一个更强大的生命科学基础模型正在孕育之中。
版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

- 相关报道
-
- 全球首个百亿级人类基因组基础模型Genos发布! (2025-10-23)
- CRISPR编辑肝类器官破解凝血因子VII缺乏症难题!Haematologica开辟罕见出血病自体治疗新范式 (2025-10-23)
- 《细胞》:肿瘤被“坑”杀!哈佛大学团队发现全新抗癌结构,杀伤性T细胞可在里面直接杀死癌细胞 (2025-10-23)
- Nature子刊:鲁明/钦伦秀团队发现肿瘤相关巨噬细胞促进肝癌转移的新机制 (2025-10-23)
- 《科学》:科学家发现酸中毒是肿瘤适应代谢压力的关键! (2025-10-23)
- 第三轮通知 | 2025年CSEV第九届细胞外囊泡大会倒计时2天! (2025-10-22)
- Adv Sci/eLife:中山大学高国全/杨霞/齐炜炜团队从代谢角度揭示阿尔兹海默症认知功能障碍的新调控分子 (2025-10-22)
- 《自然·代谢》:巨噬细胞竟是个“醋坛子”!中科院/复旦团队首次发现,肝癌用乳酸诱导巨噬细胞合成乙酸,促进自身转移 (2025-10-22)
- 上海德达心血管医院成功举办《胸痛的识别和心脏大血管疾病的规范治疗》研讨会 (2025-10-22)
- 第八届(2025)中国医疗器械创新创业大赛人工智能与医用机器人类别赛圆满落幕 (2025-10-21)
- 视频新闻
-
- 图片新闻
-
医药网免责声明:
- 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
- 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040