Nature Methods :核苷酸转换模型(Nucleotide Transformer, NT)——解锁基因组预测的新纪元 |
NT模型的诞生:深度学习与大数据的结合
数据是基石:为模型训练提供多样化的资源
NT模型的成功离不开其背后的庞大数据基础。研究团队从以下三种数据集中提取序列信息,为模型提供了多样化和高覆盖度的训练资源:
1. 人类参考基因组:作为模型的起点,提供了统一的标准序列,帮助模型捕捉人类基因组的基础特性。
2. 1000基因组计划数据:整合了3202个人类基因组,涵盖了全球范围内的遗传多样性,从而增强了模型对个体差异的识别能力。
3. 850个物种基因组:跨越从简单模式生物(如酵母)到复杂哺乳动物的数据集,其中包含了11种经典模型生物,为模型的跨物种学习奠定了基础。
这些数据集不仅大幅提升了模型的泛化能力,还让它能够在跨物种任务中表现出色。值得一提的是,数据的多样性对模型的成功起到了关键作用。例如,多物种数据集使得NT模型可以捕捉到保守的基因组特征,而这些特征在功能预测中尤为重要。
自监督学习:解锁基因组中的隐藏规律
NT模型采用了掩码语言建模(Masked Language Modeling, MLM)任务作为训练方法。与NLP领域中的BERT模型类似,NT模型通过随机遮盖DNA序列中的某些核苷酸,并要求模型根据上下文推测被遮盖部分。这种训练方式的优势在于,它不需要大量人工标注数据,却能从未标注的DNA序列中提取深层次的模式。
通过这种自监督学习方法,NT模型成功地在数万亿个核苷酸中发现了DNA的 语言规则 ,并提炼出通用的特征表示。这为后续的多任务预测奠定了坚实基础。
核苷酸转换模型(Nucleotide Transformer, NT)的核心方法以及与其他基因组学基础模型的比较(Credit:Nature Methods)
NT模型的训练和下游任务应用流程(a) NT训练的概览:展示了NT模型从预训练到微调的完整流程。在预训练阶段,模型通过掩码语言建模(Masked Language Modeling, MLM)任务从未标注的DNA序列中学习核苷酸的上下文依赖特性。(b) 微调(Fine-tuning)的应用:展示了如何通过微调将NT模型应用于基因组预测的下游任务,例如剪接位点预测、增强子活性预测等。在微调过程中,模型的权重被重新调整以适应具体的任务需求。探针测试(Probing):对比了探针测试与微调的区别。探针测试类似于微调,但不对模型权重进行缩放调整(rescaling),以评估预训练模型的通用性。
NT模型与其他基因组学基础模型的比较(c) 感知野大小(Perception Field Size)、参数数量和性能的对比:图表中比较了NT模型与其他基因组学基础模型(如DNABERT、HyenaDNA和Enformer)的关键指标:
感知野大小:NT模型的感知野更大,能够捕捉更长距离的序列依赖性,这在基因组学中尤为重要。
参数数量:NT模型的参数数量多样化(从500M到2.5B),使得它能够平衡性能与计算资源需求。
性能表现:在18个精心挑选的下游任务中,NT模型在大多数任务中优于其他模型,表现出卓越的跨任务预测能力。
下游任务中考虑的基因组特征(d) 基因组特征的图示,直观展示了用于下游任务的主要基因组功能区域和特征,包括外显子、内含子、剪接位点、增强子、启动子、组蛋白修饰等。这些特征是基因组功能预测的核心元素。图示的部分来源于其他研究,经过适当改编以适配NT模型的任务需求。
NT模型的多任务能力:解码DNA的多样化功能
研究团队将NT模型应用于18个核心基因组学任务,涵盖剪接位点预测、启动子识别、增强子活性分析和组蛋白修饰等多个领域。通过系统的对比实验,NT模型在大多数任务中都超越了传统模型。
剪接位点预测:让RNA的 拼接 更高效
RNA剪接是基因表达的重要步骤,剪接位点的准确识别对理解基因调控机制至关重要。NT模型在GENCODE数据集上的表现令人赞叹:多物种2.5B模型在6 kb的输入序列中实现了95%的Top-k准确率,并在精确召回曲线(Precision-Recall AUC)上达到了0.98,这一表现远超传统模型SpliceAI-6k。
这一结果表明,NT模型不仅能够高效识别剪接受体和供体位点,还能够在数据稀缺的情况下维持卓越的预测能力。这一特性特别适合应用于需要高精度的疾病研究。
启动子预测:基因 开关 的精准定位
启动子是基因表达的关键调控区域。NT模型在预测启动子时,展现出了极高的准确性:TATA盒启动子预测的MCC为0.76,显著优于传统卷积网络BPNet(MCC为0.68)。
NT模型的成功表明,它不仅能识别启动子的存在,还能精确区分不同类型的启动子,为基因调控研究提供了更强的工具。
增强子活性预测:基因表达的幕后推手
增强子是调控基因表达的重要 开关 。在果蝇S2细胞增强子活性任务中,NT模型表现尤为突出:发育性增强子预测的AUC达到0.75,超过了DeepSTARR模型的AUC(0.74)。转录因子结合位点的突变效应预测:在Dref位点的突变预测中,NT模型的准确率高于其他模型,提升约5%。
组蛋白修饰预测:揭示DNA的包装奥秘
在染色质特征预测任务中,NT模型通过识别组蛋白修饰区域,为表观遗传学研究提供了新的工具:多物种模型的平均AUC为0.95,与DeepSEA模型(AUC为0.96)接近,但NT模型显著降低了计算成本。
这些结果表明,NT模型不仅能够高效预测基因组功能,还能在多种不同任务中实现跨领域的出色表现。
核苷酸转换模型(Nucleotide Transformer, NT)与其他基因组学基础模型的比较(Credit:Nature Methods)
下游任务的整体性能比较(a) NT模型与其他模型的MCC表现:图中对比了NT模型、HyenaDNA、DNABERT、Enformer以及从头训练的BPNet模型在多个基因组学下游任务中的表现。使用MCC(Matthews相关系数)作为主要评价指标,数据通过十折交叉验证获得(n=10),以均值 2倍标准差(mean MCC 2 s.d.)的形式呈现。NT模型(特别是多物种2.5B参数版本)的表现显著优于其他模型,特别是在感知野较大的任务上,例如剪接位点预测和增强子活性预测。
按任务类别划分的标准化MCC性能(b) 标准化MCC的对比:不同模型在多个下游任务类别中的平均性能进行了归一化比较。结果显示,NT模型在所有任务类别中都具有卓越的性能,尤其在复杂的序列功能预测(如增强子和组蛋白修饰)中,表现出了明显的优势。
在具体任务中的性能表现
(c) NT模型在DHS、HMs和TF位点预测中的表现:针对人类细胞和组织的DNase I高敏感位点(DHSs)、组蛋白修饰标记(HMs)以及转录因子结合位点(TF sites)的预测,NT模型的ROC曲线下面积(AUC)与基线模型DeepSEA相比显著提高。每个点代表一种基因组特征的AUC,NT模型的平均AUC值明显高于DeepSEA。
(d) 剪接位点预测的对比:在人类基因组的剪接位点预测中,NT模型的性能与SpliceAI以及其他剪接模型进行了比较。多物种2.5B NT模型的表现与SpliceAI相当,且在某些任务上有所超越,尤其是在6 kb感知野范围内的预测精度上。
(e) 增强子活性预测的表现:NT模型在果蝇S2细胞中预测发育性和管家型增强子活性时,与DeepSTARR模型进行了对比。多物种2.5B NT模型在预测AUC上显著超越DeepSTARR,尤其在发育性增强子活性任务中展现了卓越的性能。
模型解析:NT如何 读懂 DNA的语言?
层级注意力机制:精准聚焦基因组关键区域
NT模型的Transformer架构通过层级注意力机制(Hierarchical Attention Mechanism),能够聚焦于基因组的关键区域。例如:外显子和内含子区域,模型注意力的集中度高达117个,展现出对功能区域的强大识别能力。增强子区域,NT模型几乎完全覆盖了该区域,突显了其在功能区域捕捉中的高效性。
这些能力让NT模型在不同任务中能够灵活调整注意力焦点,从而精准完成多样化的预测任务。
零样本学习:从未见过的数据中预测功能
NT模型的另一个亮点是其零样本学习能力(Zero-shot Learning)。即使没有明确的标注,模型也能推测DNA变异的潜在功能,在预测终止变异的功能重要性时,NT模型对终止变异的分数显著低于其他类型的变异,表明它能够准确评估变异的致病风险。
这种能力让NT模型在疾病相关变异的筛选中表现出强大的潜力,尤其是在缺乏标注数据的情况下。
NT模型的优化与未来应用
NT-v2:更小、更快、更强
为了进一步提高效率,研究团队开发了NT模型的优化版本NT-v2。这一版本在保持高性能的同时,显著减少了计算资源需求:参数数量减少至1/50,但性能依然卓越,250M参数模型的平均MCC达到0.769。上下文长度扩展至12 kb,能够捕捉更长距离的基因组依赖关系。
这些优化让NT-v2模型特别适合资源受限的应用场景,为基因组学研究带来了更多可能性。
应用前景:赋能精准医学和多组学研究
NT模型的应用潜力十分广泛,包括:
1. 疾病预测和致病变异筛选:NT模型能够帮助快速识别潜在的致病变异,为精准医疗提供基础。
2. 跨物种基因功能研究:NT模型对跨物种的适应性使得它能够揭示更多基因功能的本质。
3. 多组学数据整合:NT模型能够整合基因组学、转录组学和表观遗传学数据,探索复杂的生物网络。
随着技术的进一步发展,NT模型有望在医学研究和基础科学领域发挥越来越重要的作用。
核苷酸转换模型(Nucleotide Transformer, NT)以其大规模数据处理能力和精准的预测性能,为基因组学研究注入了全新的活力。从解码DNA语言到预测基因功能,它在多任务中的表现令人信服。未来,随着NT模型的不断优化和应用探索,它将在精准医学、多组学整合和基础生命科学研究中扮演更加重要的角色,开启基因组学研究的智能化新时代。
版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载-> 医药网新闻- 相关报道
-
- Nature Methods :核苷酸转换模型(Nucleotide Transformer, NT)——解锁基因组预测的新纪元 (2024-12-12)
- 这位勇敢的上海医生,首次使用通用型CAR (2024-12-12)
- BJSM:科学家发现,产后每周进行80分钟中等强度运动与抑郁风险降低45%有关! (2024-12-12)
- 《自然》:揭秘果糖促癌真相!科学家发现,有些癌细胞根本不吃果糖,是肝脏帮忙化糖为脂,帮助癌细胞增殖 (2024-12-12)
- Cell子刊上新:张宇琪/顾臻/樊春海/陈波团队开发工程化图钉针,增强针灸疗法 (2024-12-11)
- 武田超13亿美元引进血液病新药,翰森制药拥有大中华区权益 (2024-12-11)
- STM:二甲双胍“软化”耐药胃癌!中国科学家发现,二甲双胍有望破解胃癌对氟脲嘧啶的耐药 (2024-12-11)
- Cell Genomics:结合孟德尔随机化与AlphaFold3发现阿尔茨海默病蛋白标志物及其三维结构变化 (2024-12-11)
- 细菌抗癌疗法的新突破!EMBO Mol Med:科学家有望利用沙门氏菌来开发治疗人类肠癌的新型细菌癌症疗法 (2024-12-11)
- 开创肿瘤微创治疗新模式 暨第十六届中国微创介入医学学术大会圆满成功! (2024-12-10)
- 视频新闻
-
- 图片新闻
-
医药网免责声明:
- 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
- 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040