Nature Biotechnology:如何解码非编码区的“基因组暗物质”? |
![]() |
近年来,基因组学领域取得了飞速发展,尤其是全基因组测序(Whole Genome Sequencing, WGS)的普及,使得研究人员能够全面分析人类及其他物种的基因组数据。然而,人类基因组中约98%的区域为非编码区(Noncoding Regions),它们的功能与变异效应一直是遗传学研究中的重大难题。这些区域不仅复杂且充满重复序列,其可能存在的生物学作用对罕见疾病的与医学的发展具有重要意义。
在这一背景下,预测基因组变异(Genome-wide Variants)对功能的潜在影响成为关键。然而,传统的保守性评分(Conservation Scores)虽然在某些情况下表现良好,但往往难以充分捕捉非编码区的复杂性。随着机器学习技术的进步,语言模型(Language Models)因其能够从大规模序列数据库中无监督学习的特点,开始成为预测基因变异效应的重要工具。例如,蛋白质语言模型已成功应用于错义突变(Missense Variants)的功能预测。然而,DNA语言模型在处理人类基因组等复杂的基因组时,仍存在显著局限。
为解决上述问题,1月2日Nature Biotechnology的研究报道 A DNA language model based on multispecies alignment predicts the effects of genome-wide variants ,研究人员开发了一种基于多物种比对(Multiple Sequence Alignment, MSA)的新型DNA语言模型 GPN-MSA(Genomic Pretrained Network with Multiple Sequence Alignment)。该模型以灵活的Transformer架构为基础,结合100种脊椎动物的全基因组比对信息,能够更准确地预测编码区和非编码区的变异功能效应。通过在多个临床数据库(如ClinVar、COSMIC和OMIM)、实验功能检测以及人群遗传学数据上的测试,该模型表现出了优异的预测能力。与目前主流的模型相比(如CADD和phyloP),GPN-MSA不仅在精确性上表现卓越,还显著降低了计算成本,仅需几小时即可完成训练。
这一研究的突破性成果不仅为罕见疾病的诊断提供了更可靠的工具,还为非编码区变异的解析铺平了道路。这将对精准医学的发展和人类遗传学的基础研究产生深远影响。
医药网新闻
- 相关报道
-
- 吃对食物护肠道,远离乳腺癌!Front Nutr:遵循肠道菌群友好饮食的女性,乳腺癌风险更低,高分者患病几率降三成多 (2025-07-15)
- “男男生子”成真?我国学者首次创造出可存活到成年且可育的“双父”小鼠 (2025-07-15)
- AD:西北农林科技大学团队发现,强力产ILA的肠菌联合菊粉,可以减少神经炎症和Aβ积累,改善阿尔茨海默病相关认知障碍 (2025-07-15)
- Sci Rep:无WNT培养基培育头颈部肿瘤类器官精准还原肿瘤特性,助力放化疗反应预测,为个性化治疗添新利器 (2025-07-15)
- 国度医保局:我国根本医保参保率稳固在95% (2025-07-15)
- 左氧氟沙星能够招致跟腱断裂?专家如许答复→ (2025-07-15)
- 双载荷ADC,掀起新浪潮 (2025-07-15)
- 《自然·衰老》:全面预测衰老!5万余张“脑片”分析发现,大脑成像数据可预测认知障碍、脑萎缩、老年人身体虚弱、慢性病等等结局 (2025-07-15)
- 强生医疗科技加码中国战略 构筑医疗创新生态新格局 (2025-07-14)
- 胖不胖,肠道里的“维生素B1工厂”说了算!Front Microbiol研究发现肥胖者肠道硫胺素合成减少,菌群也乱了套 (2025-07-14)
- 视频新闻
-
- 图片新闻
-
医药网免责声明:
- 本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性;您于此接受并承认信赖任何信息所生之风险应自行承担。本公司,有权但无此义务,改善或更正所刊登信息任何部分之错误或疏失。
- 凡本网注明"来源:XXX(非医药网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。联系QQ:896150040