Nature Biotechnology：如何解码非编码区的“基因组暗物质”？

2025-01-08 00:00
来源：100医药网
阅读：365

近年来，基因组学领域取得了飞速发展，尤其是全基因组测序（Whole Genome Sequencing, WGS）的普及，使得研究人员能够全面分析人类及其他物种的基因组数据。然而，人类基因组中约98%的区域为非编码区（Noncoding Regions），它们的功能与变异效应一直是遗传学研究中的重大难题。这些区域不仅复杂且充满重复序列，其可能存在的生物学作用对罕见疾病的与医学的发展具有重要意义。

在这一背景下，预测基因组变异（Genome-wide Variants）对功能的潜在影响成为关键。然而，传统的保守性评分（Conservation Scores）虽然在某些情况下表现良好，但往往难以充分捕捉非编码区的复杂性。随着机器学习技术的进步，语言模型（Language Models）因其能够从大规模序列数据库中无监督学习的特点，开始成为预测基因变异效应的重要工具。例如，蛋白质语言模型已成功应用于错义突变（Missense Variants）的功能预测。然而，DNA语言模型在处理人类基因组等复杂的基因组时，仍存在显著局限。

为解决上述问题，1月2日Nature Biotechnology的研究报道 A DNA language model based on multispecies alignment predicts the effects of genome-wide variants ，研究人员开发了一种基于多物种比对（Multiple Sequence Alignment, MSA）的新型DNA语言模型 GPN-MSA（Genomic Pretrained Network with Multiple Sequence Alignment）。该模型以灵活的Transformer架构为基础，结合100种脊椎动物的全基因组比对信息，能够更准确地预测编码区和非编码区的变异功能效应。通过在多个临床数据库（如ClinVar、COSMIC和OMIM）、实验功能检测以及人群遗传学数据上的测试，该模型表现出了优异的预测能力。与目前主流的模型相比（如CADD和phyloP），GPN-MSA不仅在精确性上表现卓越，还显著降低了计算成本，仅需几小时即可完成训练。

这一研究的突破性成果不仅为罕见疾病的诊断提供了更可靠的工具，还为非编码区变异的解析铺平了道路。这将对精准医学的发展和人类遗传学的基础研究产生深远影响。