Nature Methods：长读长测序“去伪存真”!SAVANA如何颠覆癌症基因组分析的传统认知？

2025-06-05 来源：100医药网 www.100yiyao.net 收藏本网址

揭秘SAVANA：癌症基因组透视眼的诞生

SAVANA，作为一款专为体细胞结构变异（SVs）和体细胞拷贝数变异（SCNAs）检测而设计的高效计算算法，它的出现，无疑为癌症基因组学领域带来了新的曙光。想象一下，一个能够以单倍型分辨率（single-haplotype resolution）绘制基因组变异图谱，并精确估算肿瘤纯度（tumor purity）和倍性（ploidy）的智能系统，这就是SAVANA所能提供的。更令人兴奋的是，它甚至能支持在没有匹配的生殖系对照样本（germline control sample）的情况下进行分析，这对于临床样本的分析来说，无疑是一个巨大的便利。

那么，SAVANA是如何实现这一切的呢？它的工作流程可以被概括为几个关键步骤，每一步都融合了尖端计算生物学和机器学习（machine learning）的智慧。

首先，SAVANA会仔细扫描来自肿瘤样本（以及可选的匹配正常样本）的长读长测序数据，寻找那些支持结构变异的读段簇（clusters of SV-supporting alignments）。它能够识别并丢弃长读长测序数据中常见的折返样倒位伪影（fold-back-like inversion artifacts），这类伪影往往会干扰真实的变异检测。更进一步，SAVANA还具备检测单断点（single breakends）的能力，这意味着即使只有SV连接的两个基因组区域中的一个能被明确比对到参考基因组上，它也能将其捕获。这对于涉及低复杂性或重复区域的SV，比如着丝粒（centromeres）或逆转录转座子（retrotransposons）区域，以及插入到参考基因组中不存在的新序列（如病毒插入）的SV来说，至关重要。

然而，SAVANA最核心的创新之一，在于其巧妙运用了机器学习技术，来区分真实的体细胞结构变异与由测序或比对错误引入的噪音信号。能够从海量的线索中，通过分析其位置、变异类型、支持读段的数量和方向以及测序深度等特征，精准判断哪些是真，哪些是假。SAVANA为每个候选体细胞断点编码了70个不同的协变量（covariates），这些特征共同构建了一个多维度的变异画像。通过训练机器学习模型，SAVANA能够学习真实 SV和伪影之间的微妙差异，从而实现高精度的筛选。这种方法不仅能够识别出重复出现的伪影，也能有效过滤掉偶发的测序或比对错误。

在检测体细胞拷贝数变异（SCNAs）方面，SAVANA则利用了体细胞断点信息，并结合循环二叉分割（circular binary segmentation, CBS）算法，将基因组划分为具有均等读段深度（read depth）的区域。随后，它会通过分析杂合单核苷酸多态性（heterozygous single nucleotide polymorphisms, SNPs）在特定区域的B等位基因频率（B-allele frequency, BAF）值，来推断肿瘤纯度。其核心思想是，在没有正常细胞浸润的肿瘤中，失去杂合性（loss of heterozygosity, LOH）区域的B等位基因频率应为0或1，而正常细胞的浸润会导致BAF值向0.5偏移，偏移程度与正常浸润程度成比例。这种巧妙的算法设计，使得SAVANA能够通过分析患者特异性的杂合SNPs或群体多态性SNPs来推断肿瘤纯度。

为了进一步提高灵敏度，SAVANA还会利用拷贝数信息来挽救那些由于读段比对阈值未达标而未能被判定的断点。如果这些断点与拷贝数变化点（copy number changepoints）一致，它们将被重新纳入考量。最后，SAVANA会根据估算的肿瘤纯度，确定最能解释观察到的测序读段深度和BAF数据的肿瘤倍性（ploidy）和等位基因特异性拷贝数（allele-specific copy number）图谱。

值得一提的是，SAVANA还引入了蒙德里安共形预测（Mondrian conformal prediction, MCP）这一数学上严谨的方法来评估每个SV调用的可靠性。与传统质量分数（quality scores）不同，MCP能提供数学保证，确保预测结果的错误率不会超过预设的阈值，即使在处理高度不平衡的数据集（如真实体细胞SV是少数类别）时也能保持高可靠性。MCP将预测结果分为四类：真阳性（somatic SV）、噪音（noisy region prone to artifacts or germline SV）、空（null）和两者皆是（both）。空类别表示模型认为该SV与训练数据差异过大，无法做出可靠预测，可能是一个离群值。两者皆是类别则表示该SV与训练数据中的真实SV和噪音事件都相似，模型无法做出单一决策。这种透明且可靠的预测，为科学家们提供了前所未有的信心。

严苛考验：SAVANA的硬核训练营

一项优秀的算法，离不开严谨的测试和高质量的数据。为了全面评估SAVANA的性能并建立一套公正的基准测试标准，研究团队进行了一系列大规模的实验，其严谨程度堪称算法的硬核训练营。

大规模数据集：绘制人类肿瘤基因组的广阔图景

这项研究的严谨性，首先体现在其庞大的样本量和高质量的数据集上。研究团队对99个肿瘤-正常配对样本进行了深度测序，其中包括57例多样化的、28例和14例胶质母细胞瘤。这些样本的DNA分别通过长读长纳米孔全基因组测序（nanopore WGS）和短读长Illumina全基因组测序进行。

具体来说，肿瘤样本的纳米孔测序中位深度达到了51倍，正常样本为34倍；而Illumina测序的肿瘤样本中位深度高达118倍，正常样本为41倍。在长读长数据质量方面，肿瘤和正常纳米孔测序读段的中位N50（表示一半测序碱基长度所对应的最短读段长度）分别达到了15千碱基对（kbp）和21 kbp。经过严格的质量控制，最终有92个肿瘤样本被纳入了后续的深入分析。这种大规模、多平台、高质量的数据集，为SAVANA的训练和验证提供了坚实的基础。

构建真理数据集：机器如何学习区分真伪？

为了给机器学习模型提供高质量的训练数据，从而使其能够区分真实体细胞结构变异（真阳性）和测序或比对错误导致的伪影（假阳性），研究团队首先利用临床级别的短读长全基因组测序数据，作为识别SV的金标准。具体做法是，如果SAVANA在长读长数据中检测到的SV，同时也被短读长数据分析管线（经过临床验证）所检测到，那么该SV就被标记为真实体细胞SV 。反之，如果长读长数据中检测到的SV未在短读长数据中被发现，则被标记为假阳性。

在这样的标注体系下，SAVANA在长读长数据中，共检测到约52,464个被确认为真实体细胞SV的事件，而同时也有高达14,282,014个事件被标记为假阳性。为了避免将那些只在长读长测序中才能检测到的、但实际存在的真阳性SV误判为假阳性，研究团队在构建训练集时，特别排除了那些在长读长数据中具有高支持质量，但在短读长数据中未被发现的SV。这种严谨的策略，确保了训练集的纯度。

随后，研究团队采用了留一肿瘤交叉验证（leave-one-tumor-out）的方法，利用随机森林（random forest, RF）分类器训练模型。这意味着，在对某个特定肿瘤进行SV分类时，模型会使用队列中所有其他肿瘤的SV数据进行训练。这种训练方式有效地评估了SAVANA模型在不同肿瘤类型之间的泛化能力。结果显示，RF模型的性能表现出色，平均曲线下面积（AUC）高达0.98，范围介于0.97-0.98之间，这表明模型具有很高的区分能力。

那么，哪些特征对于模型区分真伪最具预测性呢？研究发现，最重要的协变量包括：肿瘤样本和匹配正常样本中支持性比对（supporting alignments）的数量、SV的长度、支持断点的未定相（unphased）比对数量，以及在正常样本中支持任意断点方向的读段簇数量。这些生物学和测序特性的巧妙结合，使得SAVANA的机器学习模型能够高效地学习和识别真正的体细胞SV。

如前所述，SAVANA还引入了蒙德里安共形预测（MCP）来评估个体预测的可靠性。与仅仅提供一个质量分数不同，MCP能够数学上保证预测错误率不会超过用户设定的阈值，这对于处理高度不平衡的数据集（如真实体细胞SV是少数类别）尤其重要。它不仅提高了模型性能，也为临床应用提供了更可信的判断依据。

巅峰对决：SAVANA力压群雄的性能秘密

在确定了SAVANA的训练方法和数据基础后，真正的巅峰对决开始了。研究团队将SAVANA与现有专门用于长读长数据SV检测的算法进行了全面比较，包括Sniffles2、cuteSV、SVIM等广受使用的工具，以及NanomonSV、Severus和SVision-pro等为匹配肿瘤-正常数据设计的算法。结果表明，SAVANA在多方面展现出压倒性性优势。

真理的较量 COLO829细胞系

在第一轮测试中，研究团队使用了瘤细胞系COLO829及其匹配的正常细胞系COLO829BL的数据集，该数据集拥有经过PCR和捕获测序验证的68个体细胞SV作为真理集。结果清晰地显示，与现有算法相比，SAVANA在长读长测序平台和流式细胞版本上均展现出显著更高的召回率（recall）和特异性（specificity），其P值远小于0.0001。这意味着SAVANA不仅能更全面地发现真实的SV，还能显著减少误报的假阳性。

复制实验揭示算法的稳定性与假阳性陷阱

为了更全面、无偏地评估算法性能，研究团队创新性地引入了复制实验策略。其核心思想是：将每个肿瘤样本的测序读段随机分成两个独立的二进制比对映射（BAM）文件，形成两个模拟复制品，然后分别对每个复制品独立运行SV检测算法。理论上，真实的体细胞SV应该在所有复制品中都被检测到，而由文库制备或测序错误导致的假阳性则只会在一个复制品中出现。这种方法不仅能够有效评估算法的灵敏度（sensitivity）和特异性，还能避免因测序产量不均等因素对结果造成干扰。

通过这种严苛的复制实验，研究团队发现，现有算法检测到的体细胞SV数量差异巨大，最高可达两个数量级。例如，某些算法在一个复制品中检测到的体细胞SV数量变化高达两个数量级。相比之下，SAVANA在不同肿瘤类型中，跨复制实验的一致性显著更高，P值小于0.001。无论是在不同肿瘤类型、不同克隆水平（clonality levels）、各种SV类型还是重复序列类别中，SAVANA都展现出更高且更均匀的一致性。这种在低等位基因频率（low-AF）范围内的较高一致性，有力地证明了SAVANA同时具备更高的特异性（specificity）和灵敏度。

更令人警醒的是，这项实验还揭示了现有算法的一个假阳性陷阱微卫星区域的过度识别。研究发现，现有算法检测到的大量插入和缺失变异，尤其是在500 bp以下的小变异，主要定位在微卫星区域（microsatellites），这通常是测序或比对错误的热点区域，例如同聚物（homopolymers）。相比之下，SAVANA在微卫星位点检测到的插入和缺失变异率显著降低，P值小于0.0001。实际上，现有其他算法在微卫星区域检测到的插入和缺失总数，比SAVANA高出两到三个数量级。已知微卫星不稳定性（MSI）与错配修复通路失活有关，但本研究分析的肿瘤样本中MSI发生率极低，且未检测到MMR基因失活。这强有力地表明，现有算法在微卫星区域检测到的高频率插入和缺失变异，很可能是测序或比对错误导致的假阳性，而非真实的生物学事件。SAVANA所检测到的SV类型和频率，则更符合肿瘤生物学的实际情况。

火眼金睛读段回溯定相识别真伪

为了进一步验证算法的特异性，研究团队引入了读段回溯定相（read-backed phasing）分析。其核心理念是：一个真实的体细胞SV，理论上应该只由来自单个亲本等位基因（parental allele）的读段支持，因为它是在单个细胞中新发生的突变。而那些由测序或比对错误导致的伪影，则更有可能由来自两个亲本等位基因的读段支持。

通过对SV支持读段的读段回溯定相分析，研究团队发现，SAVANA在复制实验中检测到的绝大多数SV都由单个亲本等位基因的读段支持，读段回溯定相结果不一致的比例仅为0.15%（19/12749）。而相比之下，Sniffles2在复制实验中检测到的SV有25%的读段回溯定相不一致，这个比例比SAVANA高出166倍！其他算法也显示出较高程度的不一致性。这一结果再次印证了SAVANA在区分真实体细胞SV与伪影方面的卓越能力。

零容忍生殖系对照样本的净空测试

最后，为了量化算法的特异性，研究团队进行了一项关键的净空测试：将正常对照样本的数据随机分成两份，然后将其中一份作为肿瘤样本，另一份作为正常对照样本，运行所有SV检测算法。在这种正常对正常的设置下，一个完美的算法应该不检测到任何体细胞SV，因为这里不应该有真实的体细胞突变。

结果再次令人信服：在COLO829BL细胞系数据集中，SAVANA展现出最低的假阳性率，仅检测到5个假阳性SV。与此形成鲜明对比的是，其他算法的假阳性率高出13倍到547倍不等。例如，NanomonSV高出66倍，SVIM高出411倍，SVision-pro高出134倍，Severus高出97倍，Sniffles2高出388倍（检测到1940个假阳性），cuteSV更是高出547倍（检测到2737个假阳性）。这种数量级的差异，清晰地揭示了现有算法在特异性上的巨大差距，也解释了为什么它们在肿瘤样本中报告的SV总数远高于SAVANA。

除了卓越的准确性，SAVANA在运行时效率方面也表现出色，它比大多数现有算法的运行时间显著更快，P值小于0.0001。

综上，这些严苛的测试结果表明，SAVANA在多种SV类型、不同克隆水平以及各种测序平台下，均展现出显著更高的特异性（specificity）和灵敏度（sensitivity）。它不仅能准确地识别出更多真实的SV，还能有效地过滤掉干扰性的假阳性信号。这无疑解决了长读长测序在癌症基因组分析中长期存在的假阳性困扰，为该技术的广泛应用铺平了道路。

强强联合：长短读长协同探索癌症图谱

SAVANA的优势不仅仅体现在其独立检测SV和SCNA的能力上，更在于它能够与传统的短读长测序技术形成互补，共同绘制出更加全面、精准的癌症基因组图谱。

短读长遗漏的，长读长来补

研究团队进一步比较了SAVANA在长读长数据中检测到的SV与Illumina短读长数据中检测到的SV之间的重叠程度。结果显示，在Illumina数据中检测到的SV中，平均有86%的事件也能通过SAVANA在长读长数据中被检测到。这表明SAVANA与短读长测序在SV检测方面具有高度的一致性。相比之下，其他长读长算法对Illumina数据中SV的召回率则显著更低，P值小于0.001。

更令人兴奋的是，SAVANA还能发现传统短读长测序难以触及的额外重排。这些只在长读长数据中检测到的SV，显著富集在重复性区域，例如着丝粒（centromeres），这些区域正是短读长测序的盲区。例如，研究发现SAVANA和长读长测序能够检测到断点位于低比对区域的SV，其中包括影响癌症驱动基因（cancer driver genes）NF1和COL2A1的SV。这揭示了长读长测序在捕获这些复杂且重要的基因组区域变异方面的独特优势。

SCNA、肿瘤纯度与倍性：深度洞察肿瘤特性

除了精准的SV检测，SAVANA还将读段深度和B等位基因频率（BAF）信息整合起来，以推断肿瘤纯度、倍性以及等位基因特异性拷贝数变异（allele-specific SCNAs）。这些参数对于理解肿瘤的生物学特性和治疗反应至关重要。

研究发现，SAVANA基于长读长数据估算的肿瘤纯度和倍性值，与使用PURPLE/GRIDSS2（专为短读长数据分析设计的临床级别工具）估算的结果高度相关。具体来说，肿瘤纯度的Pearson相关系数高达0.97，倍性更是达到了0.9。这是一个非常了不起的成就，要知道，Illumina和ONT数据集的中位测序深度存在超过两倍的差异（Illumina为118倍，ONT为51倍），但SAVANA依然能够得出如此一致的纯度和倍性估算结果，这充分证明了其在处理不同测序深度数据时的鲁棒性（robustness）。

仅肿瘤模式：扩展临床应用场景

在临床实践中，匹配的生殖系对照样本往往难以获取。为了应对这一挑战，SAVANA特别设计了仅肿瘤模式（tumor-only mode），允许在没有正常对照样本的情况下检测体细胞SV和SCNA。在这种模式下，SAVANA仍然可以利用机器学习来识别体细胞SV，并通过正常样本panel （panels of normals）进一步过滤掉可能的生殖系SV。

在仅肿瘤模式下，SAVANA在推断等位基因特异性拷贝数图谱、肿瘤纯度和倍性方面，表现出与使用匹配生殖系对照样本相当的准确性。更重要的是，它在召回Illumina WGS数据中检测到的SV方面，也展现出可比的性能，包括那些影响癌症驱动基因的SV。在Illumina数据中检测到的癌基因驱动SV中，SAVANA成功识别了92%（71/77）的事件。而SAVANA自身识别出的癌基因驱动SV中，有97%（71/73）也在Illumina数据中得到证实。这使得SAVANA在临床和研究中具有极高的实用价值。

复杂重排的全面捕获

SAVANA还成功检测到各种类型的复杂重排，这些重排通常涉及SV和SCNA，并导致肿瘤抑制基因的失活，例如在染色体碎裂（chromothripsis）事件中CDKN2A、NF1、TP53或RB1基因的失活。此外，它还能识别多种肿瘤类型中的癌基因扩增，如骨肉瘤中的CDK4、MDM2、CCNE1和MYC扩增，以及胶质母细胞瘤中的MYC和EGFR扩增。这些复杂的基因组变异是理解肿瘤生物学和指导治疗的关键信息。

总之，SAVANA使得利用长读长测序数据可靠地检测SV和SCNA成为可能，其性能已足以媲美甚至超越目前最先进的短读长测序数据分析管线，即使在缺乏匹配正常样本的仅肿瘤模式下，也能为肿瘤抑制基因的失活和致癌基因的扩增等提供深度洞察。

未来：绘制更精准的癌症基因组图谱

SAVANA的诞生，不仅仅是一项算法的突破，它更代表着长读长测序在癌症基因组学领域应用的一个重要里程碑。这项研究清晰地展示了SAVANA如何整合SV、SCNA、肿瘤纯度和倍性分析，并利用长读长测序数据，以极高的准确性和可靠性，为我们揭示癌症基因组的复杂性。

重新定义精准：高灵敏度与高特异性

SAVANA最显著的成就，在于它在广泛的克隆水平（clonality levels）、SV大小（SV sizes）和SV类型（SV types）上表现出显著更高的灵敏度（sensitivity）和特异性（specificity）。这意味着它能够更全面地捕获到真实的SV，同时最大限度地减少假阳性。这一点对于临床样本的分析至关重要，因为异质性（tumor cellularity）常常较低，如果算法的灵敏度不足，关键的驱动突变（driver mutations）可能会被遗漏。SAVANA的出现，使得SV的检测和分析更加可靠，进而能够更准确地解释潜在的肿瘤生物学，这将极大地推动长读长测序在人类肿瘤样本中检测临床相关重排的可靠应用。

澄清迷雾：重新审视过去的发现

这项全基因组基准测试分析还揭示了一个关键问题：现有SV检测方法报告的每例肿瘤中数百到数千个假阳性体细胞SV。这意味着过去一些基于长读长测序报告的癌症基因组中SV的高发生率，很可能并非真实的生物学信号，而是由算法的低特异性造成的伪影。SAVANA的问世，将帮助我们重新审视和澄清这些迷雾，确保未来的研究能够基于更准确的数据。

建立黄金标准：无偏的基准测试最佳实践

为了促进未来算法的可靠性和一致性比较，这项研究不仅仅推出了SAVANA，更重要的是，它建立了一套全新的、基于复制实验和读段回溯定相分析的基准测试最佳实践。这种方法能够以数据驱动的方式，实现对全基因组SV检测算法的无偏评估，量化算法的灵敏度和特异性。这意味着，未来的算法开发者和研究者将有更清晰、更科学的标准来衡量其工具的性能，从而共同推动领域的进步。

当然，SAVANA的旅程并未止步。机器学习模型的性能，很大程度上取决于训练数据的多样性。为此，SAVANA引入了蒙德里安共形预测（MCP），它能够识别超出模型适用范围的实例，并提供经过良好校准的预测置信度指标。未来，MCP可以进一步扩展，以控制不同SV类型或基因组区域的错误率。更令人兴奋的是，SAVANA利用不可识别的预测特征进行MCP模型训练，为未来federated learning框架下整合基因组数据提供了可能。这意味着，在不共享原始测序数据、保护用户隐私的前提下，模型性能能够得到提升，这对于应对日益严格的数据隐私法规至关重要。

SAVANA让我们能够以前所未有的精度，窥探癌症基因组的变形记，从而为开发更有效的诊断方法、更精准的治疗方案，乃至最终战胜癌症，奠定了坚实的基础。

87%用户都在用100医药网APP 随时阅读、评论、分享交流请扫描二维码下载->

医药网新闻

【返回顶部】【打印】【关闭】

相关报道

视频新闻

图片新闻

医药招商

资讯导航

健康家园：两性知识心理解读减肥健身健康之路男女保健美容护肤日常调理

医药资讯：医药行业分析医药政策法规医药新闻医药营销社会关注 OTC新闻保健品新闻医疗器械新闻医药企业新闻医药招投标医药展会

医药网免责声明：

本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性；您于此接受并承认信赖任何信息所生之风险应自行承担。本公司，有权但无此义务，改善或更正所刊登信息任何部分之错误或疏失。
凡本网注明"来源：XXX（非医药网）"的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件，意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布，可与本网联系，本网视情况可立即将其撤除。联系QQ：896150040