纳米孔PromethION测序+Shasta完成人类基因组端粒到着丝粒的高效从头组装

2020-11-23 来源：100医药网 www.100yiyao.net 收藏本网址

Shasta是一个用于孔测序数据的从头组装和改正算法，由加州年夜学圣克鲁兹分校（UCSC）和陈-扎克伯格建议筹划（CZI）结合开辟。团队在2019年应用初代Shasta剖析流程对孔测序数据停止从头组装、改正和Hi-C拼接Scaffold（图1），应用一台孔PromethION测序装备在9天内完成了11团体类基因组测序，研讨结果揭橥在《Nature Biotechnology》， DOI：

高通量数据：共生成2.4 Tb序列数据，10kb及以上读长序列的笼罩度中位数约为55X，100 kb及以上的超长读长序列笼罩深度中位数约为6.5X，N50介于20 Mb-30Mb之间。

胜利组装艰苦区域：纳米孔长读长序列胜利组装了此前难以组装的反复次要组织相容性复合体（MHC）区域，一条单连续续的Contig笼罩到了全部区域，取得Scaffold达整条染色体臂，甚至完好的染色体级。

下降工夫及本钱：初代Shasta算法组装一个基因组最快仅用不到6小时，每个样本本钱约70美元，年夜幅下降工夫周期和本钱。

近期，Shasta更新到v0.4版，明显改良盘算堆叠的算法，引入了贝叶斯模子（Bayesian Model）猜测均聚物的数目，新版本带来了宏大的算法优化：

进一步年夜幅晋升持续性：NG50 晋升50%，持续性升翻倍

应用最新版的纳米孔Guppy对原始数据从新停止辨认碱基，团队应用分歧人类样本对新版Shasta停止了功能测试。成果显示在尺度人类基因组HG002中，NG50从约20Mb晋升至约30 Mb，升幅约50%（图2）。在组装序列长度年夜于100 kb的超长读长数据集时，取得NG50约为58Mb，持续性简直翻倍。在人细胞系CHM13样本长进行单倍体人类组装，取得NG50约为65Mb。

组装持续的染色体臂：

在人类参考基因组GRCh38版的组装中，个中一条Contig（8号）简直跨越了11号的全部染色体臂（图3）。在尺度基因组HG002样本中，仅应用来自3张测序芯片的数据，可以跨越年夜约7条染色体臂（尺度Guppy 3.6组装），而超长序列组装出了近半的21条染色体臂，R10.3版测序芯片数据组装出了11条染色体臂。个中，预期的组装缺口是因为参考基因组和样本间的构造变异差别惹起。

组装成果与其他“金尺度”分歧：

将Shasta组装与来自T2T联盟的人CHM13到组装成果（超链接：【出色回想】London Calling 2019——Day 2 研讨出色集锦）比拟，显示23个染色体臂都有候选全长组装。聚焦在12号染色体这个例子上，显示在长臂（q）和短臂（P）的超等scaffold比对分歧性超越了99.7%（图4）。

组装工夫减半，组装完好性晋升：Shastav4.0版+ 纳米孔Guppy最新版

从HG002基因组全体数据来看，Shasta联合最新版纳米孔软件Guppy可将组装工夫从最后论文中描绘的约6小时削减至约3小时；对超长序列数据集组装工夫也从约15小时削减至不到6小时。基因组总长度也有所添加，拔出缺掉数目削减了约5倍，这都是用Guppy 3.6.0发生的成果（用R10.3组装数据甚至更佳）。基因组组装完好性（BUSCO）异样有年夜幅晋升，简直与GRCh38分歧。

双倍型分型——结合基因分型与定向

“整条染色体上，长读长双倍型分型的表示优于短读长基因分型。在可定位性低的区域，因为短读长数据无法很好地定位，纳米孔长读长测序优势明显。”——Benedict Paten

经过与谷歌安康（Google Health）和加州年夜学圣克鲁兹分校协作，Benedict Paten及团队开辟出了双倍型分型流程（图5）。次要步调包含经过开源软件minimap2将读长序列比对至所选参考基因组，应用基于SNP的定相进程（候选变异– 基因型分型– 变异定相），最初停止单倍型变异辨认取得定相后的候选变异（双倍型）文件。

在单核苷酸变异（SNV）辨认中，纳米孔测序在比对定位率低的区域，染色体片断反复区域和碱基序列长度超越250kb方面的表示优于短读长数据

应用人HG002基因组，纳米孔数据在20-22号染色体中的单核苷酸变异（SNV）辨认表示要优于应用短读长数据停止的基因分型（图6）。在比对定位率低的区域，因为短读长序列无法很好地定位，长读长有分明优势。以一个染色体片断反复区域为例，短读长数据没有辨认出任何SNV，而应用纳米孔读长序列，该区域的一切SNV都被辨认出并胜利定相。

在均聚物方面的表示与短读长相当

在均聚物（homopolymer stretches）方面，11个碱基对以内的长度里，短读长数据和纳米孔数据的双倍型分型成果相当。在该流程生成的定相block持续性方面，在全部HG002基因组中。其NG50为约1.2Mb，“与此前的数据集比拟也十分优良”。

瞻望

将来，研讨团队愿望将Shasta和双倍型分型流程联合起来，以取得完好的、有定信任息的（phase-awared）染色体臂，并经过人类泛基因组筹划（Human Pangenome Project）测序来自多样个别的350团体类全基因组，并到达完整定相的、端粒到端粒的质量。(100yiyao.com）

医药网新闻

【返回顶部】【打印】【关闭】

相关报道

视频新闻

图片新闻

医药招商

资讯导航

健康家园：两性知识心理解读减肥健身健康之路男女保健美容护肤日常调理

医药资讯：医药行业分析医药政策法规医药新闻医药营销社会关注 OTC新闻保健品新闻医疗器械新闻医药企业新闻医药招投标医药展会

医药网免责声明：

本公司对医药网上刊登之所有信息不声明或保证其内容之正确性或可靠性；您于此接受并承认信赖任何信息所生之风险应自行承担。本公司，有权但无此义务，改善或更正所刊登信息任何部分之错误或疏失。
凡本网注明"来源：XXX（非医药网）"的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件，意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布，可与本网联系，本网视情况可立即将其撤除。联系QQ：896150040