北京希望组发布NextSV,为三代测序研究者提供有力分析工具

北京

生物探索 · 2016-12-23 01:22

北京希望组发布NextSV,为三代测序研究者提供有力分析工具


继本月初EuanAshley教授世界第一例三代测序遗传病临床案例报道之后,上周末BioRxiv又放大招——希望组首席科学家、哥伦比亚大学王凯教授带领希望组研发团队深入比较了不同测序覆盖深度的三代测序结构变异分析结果,并为摩拳擦掌想要马上开动三代测序的医学研究者提供了简洁有力的分析工具——NextSV。


目前业内主要有两种专用于长读长数据的结构变异分析工具:PBhoney和Sniffles。但三代测序结构变异的研究不多,问起哪个工具更好,大家可能都一脸懵逼。而且,参数优化又是必不可少的一环,不熟悉三代测序的研究者往往望而却步。


本文中,希望组研发团队使用上述两种工具对NA12878和HX1(华夏一号)这两套人基因组的PacBio全基因组测序数据进行不同分析方法的比较。以两者的结构变异数据集作为金标准,随机抽选2X~15X数据,比较不同深度下的结构变异分析结果。结论认为,低覆盖深度数据的结构变异分析能够准确还原大部分的结构变异(如图1所示)。



图1.两个分析工具的比较(NA12878)。分析灵敏度在低于6X时会随着覆盖度增加而快速增长,超过10X以后上升趋势明显变缓,15X的PBHoney-Spots分析结果仅比10X时提高6%-9%;10X时,PBHoney-Spots结果优于Sniffles和PBHoneys-Tails(76%缺失和80%插入);综合了准确度和平衡F分数(F1 scores)的评估(见图1C和D)表明Sniffles在三者中具有最好的准确度。HX1基因组的分析也体现了类似的趋势(如图3所示)

 

有了全面的评估结果之后,希望组研发团队在现有分析方法的基础上,整合建立了自动化结构变异分析工具NextSV,可以根据覆盖深度自动选择相应的优化参数,另一方面综合PBhoney和Sniffles两个工具的结果,根据两者并集或交集来输出最终的结构变异分析结果,以满足准确度或灵敏度要求。除此之外,NextSV也支持SGE (Sun Grid Engine)分布式资源管理系统,可以在集群环境下进行大规模数据量的快速分析,对于不同规模的课题研究具备很好的灵活性。有了NextSV,医学研究者不需要费时费力尝试和积累分析经验,即可快速开展结构变异研究,这正是Euan Ashley教授在前一篇文章中所呼吁的——我们需要更大规模、更深入的三代测序结构变异数据库和更广泛的疾病相关研究。



图2. NextSV对NA12878基因组在不同覆盖深度下的分析结果比较。6X时已经达到单独进行PBHoney-Spots分析时10X覆盖深度的效果。覆盖深度在15X时,NextSV综合两个分析工具的并集结果,能够还原93%的缺失、88%的插入变异。

 


图3. NextSV对HX1基因组在不同覆盖深度情况下的SV分析结果进行比较。使用NextSV对6X、10X、15X数据进行分析,并取两者并集,准确度比单独进行PBHoney-Spots分析要高出0.5-1倍。

 

另一方面,研发团队也对三代测序结构变异分析的孟德尔错误(Mendelian errors)进行了评估。基于一个Ashkenazi Jewish (AJ)家系标准样本的等位基因插入(allele drop-in,ADI)分析,发现在不同类型的结构变异分析中,ADI系数高低不一:基于PBHoney-Spots的缺失变异ADI在14.1%,而插入变异的ADI却相当高(31.8% ~ 41.8)。这表明,对分析得到的结构变异区域进行人工判断和实验验证是非常必要的。


由于生殖细胞发生突变的概率非常小,因此在家系样本的遗传分析中,如果在子代发现不符合孟德尔遗传规律的等位基因,则很有可能是测序错误的体现。这种孟德尔错误(Mendelian     errors)在一定程度上可以体现基因组测序分析结果的准确性。


通过全面评估,我们肯定了≤15X覆盖深度的三代测序数据在实际分析中的价值。对于样本量较多、成本较为敏感的课题设计,完全可以选择6X覆盖深度,而10-15X则更适合预算空间较大的考量。随着未来几年三代测序技术的性能提升,成本还有进一步下降空间,对于测序深度的选择会更加灵活。

 

希望组研发团队严谨地论证了低覆盖深度三代测序策略对基因组结构变异分析的有效性和准确性;并发布NextSV分析工具,为研究者提供简洁方便的分析平台;最终,我们提出了有关低覆盖深度结构变异分析的技术标准,并希望与大家进一步探讨。只有更多人的参与,才能让中国的遗传病研究始终保持全球同步的脉博。


另一方面,这项研究也再次强调了建立基因组精标准的战略性价值。文中所使用的NA12878来自美国国家技术与标准研究院(NationalInstitute of Standards and Technology,NIST)的the Genome in a Bottle(GIAB)联盟,整合不同技术平台,力求建立真正精细的人基因组参考序列。而“华夏一号”的完成和参与中华基因组精标准规划,同样出于这样的战略思考——如果没有真正参考序列级别的基因组标准,进入新领域时的开拓性、基础性研究将受到巨大阻碍,一旦快速打通“任督二脉”,临床应用会更快受益。

 

那么问题来了,三代测序的遗传病应用领域正式拉开帷幕,怎样才能让我们接下来的一大波干货快点儿与大家见面呢?请各位江湖好友多多关注我们刚刚启动的希望组•基因探路者招募计划,不论你是功能深厚的研发奇才,还是实战丰富的营销高手,或是“基”情满满的职场新人,更或是慧眼识人的伯乐,都请将手头的简历通通向小编砸来,我们已经备下惊喜大礼,就等你了!


 


生物探索(biodiscover)

阅读原文 查看原文  分享到微信  文章为作者独立观点,不代表大不六文章网立场
biodiscover
关注前沿生物技术,探索成功商业模式
最新文章