NextSV: a computational pipeline for structural variation analysis from low-coverage long-read sequencing
Long-read sequencing을 기반으로 한 Structural variants를 찾아내는 프로그램으로 직접 알고리즘을 개발한 것은 아니고 이 전에 개발된 프로그램들의 조합(aligner와 SV caller)을 고려하고 parameter를 최적화 하는 작업을 진행한 meta SV caller이다. 비교 대상은 가장 많이 쓰이고 있는 PBHoney와 Sniffles이며 두 프로그램의 feature는 PBHoney는 long-read discordance와 interrupted mapping이고 Sniffles는 split-read, high-mismatch, coverage 등을 사용하고 있다. 두 프로그램은 aligner를 특정하여 진행하고 있는데 NextSV는 모든 조합(Figure 1)을 고려하여 sensitive/stringent set의 결과를 도출한다.(이후 분석 목적에 따라 어떤 set로 진행할 지 정하면 된다.) 또한 이 과정에서 long-read는 아직까지 sequencing 비용이 비싸 depth가 깊지 않은 경우가 많은데 이러한 depth에 따른 parameter까지 고려하여 parameter를 최적화 하고 있다. 이후에는 (Figure 2-4) 검증된 두 데이터 (NA12878과 Ashkenazi Jewish family trio)를 가지고 performance를 비교하였다. 대부분의 결과에서 NextSV caller를 사용한 결과가 좋았으나 PBHoney와 Sniffles에서는 default옵션으로만 진행하였다는 것을 고려해야 하며 논문에서는 시간이나 사용하는 메모리 등에 대한 비교는 Table 5 이외에는 없고 Table 5도 NextSV에서 각 step별 소요 시간만을 보여주고 있다. NextSV가 meta SV caller인만큼 performance는 좋을 지라도 computational resource 사용면에서는 다른 프로그램에 비해 안좋을 것이라고 예상된다.
resource -
Li Fang et al., NextSV: a computational pipeline for structural variation analysis from low-coverage long-read sequencing, BioRxiv, 2017
'Research > paper review' 카테고리의 다른 글
LoFreq (0) | 2018.07.04 |
---|---|
Genome-wide characterization of centromeric satellites from multiple mammalian genomes (0) | 2017.12.07 |
Fast and accurate de novo genome assembly from long uncorrected reads (0) | 2017.09.20 |
De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds (0) | 2017.09.06 |