LoFreq: a sequence-quality aware, ultra-sensitive variant caller for uncovering cell-population heterogeneity from high- throughput sequencing datasets
0.05% 이하의 vary rare variants을 near-perfect specificity로 detect할 수 있는 tool LoFreq을 개발하였으며 이를 simulated and real dataset으로 성능 비교 해보았다.
sequencing error modeling
- Phred score에 기반하여 read의 각 base의 sequencing error probability를 Bernoulli trial로 계산한다. 그리고 variant으로 detect된 position을 Poisson-binomial distribution으로 계산하여 exact P-value를 구한다.
calling somatic|sample-specific variants
- tissue A와 B가 있을 때 A에서 variants로 확인된 포지션을 B에서 확인해보고, B에서 확인되지 않았다면 해당 영역의 coverage가 충분한지 여부를 binomial test에 기반하여 계산한다. coverage가 충분하다면 sample-specific 충분하지 않다면 somatic으로 분류한다.
Expreimental validation은 Fluidigm digital array와 Sequenom MassArray를 사용하였으며 Simulated population은 DENV2 sample에서 6개를 random sampling하여 구하였다.
결과를 보면 기존에 프로그램들과는 다르게 large genome에서도 작동할 수 있게 optimize되어 있으며 low-depth에서도 잘 작동하지만 충분한 depth에서 더 low-frequency variant를 찾아낼 수 있다.
source -
Andreas Wilm et al., LoFreq: a sequence-quality aware, ultra-sensitive variant caller for uncovering cell-population heterogeneity from high-througput sequencing datasets, Nucleic Acids Research, 2012
'Research > paper review' 카테고리의 다른 글
Genome-wide characterization of centromeric satellites from multiple mammalian genomes (0) | 2017.12.07 |
---|---|
NextSV (0) | 2017.10.11 |
Fast and accurate de novo genome assembly from long uncorrected reads (0) | 2017.09.20 |
De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds (0) | 2017.09.06 |