반응형

LoFreq: a sequence-quality aware, ultra-sensitive variant caller for uncovering cell-population heterogeneity from high- throughput sequencing datasets




0.05% 이하의 vary rare variants을 near-perfect specificity로 detect할 수 있는 tool LoFreq을 개발하였으며 이를 simulated and real dataset으로 성능 비교 해보았다.


sequencing error modeling

- Phred score에 기반하여 read의 각 base의 sequencing error probability를 Bernoulli trial로 계산한다. 그리고 variant으로 detect된 position을 Poisson-binomial distribution으로 계산하여 exact P-value를 구한다. 



calling somatic|sample-specific variants

- tissue A와 B가 있을 때 A에서 variants로 확인된 포지션을 B에서 확인해보고, B에서 확인되지 않았다면 해당 영역의 coverage가 충분한지 여부를 binomial test에 기반하여 계산한다. coverage가 충분하다면 sample-specific 충분하지 않다면 somatic으로 분류한다.


Expreimental validation은 Fluidigm digital array와 Sequenom MassArray를 사용하였으며 Simulated population은 DENV2 sample에서 6개를 random sampling하여 구하였다.


결과를 보면 기존에 프로그램들과는 다르게 large genome에서도 작동할 수 있게 optimize되어 있으며 low-depth에서도 잘 작동하지만 충분한 depth에서 더 low-frequency variant를 찾아낼 수 있다.



source -

Andreas Wilm et al., LoFreq: a sequence-quality aware, ultra-sensitive variant caller for uncovering cell-population heterogeneity from high-througput sequencing datasets, Nucleic Acids Research, 2012

반응형
반응형

Genome-wide characterization of centromeric satellites from multiple mammalian genomes



Centromere 영역은 complex repeat 구조 때문에 해결하기 힘든 과제로 남아있음. RepeatNet이라는 computational method 개발하여 WGS sequence data 상에서 higher-order repeat structure 밝히고 기능을 밝히고자 . 6종의 포유동물 (, , 코끼리, 아르마딜로, 주머니쥐, 오리너구리) genome 사용하여 테스트 해봄. Centromere 존재하는 sequence 진화 하는 동안 매우 빠르게 변하기 때문에 특이적 sequence 가지고 있음. 따라서 이미 정해진 서열을 찾는게 아니라 higher-order repeating 구조에 기반하여 서열을 찾아야 .


Method

- Read insert size centromere 영역보다 작을 left read right read 모두 repeat 되는 경향을 보일 것임. 이러한 read k-mer 쪼개서 그래프로 만들면 특정 패턴이 반복되는 경향을 보일 것임. 이러한 read 중에 satellite 영역에 걸치는 영역들까지 계산하면 satellite sequence 길이를 예측 가능함. 길이 분포는 대략 140-930nt까지 종에 따라서 다양하게 나타나는 것을 확인함. (figure 1., table1.)


Result

- 실제 관측 결과 별로 서열이 조금씩 달라지는 것을 확인할 있었고 MSA 했을 거리에 따라 variation 늘어나는 것을 확인할 있었음. (figure 3.) 또한 특이적이게도 오리너구리에서는 centromere에서 satellite DNA 찾을 없었는데 enrich 되어 있지 않는 것으로 보임.



resource -

Can Alkan et al., Genome-wide characterization of centromeric satellites from multiple mammalian genomes, Genome research, 2010


반응형
반응형

NextSV: a computational pipeline for structural variation analysis from low-coverage long-read sequencing


Long-read sequencing을 기반으로 한 Structural variants를 찾아내는 프로그램으로 직접 알고리즘을 개발한 것은 아니고 이 전에 개발된 프로그램들의 조합(alignerSV caller)을 고려하고 parameter를 최적화 하는 작업을 진행한 meta SV caller이다. 비교 대상은 가장 많이 쓰이고 있는 PBHoney Sniffles이며 두 프로그램의 featurePBHoneylong-read discordanceinterrupted mapping이고 Snifflessplit-read, high-mismatch, coverage 등을 사용하고 있다. 두 프로그램은 aligner를 특정하여 진행하고 있는데 NextSV는 모든 조합(Figure 1)을 고려하여 sensitive/stringent set의 결과를 도출한다.(이후 분석 목적에 따라 어떤 set로 진행할 지 정하면 된다.) 또한 이 과정에서 long-read는 아직까지 sequencing 비용이 비싸 depth가 깊지 않은 경우가 많은데 이러한 depth에 따른 parameter까지 고려하여 parameter를 최적화 하고 있다. 이후에는 (Figure 2-4) 검증된 두 데이터 (NA12878Ashkenazi Jewish family trio)를 가지고 performance를 비교하였다. 대부분의 결과에서 NextSV caller를 사용한 결과가 좋았으나 PBHoneySniffles에서는 default옵션으로만 진행하였다는 것을 고려해야 하며 논문에서는 시간이나 사용하는 메모리 등에 대한 비교는 Table 5 이외에는 없고 Table 5NextSV에서 각 step별 소요 시간만을 보여주고 있다. NextSVmeta SV caller인만큼 performance는 좋을 지라도 computational resource 사용면에서는 다른 프로그램에 비해 안좋을 것이라고 예상된다


resource -

Li Fang et al., NextSV: a computational pipeline for structural variation analysis from low-coverage long-read sequencing, BioRxiv, 2017


반응형
반응형

Fast and accurate de novo genome assembly from long uncorrected reads



제목과는 다르게 assembler가 아니라 consensus에 사용할 수 있는 RACON 프로그램을 소개하고 있다. QuiverNanopolish와 비슷한 프로그램이나 두 프로그램은 sequencer-specific인데 반해 RACON은 상관없이 사용할 수 있다. Table 1. 에서 6개의 small genome (lambda 에서 c.elegans 까지)을 가지고 성능을 비교하였다. Racon 이전의 step들은 miniasm(assembler), minimap(mapper)를 사용했으며 다른 프로그램을 사용해도 된다. Canu, FALCON과 비교했을 때 assembly된 결과와 reference간의 Aln. bases ref 등을 고려할 때 성능은 크게 차이 나지 않아 보인다. RaconQuiver, Nanopolish등을 중복해서 사용해도 결과는 거의 달라지지 않는다고 한다. 그러나 Table 2. 를 참고하면 속도는 최소 2~3배에서 최대 200~300배 정도 빠르다고 나와있다. 또한 Table 6. 에서는 비슷한 consensus 프로그램 Sparc와 비교했을 때는 IdentityCPU time 모두에서 확실히 좋은 결과를 보여주고 있다. Large genome에서도 사용할 수 있는지에 대해서는 assemblerminiasmlarge genome에 최적화 되어 있지 않아 miniasm+Racon pipeline 에서는 사용하지 않았다고 되어있는데 Racon만 사용하는 것에는 문제가 없어 보인다



resource -

Robert Vaser et al., Fast and accurate de novo genome assembly from long uncorrected reads, Genome research, 2017

반응형
반응형

De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds



cost-effective chromosome-length scaffold를 소개하고 있다. short-read로 생산된 draft genome을 chromosome level로 올리려면 long read나 optical mapping data가 필요하였다. 기존의 Hi-C 방식의 scaffold는 chromosome scale inversion, misjoin 등을 만들어서 어려움이 있었지만 이 논문에서 새로운 알고리즘 (split,anchor, order, and orient) Figure1. 을 소개하면서 그 방식을 통하여 scaffold하면 에러를 줄일 수 있다고 말하고 있다. 실제로 only short Illumina reads(67X)로 생산된 human genome에 in situ Hi-C 데이터(6.7X)를 사용해서 scaffolding했을 때 23개의 large chromosome이 전체의 99.5%의 서열을 가지고 있었다. Zika virus의 운반책인 이집트모기의 genome을 같은 방식으로 assembly 하였고 다른 strain의 모기도 Hi-C 데이터를 생산하여 두 종이 150-200million years 전에 분화되었으며 특정 chromosome에서의 rearrangement가 일어나는 것을 확인하였다. Hi-C 데이터를 생산하고 위의 알고리즘을 적용하면 포유동물의 genome을 만드는데 10,000 달러 이하로 만들 수 있을 것이라고 말하고있다.



resource -

Dudchenco O et al., De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds, Science, 2017

반응형

+ Recent posts