Optical duplicate와 Library duplicates
NGS 데이터 생산시 reads의 숫자를 증폭시키기 위해 PCR cycle을 돌리게 되는데 분석 과정에서 과도하게 증폭된 reads를 제거하기위해 remove duplicate과정을 거치게 된다.
picard의 markduplicate 모듈을 사용했을 때 나온 결과의 예시이다. Optical Duplicates와 Not Optical Duplicates가 존재한다.
데이터에서 관측되는 duplicate는 두 종류이다.
optical duplicates
- read를 읽을 때 single cluster를 인접한 두 개의 cluster라고 인식했을 때 생긴다. 두 sequence는 굉장히 유사한 sequence를 가지게 된다. 일반적으로 N개의 염기가 같은 경우 optical duplicates로 분류하는데 N은 read 전체 일 수도 있고 약 50정도를 사용할 수도 있다. alignment를 하지 않아도 찾아낼 수 있다.
library duplicates
- PCR duplicates라고도 말하며 라이브러리 제작 준비 과정에서 생겨날 수 있다. 독립적인 스팟에서 일어나기 때문에 optical duplicates와는 달리 NGS장비 내부에서 인접한 cluster에서 발생하지 않지만 서열이 굉장히 유사하다는 점이 optical duplicates와의 차이이다. genome에 맵핑 이후에 찾아낼 수 있다.
FastQC에서 보이는 duplicates를 어떻게 해석해야 할까?
- FastQC에서 보이는 duplicate level이 sequencing이 잘 되었다 안되었다를 의미하는 것은 아니다. 단지 데이터가 일반적인 특성에 따라가는지 여부만을 확인시켜 줄 뿐이다.
(선 하나 하나가 하나의 sample을 보여주고 있는 것이다.)
- FastQC에서의 duplicate level은 perfect match만을 보여주는 것이기 때문에 sequencing error나 전체적인 quality score가 낮은 경우, 실제로는 duplication이 많지만 그렇지 않게 보일 수 있음을 주의해야 한다.
Reference -
https://wiki.bits.vib.be/index.php/Q%26A_added_during_the_intro_to_NGS_data_analysis
http://proteo.me.uk/2011/05/interpreting-the-duplicate-sequence-plot-in-fastqc/
'bioinformatics' 카테고리의 다른 글
liftover하기 (0) | 2018.09.28 |
---|---|
DESeq2에서 heatmap, PCA, MA, volcano plot 그리기 (0) | 2018.08.31 |
Genome에 존재하는 Variant란? (0) | 2018.08.20 |
DESeq2에서 연속적인 값을 condtion으로 받기 (0) | 2018.08.10 |
RSeQC를 사용하여 stranded 데이터 확인하기 (0) | 2018.08.06 |