반응형

Optical duplicate와 Library duplicates




NGS 데이터 생산시 reads의 숫자를 증폭시키기 위해 PCR cycle을 돌리게 되는데 분석 과정에서 과도하게 증폭된 reads를 제거하기위해 remove duplicate과정을 거치게 된다. 



picard의 markduplicate 모듈을 사용했을 때 나온 결과의 예시이다. Optical Duplicates와 Not Optical Duplicates가 존재한다.


데이터에서 관측되는 duplicate는 두 종류이다.


optical duplicates

- read를 읽을 때 single cluster를 인접한 두 개의 cluster라고 인식했을 때 생긴다. 두 sequence는 굉장히 유사한 sequence를 가지게 된다. 일반적으로 N개의 염기가 같은 경우 optical duplicates로 분류하는데 N은 read 전체 일 수도 있고 약 50정도를 사용할 수도 있다. alignment를 하지 않아도 찾아낼 수 있다.

library duplicates

- PCR duplicates라고도 말하며 라이브러리 제작 준비 과정에서 생겨날 수 있다. 독립적인 스팟에서 일어나기 때문에 optical duplicates와는 달리 NGS장비 내부에서 인접한 cluster에서 발생하지 않지만 서열이 굉장히 유사하다는 점이 optical duplicates와의 차이이다. genome에 맵핑 이후에 찾아낼 수 있다.



FastQC에서 보이는 duplicates를 어떻게 해석해야 할까?

- FastQC에서 보이는 duplicate level이 sequencing이 잘 되었다 안되었다를 의미하는 것은 아니다. 단지 데이터가 일반적인 특성에 따라가는지 여부만을 확인시켜 줄 뿐이다. 



(선 하나 하나가 하나의 sample을 보여주고 있는 것이다.)



- FastQC에서의 duplicate level은 perfect match만을 보여주는 것이기 때문에 sequencing error나 전체적인 quality score가 낮은 경우, 실제로는 duplication이 많지만 그렇지 않게 보일 수 있음을 주의해야 한다.



Reference -

https://wiki.bits.vib.be/index.php/Q%26A_added_during_the_intro_to_NGS_data_analysis

http://proteo.me.uk/2011/05/interpreting-the-duplicate-sequence-plot-in-fastqc/

반응형
반응형

Remove duplicates




Illumina 같이 PCR amplification이 포함되어 있는 NGS 기술을 사용하면 특정 reads가 과도하게 증폭되는 현상이 나타난다. 이를 제거하기 위한 방법이 remove duplicates 이다.

가장 많이 쓰이는 프로그램은 Picard에 있는 Markduplicates이며 samtools에도 rmdup라는 비슷한 방식이 존재한다.

가능하면 Picard를 쓰는 것을 추천하는데 samtools는 read의 chromosome, position만 고려하여 duplicate여부를 판단하고 제거하는 반면에 Picard는 additional information도 고려하여 duplicate여부를 판단하기 때문이다. 단 Picard를 쓸 때는 모듈 명처럼 duplicate 여부를 마킹하는 것이기 때문에 이후 분석 tools에서 마킹여부를 고려하지 않을 수 있다.

이럴때는 Markduplicates 모듈을 쓸 때 duplicate된 read를 제거하는 옵션에서 true를 걸어놓는것이 좋다.

source -

https://www.biostars.org/p/105291/
http://seqanswers.com/forums/showthread.php?t=5424


반응형

'bioinformatics' 카테고리의 다른 글

MultiQC 설치 및 실행하기  (1) 2018.07.31
RPKM, FPKM and TPM의 정의  (0) 2018.07.27
Gene ontology analysis - DAVID  (0) 2018.07.16
_PAR_Y in Genecode annotation  (0) 2018.07.13
HLAtyping  (0) 2018.07.06

+ Recent posts