반응형

WGS, RNA-seq, sRNA-seq 등 시퀀싱 테크닉에따라 그리고 샘플의 종(species)에 따라 QC기준은 달라질 수 밖에 없지만 사람을 기준으로 대표적인 QC기준을 설명하고자 한다.

 

크게 실험단계에서의 라이브러리 제작이 잘 되는지 QC가 있고 시퀀싱이 진행된 후에 BI 기준의 QC가 있다.

 

실험 QC는 잘 모르니 생략하고 BI기준의 시퀀싱 이후 단계만 요약하고자 한다.

 

가장 첫 번째 단계는 Illumina 시퀀서 기준으로 PF(passing filter)가 있다.

 

passing filter란 시퀀싱 단계에서 일어나는 cluster가 얼마나 잘 구성되었는지 여부를 의미한다. cluster들끼리 오버랩되면 에러가 생길 가능성이 커져 오버랩이 일어난 cluster는 모두 제거하는데 이 비율이 얼마나 되는지 수치가 PF값이다.

 

https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/hiseq-x-percent-pf-technical-note-770-2014-043.pdf

불러오는 중입니다...

PF값은 참고용으로만 사용할 뿐 실제 분석에서는 대부분 raw file인 fastq 파일부터 시작하기 때문에 QC는 아래 값들을 주로 사용한다.

 

fastq파일의 Number of reads, GCratio, Q20, Q30, N(%), Duplication rate, Adapter sequence

BAM파일의 Mapping rate, House-keeping gene expression, Insert size distribution

 

각각의 수치를 구하는 방법은 여러 종류의 tool이 있으나 FastQC가 fastq 수준에서는 가장 많이 사용한다.

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

 

Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data

 

www.bioinformatics.babraham.ac.uk

BAM파일은 alignment tool에 따라서 수치를 제공하는 프로그램도 있고 samtools stats 명령어를 통해서도 확인 가능하다. 

반응형

'bioinformatics' 카테고리의 다른 글

gnomAD  (0) 2020.06.25
Phred quality score  (0) 2020.03.11
HLA genotyping  (0) 2020.02.21
SnpEff 빌드하기  (0) 2019.09.30
GC bias in the first few bases.  (0) 2019.07.04
반응형

Illumina 시퀀싱에서 약 10-12개의 염기가 균등하게 분포하지 않는 패턴을 보인다. gDNA에서는 조금 더 드물지만 mRNA-seq에서는 대부분의 데이터가 이러한 패턴을 보이는데 이유를 찾아보았다.

 

 

Illumina에서는 이러한 현상의 원인을 랜덤프라이머를 제작하여 시퀀싱을 진행하지만 랜덤 프라이머가 완전한 랜덤이 아니기때문이라고 얘기한다.  

 

아래 plot은 bisulfite-seq 이다. bisulfite 처리로 인해 CtoT 변화로 C의 비율은 낮고 T의 비율이 높게 나온다. 하지만 그와 별도로 여전히 10개의 염기의 비율이 특이적이다.

 

 

 

 

해당 부분은 분석에 크게 영향을 주지 않으니 무시하고 진행하여도 상관없다.

 

 

 

Reference -

http://seqanswers.com/forums/showthread.php?t=11843

 

Trimming left end (5') of reads?? - SEQanswers

Thanks for your reply, Brian. I have mRNA Illumina 100bp paired end reads. I have already removed the adapters, but still have that same the high variation on GC% at the 5' end. For the library prep, TruSeq mRNA prep was used, that's why I am guessing I ha

seqanswers.com

http://nar.oxfordjournals.org/content/38/12/e131

 

Biases in Illumina transcriptome sequencing caused by random hexamer priming

Abstract. Generation of cDNA using random hexamer priming induces biases in the nucleotide composition at the beginning of transcriptome sequencing reads from

academic.oup.com

 

반응형

'bioinformatics' 카테고리의 다른 글

HLA genotyping  (0) 2020.02.21
SnpEff 빌드하기  (0) 2019.09.30
DNA methylation  (0) 2019.06.18
NGS 기술을 이용한 Methylation 분석  (0) 2019.06.17
KEGG Mapper 사용법  (2) 2018.11.15
반응형

Optical duplicate와 Library duplicates




NGS 데이터 생산시 reads의 숫자를 증폭시키기 위해 PCR cycle을 돌리게 되는데 분석 과정에서 과도하게 증폭된 reads를 제거하기위해 remove duplicate과정을 거치게 된다. 



picard의 markduplicate 모듈을 사용했을 때 나온 결과의 예시이다. Optical Duplicates와 Not Optical Duplicates가 존재한다.


데이터에서 관측되는 duplicate는 두 종류이다.


optical duplicates

- read를 읽을 때 single cluster를 인접한 두 개의 cluster라고 인식했을 때 생긴다. 두 sequence는 굉장히 유사한 sequence를 가지게 된다. 일반적으로 N개의 염기가 같은 경우 optical duplicates로 분류하는데 N은 read 전체 일 수도 있고 약 50정도를 사용할 수도 있다. alignment를 하지 않아도 찾아낼 수 있다.

library duplicates

- PCR duplicates라고도 말하며 라이브러리 제작 준비 과정에서 생겨날 수 있다. 독립적인 스팟에서 일어나기 때문에 optical duplicates와는 달리 NGS장비 내부에서 인접한 cluster에서 발생하지 않지만 서열이 굉장히 유사하다는 점이 optical duplicates와의 차이이다. genome에 맵핑 이후에 찾아낼 수 있다.



FastQC에서 보이는 duplicates를 어떻게 해석해야 할까?

- FastQC에서 보이는 duplicate level이 sequencing이 잘 되었다 안되었다를 의미하는 것은 아니다. 단지 데이터가 일반적인 특성에 따라가는지 여부만을 확인시켜 줄 뿐이다. 



(선 하나 하나가 하나의 sample을 보여주고 있는 것이다.)



- FastQC에서의 duplicate level은 perfect match만을 보여주는 것이기 때문에 sequencing error나 전체적인 quality score가 낮은 경우, 실제로는 duplication이 많지만 그렇지 않게 보일 수 있음을 주의해야 한다.



Reference -

https://wiki.bits.vib.be/index.php/Q%26A_added_during_the_intro_to_NGS_data_analysis

http://proteo.me.uk/2011/05/interpreting-the-duplicate-sequence-plot-in-fastqc/

반응형

+ Recent posts