반응형

WGS, RNA-seq, sRNA-seq 등 시퀀싱 테크닉에따라 그리고 샘플의 종(species)에 따라 QC기준은 달라질 수 밖에 없지만 사람을 기준으로 대표적인 QC기준을 설명하고자 한다.

 

크게 실험단계에서의 라이브러리 제작이 잘 되는지 QC가 있고 시퀀싱이 진행된 후에 BI 기준의 QC가 있다.

 

실험 QC는 잘 모르니 생략하고 BI기준의 시퀀싱 이후 단계만 요약하고자 한다.

 

가장 첫 번째 단계는 Illumina 시퀀서 기준으로 PF(passing filter)가 있다.

 

passing filter란 시퀀싱 단계에서 일어나는 cluster가 얼마나 잘 구성되었는지 여부를 의미한다. cluster들끼리 오버랩되면 에러가 생길 가능성이 커져 오버랩이 일어난 cluster는 모두 제거하는데 이 비율이 얼마나 되는지 수치가 PF값이다.

 

https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/hiseq-x-percent-pf-technical-note-770-2014-043.pdf

불러오는 중입니다...

PF값은 참고용으로만 사용할 뿐 실제 분석에서는 대부분 raw file인 fastq 파일부터 시작하기 때문에 QC는 아래 값들을 주로 사용한다.

 

fastq파일의 Number of reads, GCratio, Q20, Q30, N(%), Duplication rate, Adapter sequence

BAM파일의 Mapping rate, House-keeping gene expression, Insert size distribution

 

각각의 수치를 구하는 방법은 여러 종류의 tool이 있으나 FastQC가 fastq 수준에서는 가장 많이 사용한다.

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

 

Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data

 

www.bioinformatics.babraham.ac.uk

BAM파일은 alignment tool에 따라서 수치를 제공하는 프로그램도 있고 samtools stats 명령어를 통해서도 확인 가능하다. 

반응형

'bioinformatics' 카테고리의 다른 글

gnomAD  (0) 2020.06.25
Phred quality score  (0) 2020.03.11
HLA genotyping  (0) 2020.02.21
SnpEff 빌드하기  (0) 2019.09.30
GC bias in the first few bases.  (0) 2019.07.04

+ Recent posts