반응형

Phred quality score란 NGS 시퀀싱으로 생성된 fastq파일에서 각각의 염기가 가지는 품질. 다른 의미로는 정확도를 나타는 지표이다. 

 

Human genome project에서 시작한 개념으로 염기는 기계로 읽을 때 필수적으로 에러가 생길 수 밖에 없는데 quality score는 에러를 확률적으로 표시해 준다. 이 정확도 Q는 아래의 공식을 가진다.

 

다시말해 A라고 읽혀진 어떠한 염기가 90%의 확률의 정확도를 가진다면 quality score는 10, 99%는 20을 가진다는 의미이다. 

 

염기가 확률을 가진다는 의미는 chemical signal을 digital 신호로 바꾸는 과정에서 오차가 생길 수 있기 때문이다. cluster 단위에서는 A가 붉은색 G가 노란색인데 cluster의 색이 아주 약간의 노란색이 섞인 붉은색이 관찰된다면 이를 100% A라고 할 수 없기 때문이다.

 

이 숫자는 두 자리 수 인데 염기는 한 자리이니 맞지 않는다. 그래서 숫자를 ASCII 코드로 변환하여 표시한다. 

 

ASCII code 테이블에서 Dec(10진수)로 표시된 숫자가 실제 quality score에 해당한다. 단 fastq파일 형식이 phred +33 또는 +64일텐데 이 수치만큼 더해주어야한다. phred+33일때 quality score가 20이라면 53에 해당하는 '5' 라는 형식이다.

 

최근 생산되는 데이터는 대부분 +33이지만 보다 확실하게 구분하고 싶다면 직접 fastq파일의 qulity score를 살펴보면 된다. 이론적으로 +64라면 '@' 가 0이기때문에 이 이하의 문자는 가질 수가 없다. 있다면 +33 인것이다.

 

출처 -

https://en.wikipedia.org/wiki/Phred_quality_score

 

Phred quality score - Wikipedia

Phred quality scores shown on a DNA sequence trace A Phred quality score is a measure of the quality of the identification of the nucleobases generated by automated DNA sequencing.[1][2] It was originally developed for Phred base calling to help in the aut

en.wikipedia.org

 

반응형

'bioinformatics' 카테고리의 다른 글

NIPT 분석  (0) 2021.06.01
gnomAD  (0) 2020.06.25
Sequencing QC  (0) 2020.03.11
HLA genotyping  (0) 2020.02.21
SnpEff 빌드하기  (0) 2019.09.30

+ Recent posts