반응형

Arguments in R




Rscript를 사용할 때 argument를 input으로 받는 방법.

args = commandArgs(trailingOnly=TRUE)
species <- args[1]
inputfile <= args[2]

Rsciprt test.R human hg19.fasta


argument를 더 복잡하게 쓰려면 optparse라는 라이브러리를 써도 되지만 간단하게 정리하고 싶다면 위와 같이 작성할 수 있다.


추가로 argument를 입력하지 않았을 때 간단한 설명을 넣고 싶다면 아래와 같이 하면 된다.


if(length(args)==0 {

        stop("All argument must be supplied ex) human hg19.fasta",call.=FALSE))

}


argument가 하나도 들어오지 않았다면 ERROR 메세지 뒤에 정해놓은 문자열을 출력하고 자동 종료된다.



반응형
반응형

Remove duplicates




Illumina 같이 PCR amplification이 포함되어 있는 NGS 기술을 사용하면 특정 reads가 과도하게 증폭되는 현상이 나타난다. 이를 제거하기 위한 방법이 remove duplicates 이다.

가장 많이 쓰이는 프로그램은 Picard에 있는 Markduplicates이며 samtools에도 rmdup라는 비슷한 방식이 존재한다.

가능하면 Picard를 쓰는 것을 추천하는데 samtools는 read의 chromosome, position만 고려하여 duplicate여부를 판단하고 제거하는 반면에 Picard는 additional information도 고려하여 duplicate여부를 판단하기 때문이다. 단 Picard를 쓸 때는 모듈 명처럼 duplicate 여부를 마킹하는 것이기 때문에 이후 분석 tools에서 마킹여부를 고려하지 않을 수 있다.

이럴때는 Markduplicates 모듈을 쓸 때 duplicate된 read를 제거하는 옵션에서 true를 걸어놓는것이 좋다.

source -

https://www.biostars.org/p/105291/
http://seqanswers.com/forums/showthread.php?t=5424


반응형

'bioinformatics' 카테고리의 다른 글

MultiQC 설치 및 실행하기  (1) 2018.07.31
RPKM, FPKM and TPM의 정의  (0) 2018.07.27
Gene ontology analysis - DAVID  (0) 2018.07.16
_PAR_Y in Genecode annotation  (0) 2018.07.13
HLAtyping  (0) 2018.07.06
반응형

F-measure




F-measure란 classifier가 얼마나 정확하게 분류를 하는가를 판단하는 척도 중에 하나이다.

F-measure의 계산을 위해서는 precision과 recall을 구해야 한다.

precision (정확도)

- precision은 positive predictive value (PPV) 라고도 불리며 true positive / total positive 를 의미한다. 즉 양성이라고 판단한 전체 중에 진짜 양성의 비율이다.
- 즉 양성이라고 판단을 했다면 그 판단이 얼마나 정확한 지를 수치화하는 지표이다.

recall (재현율)

- recall은 sensitivity와 동일한 의미를 가진다. ture positive / real positive로 진짜 양성 중에 양성이라고 올바르게 판단내린 비율을 말한다.
- 재현율은 얼마나 대상을 빠트리지 않고 잡아내는지를 나타낸다. 다시 말해서 전체 데이터(대충 1000개라고 치자)에서 찾고자하는 A가 100개가 있는데 내가 정답이라고 생각한 것 300개를 골라냈는데 그 중에 A가 80개 존재했다고 하자.  내가 정답으로 골라낸 것이 몇 개인지 상관없이 재현율을 80%(80/100)라고 한다. 찾은 데이터가 진짜인지 여부는 위의 정확도에서 계산하게 될 것이기 때문이다.

결과적으로 재현율과 정확도가 모두 높다면 원하는 정답을 100% 찾을 수 있겠지만 
재현율만 높다면 정답이라고 생각되는 부분을 많이 찾겠지만 대부분이 오답일 것이고, 
정확도만 높다면 정답를 찾았다고 하는 개수가 몇 개 안되겠지만 적어도 그 부분들에 한해서는 대부분이 정답일 것이다.

헷갈리는 부분이 있다면 아래 포스팅을 참고하자.


2018/07/11 - [bioinformatics] - 민감도와 특이도



두 값을 모두 구했다면 F값을 계산하면 된다.


F = 2 * ( precision * recall / precision + recall ) 


위의 값대로 계산하면 precision과 recall의 조화평균을 구할 수 있다.


precision과 recall등은 파라미터 등에 의해 조절될 수 있기 때문에 ROC 커브를 그려서 프로그램의 전반적인 성능을 테스트 할 수도 있다. 


이 부분에 대해서는 추후에 다루도록 하겠다.


source -

https://en.wikipedia.org/wiki/F1_score

https://en.wikipedia.org/wiki/Precision_and_recall

반응형

'Data Science > statistics' 카테고리의 다른 글

Multiple Comparsion Problem  (1) 2018.07.11
민감도와 특이도  (0) 2018.07.11
반응형

Gene ontology analysis - DAVID




DAVID는 Database for Annotation, Visualization and Integrated Discovery의 약자로 유전자 리스트를 입력으로 받아 각 유전자의 기능은 해석해주는 웹 제공을 기반으로하는 무료 툴 이다.



주로 유전자 기능 분류를 하거나 기능을 모를때 주석을 달기 위해 사용되며 이를 위해 현재 공개되어 있는 주요한 데이터베이스의 정보를 대부분 가져와 직접시켜 DAVID만의 데이터 베이스를 만들고 있다.


주요 기능으로는 유전자 리스트가 주어졌을 때

- 특정 기능에 대한 유전자들이 많이 포함되었는지

- 비슷한 기능을 가진 유전자들의 그룹화

- BioCarta & KEGG pathway map과의 가시화된 연결

- 2-D로 유전자와 특정 묶음간의 연관성

- 유전자와 상호작용하는 단백질 리스트

- 유전자의 질병간의 연관성 리스트

- 단백질의 기능적 도메인과 모티프

- 관련 문헌

- 유전자 ID를 다른 ID로 변환 ex) ensembl id에서 refseq id로


등등이 존재한다.


DAVID를 실제로 사용하기 위해서는 gene id list가 필요하다. gene symbol인지 특정한 데이터베이스에서 사용하는 ID인지는 ID mapping 과정을 통해 변환하는 과정이 있기 때문에 크게 중요하지 않다.



step1의 A에 유전자 ID를 직접 넣거나 한 줄에 하나씩 입력된 파일을 B에 넣고 step2의 identifier는 어떤 종류의 ID를 사용하고 있는지 넣은 후 step3의 gene list를 체크 후 submit 하면 된다.


당장 파일이 없을 땐 demolist를 눌러서 진행한다.



입력한 gene id를 기반으로 어떤 종에서 찾고싶은 것인지 선택하여야 한다. 만약 넣어준 gene list의 매칭되는 종이 있다면 위와같은 화면이 나오겠지만 없다면 mapping과정을 진행하는 창이 뜰 것이다. mapping 과정은 gene id를 통일하는 과정이다. mapping이 진행되고 나면 위와 같은 화면이 나온다.



Use 버튼을 눌러 분석을 실행했다면 위와같이 특정한 분류대로 어떤 유전자가 많이 포함되어있는지를 보여준다. 



가장 밑의 Functional Annotation Clustering은 누르면 모든 cluster에 대해서 어떤 유전자가 어떻게 묶였으며 각 p-value는 어떻게 되는지 확인할 수 있다.



위와 같이 그룹화된것을 확인하고 p-value, Benjamini, FDR 값을 토대로 특정 값 이하의 그룹을 significant하다고 정의내린 후 결과를 정리하면 된다.


통계 방법에 대한 정의는 아래 포스트를 참조하면 된다.


2018/07/11 - [bioinformatics] - Multiple Comparsion Problem



DAVID에서 제공하는 FDR값은 정상적이지 않다. 제일 마지막 줄에 있는 그룹만 봐도 FDR값이 3.3인데 FDR음 0에서 1 사이의 값을 가져야 한다.


Benjamini 값을 토대로 cutoff를 정하면 될 것이다.




source -

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2375021/

https://david.ncifcrf.gov/

반응형

'bioinformatics' 카테고리의 다른 글

RPKM, FPKM and TPM의 정의  (0) 2018.07.27
Remove duplicates  (0) 2018.07.24
_PAR_Y in Genecode annotation  (0) 2018.07.13
HLAtyping  (0) 2018.07.06
CRISPR editing  (0) 2018.04.05
반응형

_PAR_Y in Genecode annotation


htseq-count를 돌렸는데 genecode annotation을 사용하였다.


결과로 나온 gene_id 중에 _PAR_Y라는 태그가 붙어서 나오는 것을 확인하였다.



특이하여 genecode 홈페이지에 직접 들어가서 무슨 의미인지 확인해보니 염색체 Y의 "pseudoautosomal region" (PAR)에 존재하는 유전자라는 뜻으로 염색체 X와 Y에 동일한 서열부분에 존재하는것을 의미한다. 



실제로 annotation file을 열어보면 염색체 X에는 "ENSG00000124333.15_2"라는 gene_id가 염색체 Y에는 "ENSG00000124333.15_2_PAR_Y"라는 gene_id가 존재하는것을 확인할 수 있었다.



source -

https://www.gencodegenes.org/faq.html

반응형

'bioinformatics' 카테고리의 다른 글

Remove duplicates  (0) 2018.07.24
Gene ontology analysis - DAVID  (0) 2018.07.16
HLAtyping  (0) 2018.07.06
CRISPR editing  (0) 2018.04.05
Stem cell  (0) 2018.04.05
반응형

neocomplcache vim plugin 설치하기




neocomplcache는 autocomplpop과 비슷한 자동완성 플러그인이다. vim에서 작업할 때 변수명이 길어지거나 외부 폴더 경로를 잡는데 유용하게 사용할 수 있다.



이미 선언한 변수도 가능하며



폴더에도 아래처럼 적용 가능하다.


아래의 목록이 떳을 때 방향키로 선택 후 엔터를 누르면 바로 적용된다.


설치 방법은 vim 플러그인 매니저를 사용하지 않고 메뉴얼하게 설치하는 방법만 설명하기로 한다.


git 저장소의 위치는 아래와 같다


https://github.com/Shougo/neocomplcache.vim


다운로드 후 폴더를 열면 autoload, doc, plugin README.md 등의 파일이 존재한다.


이 폴더들은 그대로 ~/.vim/ 아래에 붙여넣으면 설치는 끝난다.



설치 후에 플러그인을 실행하기 위해서는 두 가지 방법이 있는데 


첫째는 vim 실행 후 명령 모드에서 아래 명령을 실행하는 것이며


NeoComplCacheEnable


두번째는 ~/.vimrc에 아래와 같은 명령을 작성하는 것이다.


vimrc파일이 없다면 생성하면 된다.


let g:neocomplcache_enable_at_startup = 1


첫번째 방법은 vim을 실행할 때 마다 입력해줘야 적용이 되고 vimrc에 작성하는 방법은 vim을 실행할 때 마다 vimrc파일을 읽으면서 플러그인을 적용시키는 방법이다.



반응형

'Computer Science > linux' 카테고리의 다른 글

특정 파일이나 디렉토리를 남기고 모두 지우기  (0) 2018.09.03
리눅스에서 프록시 설정하기  (0) 2018.07.26
samba 설정하기  (0) 2018.02.02
awk 응용하기!  (0) 2017.10.18
MPC 설치하기  (0) 2017.09.19
반응형

Multiple Comparison Problem




다중비교문제는 대량의 데이터를 통계적으로 유의미한지를 분석하고 싶을 때 쓰인다.

특히나 임상문제를 다룰 때, 특정 약물 A를 처방했을 때 효과가 있는지 없는지를 알고싶다면 약물 처방한 a그룹과 대조군 b그룹 두 집단 사이의 변화가 일어나는 정도를 보고 무위가설을 세운 후 기각당하는지 여부를 가지고서 약물 A가 실제로 효과가 있는지 없는지 여부를 판단하게 될 것이다. 

하지만 비교 집단의 수가 늘어난다면 (예를 들어 약물 농도의 변화나 시간의 변화에 따른 비교 등) 모든 집단간의 비교 결과가 필요하게 되는 것이다. (a와 b집단간의 p-value가 0.05보다 낮다고 해도 b와 c, a와 c집단간의 p-value도 모두 고려해야 유의미한지 여부를 말할 수 있기 때문이다.)


여기에서 적용할 수 있는 p-value가 크게 두 종류가 있는데 Familywise error rateFalse discover rate이다.


Familywise error rate

- 1형 오류를 보정할 수 있는 방법이다. 여러가지 방법이 있지만 가장 많이 쓰이는 방법은 Bonferroni procedure이다. p-value의 임계점을 0.05로 두었을 때 실험이 N번 반복된다면 모든 p-value는 0.05/N 의 값을 가질 때 significant한다고 말할 수 있다. 만약 실험이 10번 반복되어야 한다면 p-value cutoff는 0.005를 가져야 한다.
매우 엄격한 방법이지만 계산이 간단하기 때문에 많이 사용된다.


False discover rate 

- False discovery rate(FDR)는 다중 비교에서 무위가설에서의 1형 오류처럼 적용할 수 있는 검정방법으로 false positive에 total positive를 나눈 비율을 의미한다. Bonferroni correction과 마찬가지로 GWAS분석에 많이 활용되고 있는 통계방법이며 훨씬 덜 엄격한 방법을 채택하고 있다. Benjamini와 Hochberg가 개발하였기 때문에 Benjamini-Hochberg procedure라고도 불린다.


False Discovery Rate = False positive / total positive


- p-value값을 가장 큰 것부터 가장 작은 것 순서로 나열하고 유의 수준 α=0.05k/N 공식을 이용하여 순차적으로 검정한다. 이 분석 방법은 순차적으로 p-value의 값을 줄여감으로써 통계적 파워가 적게 감소하게 되는 장점을 가진다. 



Familywise error rate vs False discover rate

- Benjamini-Hochberg 방법을 Bonferroni correction과 비교해 보면 Bonferroni correction은 검사 개수(N)가 증가할수록 p-value cutoff가 급격히 감소하여 많은 true positive라 하더라도 p-value에서 필터링 되어 결과가 유의하지 않게 나타날 수 있다. 그러나 FDR 방법은 검사 개수(N)가 증가하더라도 Bonferroni correction보다 p-value의 감소가 완만하여 true positive가 제거되는 비율이 낮아지는 장점을 가지고 있다.

- High-throughput techonology가 발달함에 따라 대량의 데이터들이 생산되기 시작했고 이러한 N의 증가를 보정해주기위하여 FDR방법이 많이 쓰이기 시작했다.

- familywise error rate는 비교 그룹 사이에서 어떤 변수들이 동일하게 분포되어 있다고 가정할 때 특정하게 다른 부분을 찾아낸 p-value가 5% 미만일때 신뢰할만하다는 뜻이다.

- False discover rate는 100개의 테스트가 양성으로 나왔을 때 5%의 FDR값을 가진다면 평균적으로 5개의 test는 false positive라는 뜻이다.


conclusion

- 대량의 N 비교를 하지 않을때는 두 방식의 결과는 비슷하다. 하지만 N이 많아지면 Bonferroni는 false negative, 즉 놓치는 부분이 생겨날 것이다. 하지만 Benjamini-Hochberg는 false positive로 잘못된 결과를 보여 줄 것이다.


- 다중비교의 최종 목적은 false positive를 줄이는 것이다. false positive가 포함되어 있는 결과는 해석이 정확하지 않을 수 있기 때문이다. 하지만 반대로 다중 비교의 엄격한 기준 때문에 false negative가 생긴다면 그것도 문제일 것이다. 예를 들어 P-value는 0.013이지만 다중비교의 p-value 계산에서는 signifcant하지 않게 나올 수 있다. p-value를 계산할 때는 분석 방향에 따라 이러한 결과들을 신중하게 다룰 필요가 있다. 그렇지 않으면 중요한 발견을 놓칠 수도 있다. 


두 비교 방법은 같은 비교를 할 때 쓰이는 방법이 아니기 때문에 어디에 초점을 주었느냐에 따라 어떤 방식을 쓸 지 결정해야 한다.



Reference -

http://www.biostathandbook.com/multiplecomparisons.html

https://en.wikipedia.org/wiki/False_discovery_rate

https://en.wikipedia.org/wiki/Family-wise_error_rate#Controlling_procedures

반응형

'Data Science > statistics' 카테고리의 다른 글

F-measure  (1) 2018.07.20
민감도와 특이도  (0) 2018.07.11
반응형

민감도와 특이도



민감도와 특이도는 분류 능력이 어느 정도 되는지 성능을 측정할 때 쓰이는 단위다. 
이미 답을 알고 있는 상황에서 어떤 방법으로 접근했을 때 정답을 얼마나 잘 찾아내는지를 수치화할 수 있으며 여러 방법의 민감도와 특이도를 측정하여 더 우수한지 비교에 사용된다.

민감도와 특이도를 구분하기 위해서는 우선 아래의 테이블을 해석할 수 있어야 한다.


참 거짓을 분류해 내야하는 이분법적인 분류에서, 

해당 문제의 진짜 참, 거짓 여부는 True condition이 되며 (이 부분에서 정답을 알고 있어야 한다)

어떤 방법이 분류한 참, 거짓이 Predicted condition이 된다. 


즉 진짜 정답과 어떤 방법이 도출해낸 답이 나오게 되는데 이를 true, false와 positive, negative로 분리해서 표현한다. 


예를 들어 환자가 진찰을 받으러 왔다고 가정하자. 여기서 의사 또는 컴퓨터가 환자를 진찰한 뒤 암에 걸렸는지 걸리지 않았는지를 판단할 것이다. 그리고 진단 결과와는 별도로 환자는 진짜 암에 걸렸을 수도 안 걸렸을 수도 있다. 


이를 4단계로 분류할 수 있다.


1. 정말로 암에 걸린 환자를 진단결과 암 환자라고 판단 내렸다. (true positive)

2. 암에 걸리지 않은 환자를 진단결과 암 환자라고 판단 내렸다. (false positive)

3. 정말로 암에 걸린 환자를 진단결과 암 환자가 아니라고 판단 내렸다. (false negative)

4. 암에 걸리지 않은 환자를 진단결과 암 환자가 아니라고 판단 내렸다. (true negative)


쉽게 이해하는 법은 진단결과에 따라 병에 걸렸으면 positive와 걸리지 않았으면 negative로 구분하고 그 진단결과가 실제와 일치하면 true 일치하지 않으면 false를 앞에 붙이면 된다.


당연하게도 위의 분류방법을 적용하려면 환자가 진짜 암에 걸렸는지를 알고 있어야 한다. 이를 golden standard set이라고 표현하며 믿을만한 정답이 있어야지만 위의 테이블을 적용할 수 있다.




위의 4단계로는 단순히 case의 숫자가 다를 때는 성능을 비교하기 어렵다. 따라서 얼마나 true와 false를 잘 구분하는지를 나타내는 지표로 민감도(sensitivity)와 특이도(specificity)를 사용한다. (FNR과 FPR은 특정 상황에서만 사용된다)
 

민감도 (Sensitivity)

- 민감도는 (true positive / real positive)로서 진짜 환자 중에 진단 결과 환자라고 나온 사람의 비율을 말한다. 즉 100명의 사람 중에 50명이 진짜 질병에 걸린 환자인데 그중에 40명만이 환자라고 진단 내렸다면 40/50으로 80이 된다.

특이도 (Specificity)

- 특이도는 (true negative / real negative)로서 진짜 환자가 아닌 사람 중에 진단 결과 환자가 아니라고 나온 사람의 비율을 말한다. 즉 100명의 사람중에 50명이 질병에 걸리지 않았는데 그중에 10명이 질병에 걸리지 않았다는 결과를 받았다면 10/50으로 20이 된다.


잘 만든 분류 방법이라면 민감도와 특이도가 모두 높겠지만 조금이라도 헷갈리는 부분을 모두 positive로 분류하는 방법이 있다면 민감도는 높을지라도 특이도가 매우 낮아지게 된다. 즉 두 수치 모두 중요하다.


임상 치료에서는 Sensitivity가 높은 방법에 더 중점을 둔다. 정상인을 환자라고 판단하고 (false positive) 치료에 들어간다고 해서 당장 문제가 생기는 건 아니지만 (특이도가 낮으면 생길 수 있는 현상) 환자를 정상인이라고 판단하면 (false negative) (민감도가 낮으면 생길 수 있는 상황) 치료를 해야 하는 시기를 놓칠 수 있고 치명적일 수 있기 때문이다. 그래서 환자를 환자라고 진단하는 것이 더 중요하다.

Reference -

https://en.wikipedia.org/wiki/Sensitivity_and_specificity


반응형

'Data Science > statistics' 카테고리의 다른 글

F-measure  (1) 2018.07.20
Multiple Comparsion Problem  (1) 2018.07.11
반응형

Clinical Cancer 데이터베이스



CIViC 데이터베이스

CIViC는 Clinical Interpretation of Variants in Cancer의 약자로 암을 유발할 수 있는 유전체 내의 변이를 모은 데이터 베이스이다. 




CIViC의 목적은 암 환자의 가진 변이중에 pathogenic한 변이를 찾아내고 여기에 맞는 치료방법을 사용하는 정밀의학에 적용하기 위한 데이터베이스 구축이며 유사한 목적을 가진 데이터베이스보다 더 적극적인 방식으로 정보를 제공하며 토론을 장려한다고 밝히고 있다.


그래서 아래처럼 데이터 베이스의 통계를 주마다 갱신하여 보여주거나, Activity를 업데이트하여 실시간으로 정보가 더 쌓여가는 것을 홈페이지 시작 화면에서 보여주고 있다.



아래는 TP53에서 찾은 변이의 결과로 CIViC에서는 해당 변이에 대해 진행된 연구를 표시하고 있는데 해당 변이를 치료할 때 사용할 수 있는 DRUG를 표시해 주고 있으며 evidence level을 A,B,C,D 총 네 단계로 나누어 어떤 evidence가 서포트 해주고 있는지도 표시하고 있다.




OncoKB 데이터베이스

OncoKB는 특정 암 유전자 변이가 가져오는 효과와 이에 대한 치료 방법을 모아놓은 데이터베이스다. CIViC과 유사하게 evidence level을 나누고 있지만 좀 더 구체적으로 나누고 있다.



둘의 차이점은 데이터베이스 구성에 있어서 겹치지 않는 변이들이 있는데 아마도 데이터베이스에 변이가 등록되는게 일일히 확인하는 작업이 필요하기 때문에 차이가 있는 것으로 보인다.

개인적인 평가로는 시각화는 CIViC이 더 잘 되어 있어 특정 변이를 웹 검색을 통해 확인하고 싶으면 유용하나 같은 유전자라 하더라도 variants의 종류가 더 많고 Data download나 API등의 지원에 있어서는 OncoKB가 나은 것 같다.

source -

https://civicdb.org/home

https://www.nature.com/articles/ng.3774

http://oncokb.org/#/

반응형

'bioinformatics > cancer genomics' 카테고리의 다른 글

somatic mutation과 germline mutation  (0) 2018.10.12
Cancer cell line 정보 받기  (0) 2018.08.28
Molecular disease  (0) 2018.07.05
암 분류법  (0) 2018.07.05
CancerSCAN  (0) 2018.07.04
반응형

HLA typing



HLA 정의

- Human leukocyte antigene (HLA)은 사람의 MHC 단백질로 면역체계를 담당하는 당단백 분자를 말한다. MHC는 세포막 단백질로서 면역 체계를 조절하는데 직접적으로 관여하고 있다. MHC 유전자는 positive selection, negative selection등을 통해 자가 세포 인식 과정에 기여 하며 항원 자극에 대한 면역반응 등에 관여하고 있다. 

- 예를 들어 면역 세포들이 세포의 세포막에 있는 특정 항원을 보고 그게 자기 자신의 것이라면 공격하지 않고 자신의 것이 아니면 공격한다던지, 아니면 특정 항원 자체가 없는 외부 바이러스 등의 세포라면 공격하는 식으로 면역 활동을 하고 있다.

- 이러한 MHC항원에 의한 면역반응을 '거부반응' 이라고 칭하며 의학적으로 매우 중요하게 다뤄지고 있다.

- MHC 유전자는 사람의 6번 염색체의 약 3Mbp정도의 길이를 가지며 매우 다양한 다형성을 가지고 있기때문에 사람들간의 적응 면역 체계로 사용할 수 있게 된다. 유전자의 위치와 HLA항원의 구조와 기능에 따라 Class I, Class II, Class III로 분류된다. 

- 장기 이식이나 약물처방 등에서 일어날 수 있는 면역 거부 반응을 최소화 하기 위해서 공여자와 환자의 HLA type을 아는것은 매우 중요하다.

HLA typing by NGS

- 이미 1000 Genome Project나 International HapMap Project 등에서 human의 SNPs에 대한 분석이 많이 진행되었고 HLA 또한 이 database를 활용하여 분석할 수 있다.

- 염색체 6p21 영역에 있는 여섯 개의 클래스를 가지는 HLA 유전자만 적어도 132개의 단백질 유전자가 있으며 HLA 영역에 annotation된 유전자가 1999년에 보고된 것만으로도 224개이다. 

- WES나 WGS을 HLA 유전자에 맵핑하여 생기는 nucleotide를 보고 international ImMunoGeneTics project (IMGT)의 HLA database 등에 매치되는 타입이 있는지 확인한다.




- 사용 가능한 프로그램으로는 HLA reporter, PHLAT, HLAscan 등이 있다.


source -

Kazuyoshi Hosomichi et al., The impact of next-generation sequencing technologies on HLA research, Journal of Human Genetics, 2015

https://en.wikipedia.org/wiki/Human_leukocyte_antigen

반응형

'bioinformatics' 카테고리의 다른 글

Gene ontology analysis - DAVID  (0) 2018.07.16
_PAR_Y in Genecode annotation  (0) 2018.07.13
CRISPR editing  (0) 2018.04.05
Stem cell  (0) 2018.04.05
Single cell sequencing  (0) 2018.04.05

+ Recent posts