반응형

liftover하기




liftover란?

- 다른 genome에 맞게 결과 파일의 버전을 바꾸는 것을 말한다. 

- 사람의 genome은 hg19, GRCh37, GRCh38 등 여러 개가 존재하며 이에 따라 각 유전자의 위치도 조금씩 차이가 난다. 새롭게 genome을 만들 때마다 모든 정보를 새로 작성하는 것 보다 기존의 정보에서 달라진 위치만 수정하는 것이 비용이나 시간상으로 효율적일 것이다.

- 권장하지는 않지만 다른 종의 genome 간의 비교도 가능하다. 단 여기서는 서열 간의 차이가 크게 나기 때문에 정확도가 낮아 손실되는 정보가 있을 수 있음에 유의해야 한다.


CrossMap

liftover를 지원하는 프로그램은 여러 개 있지만, 여기에선 CrossMap을 소개하고자 한다.


CrossMap은 SAM/BAM, Wiggle/BigWig, BED, GFF/GTF, VCF 등 다양한 포맷의 파일을 지원하며 특히나 python module이기 때문에 설치가 매우 간단하다.


아래와 같이 입력하면 설치가 완료된다.


pip install CrossMap


Python 2.7 이하에서만 작동하는 모듈이다.


dependency가 있지만, 특별히 어려운 모듈은 없어서 pip에서 알아서 설치해주니 크게 신경 쓸 필요는 없다.



설치가 제대로 되었으면 chain 파일이 필요하다.

chain 파일이란 두 genome 간의 변화된 부분이 작성된 파일이다. CrossMap 홈페이지에서 사람과 쥐의 chain 파일을 제공하고 있으며 USCS genome browser에 가면 종간의 chain 파일도 내려받을 수 있다.


CrossMap 홈페이지 : http://crossmap.sourceforge.net/


프로그램 사용법은 홈페이지에 자세하게 나와 있으니 요약하기만 하겠다.


CrossMap.py <command> <chain file> <input file> <output file> 


input file이 hg18이고 output file이 hg19라면 chain file은 hg18Tohg19를 넣으면 된다.



Reference -

http://crossmap.sourceforge.net/



반응형

+ Recent posts