반응형

liftover하기




liftover란?

- 다른 genome에 맞게 결과 파일의 버전을 바꾸는 것을 말한다. 

- 사람의 genome은 hg19, GRCh37, GRCh38 등 여러 개가 존재하며 이에 따라 각 유전자의 위치도 조금씩 차이가 난다. 새롭게 genome을 만들 때마다 모든 정보를 새로 작성하는 것 보다 기존의 정보에서 달라진 위치만 수정하는 것이 비용이나 시간상으로 효율적일 것이다.

- 권장하지는 않지만 다른 종의 genome 간의 비교도 가능하다. 단 여기서는 서열 간의 차이가 크게 나기 때문에 정확도가 낮아 손실되는 정보가 있을 수 있음에 유의해야 한다.


CrossMap

liftover를 지원하는 프로그램은 여러 개 있지만, 여기에선 CrossMap을 소개하고자 한다.


CrossMap은 SAM/BAM, Wiggle/BigWig, BED, GFF/GTF, VCF 등 다양한 포맷의 파일을 지원하며 특히나 python module이기 때문에 설치가 매우 간단하다.


아래와 같이 입력하면 설치가 완료된다.


pip install CrossMap


Python 2.7 이하에서만 작동하는 모듈이다.


dependency가 있지만, 특별히 어려운 모듈은 없어서 pip에서 알아서 설치해주니 크게 신경 쓸 필요는 없다.



설치가 제대로 되었으면 chain 파일이 필요하다.

chain 파일이란 두 genome 간의 변화된 부분이 작성된 파일이다. CrossMap 홈페이지에서 사람과 쥐의 chain 파일을 제공하고 있으며 USCS genome browser에 가면 종간의 chain 파일도 내려받을 수 있다.


CrossMap 홈페이지 : http://crossmap.sourceforge.net/


프로그램 사용법은 홈페이지에 자세하게 나와 있으니 요약하기만 하겠다.


CrossMap.py <command> <chain file> <input file> <output file> 


input file이 hg18이고 output file이 hg19라면 chain file은 hg18Tohg19를 넣으면 된다.



Reference -

http://crossmap.sourceforge.net/



반응형
반응형

Genome에 존재하는 Variant란?




Variant 즉 다양성은 모든 생물이 가지는 고유한 특성이다. 종 수준에서의 생존력을 높이기 위해서는 개체들에게 다양성을 부여하고 환경에 더 잘 적응해가는 방향으로 진화해야 생존할 수 있기 때문이다. 한 종 밖에 존재하지 않아 멸종 할 지도 모른다는 바나나가 적절한 반대 예시일 것이다.


다른 종은 모르겠지만 인간의 경우 모든 사람이 약 99.9%의 DNA가 일치하며 0.1%가 개체의 unique함을 보장해 준다고 알려져 있다. (여기에 epgenetic한 요소까지 더해지면 일란성 쌍둥이라 할 지라도 다른 표현형을 가질 수 있게 되지만 이 포스팅에서는 다루지 않겠다.)


직접적으로 영향을 주는 변이는 크게 SNPs와 CNVs 그리고 Translocation으로 나눌 수 있다.


Single nucleotide polymorphisms (SNPs)

- 단일 염기 다형성이라고 번역되어지며 하나의 염기가 다를 때를 말한다. 약 300bp마다 하나 꼴로 나타나는것으로 알려져 있으며 표현형에 직접적으로 연관되어 있다. 

- 단순히 염기가 달라졌을 때를 변이(mutation)이라고 한다면 그 변이가 집단내에서 패턴으로 존재할 때 이를 SNPs이라고 부르게 된다. 

- 아주아주 단순한 예를 들어 어떠한 염기가 A일 때 흑발 G일 때 금발 C일 때 백발이라면 해당 염기의 위치 (염색체 3번의 123,245,321) 를 SNPs위치라고 말 할 수 있다는 것이다. 

- 물론 예시처럼 단순한하지는 않다. SNPs을 정의하기 위해서는 수 많은 샘플에서 적어도 약 1%가 넘는 돌연변이를 가진 그룹이 존재해야 한다. (A가 9900명 G가 100명 존재한다면 SNPs으로 정의할 수 있다.)


Copy number variants (CNVs)

- Duplication 또는 deletion으로 DNA의 일정 부분이 삭제되거나 중복으로 존재하여 유전자의 copy수가 바뀌게 될 때를 말한다.

- copy가 바뀐다는 말은 해당 유전자의 번역 과정에서 생겨나는 단백질의 양도 변하게 된다는 말이고 이것이 결과적으로 질병 의 발생 등에 영향을 줄 수 있게 된다.

- 대표적으로는 헌팅턴병이 유전자 말단 부분의 duplication으로 일어난다.


Translocations

- translocations은 DNA복제 과정 중에 DNA영역 일부가 기존에 위치와는 다른 위치로 옮겨지는 것을 말한다. 

- 단순해 보이지만 유전자가 발현되기 위해서는 DNA의 2차구조나 promoter 등에 의한 복잡한 조합이 일어나야 하는데 전체 유전자의 일부만 옮겨지게 되면 발현이 지나치게 되거나 적게 되는 문제가 발생할 수 있다.


Reference -

https://www.genomicseducation.hee.nhs.uk/news/item/289-various-types-of-variant-what-is-genomic-variation/


반응형

+ Recent posts