반응형

SnpEff는 기본적으로 지원하는 genome 데이터가 있지만 manual하게 빌드하여 SNP의 효과를 예상 할 수도 있다.

 

SnpEff 설치 후 설치 폴더 내에 생성되는 snpEff.config 파일을 수정해 주어야 한다.

 

/PATH/TO/INSTALL/SnpEff/snpEff.config 파일 내에 아래 내용을 추가한다.

 

# genome for test 
test.genome : testtest

test.genome의 test가 이 genome의 식별 코드이다. 뒤에 testtest는 어떠한 영향을 주는지는 잘 모르겠다. 다른 글을 참조했을때 보통은 종 이름을 쓰는 듯 하다.

 

 

이후에 /PATH/TO/INSTALL/SnpEff/ 폴더 내에 /data/test/ 폴더를 생성하고 빌드하고자 하는 genome 서열과 annotation 파일을 아래의 형식으로 옮긴다.

 

mkdir data/test/
cp original_genome.fasta data/test/sequences.fa
cp original_annotation.gtf data/test/genes.gtf

 

모든 준비가 완료되면 빌드를 시작한다.

 

java -jar snpEff.jar build test

 

반응형

'bioinformatics' 카테고리의 다른 글

Sequencing QC  (0) 2020.03.11
HLA genotyping  (0) 2020.02.21
GC bias in the first few bases.  (0) 2019.07.04
DNA methylation  (0) 2019.06.18
NGS 기술을 이용한 Methylation 분석  (0) 2019.06.17
반응형

Genome에 존재하는 Variant란?




Variant 즉 다양성은 모든 생물이 가지는 고유한 특성이다. 종 수준에서의 생존력을 높이기 위해서는 개체들에게 다양성을 부여하고 환경에 더 잘 적응해가는 방향으로 진화해야 생존할 수 있기 때문이다. 한 종 밖에 존재하지 않아 멸종 할 지도 모른다는 바나나가 적절한 반대 예시일 것이다.


다른 종은 모르겠지만 인간의 경우 모든 사람이 약 99.9%의 DNA가 일치하며 0.1%가 개체의 unique함을 보장해 준다고 알려져 있다. (여기에 epgenetic한 요소까지 더해지면 일란성 쌍둥이라 할 지라도 다른 표현형을 가질 수 있게 되지만 이 포스팅에서는 다루지 않겠다.)


직접적으로 영향을 주는 변이는 크게 SNPs와 CNVs 그리고 Translocation으로 나눌 수 있다.


Single nucleotide polymorphisms (SNPs)

- 단일 염기 다형성이라고 번역되어지며 하나의 염기가 다를 때를 말한다. 약 300bp마다 하나 꼴로 나타나는것으로 알려져 있으며 표현형에 직접적으로 연관되어 있다. 

- 단순히 염기가 달라졌을 때를 변이(mutation)이라고 한다면 그 변이가 집단내에서 패턴으로 존재할 때 이를 SNPs이라고 부르게 된다. 

- 아주아주 단순한 예를 들어 어떠한 염기가 A일 때 흑발 G일 때 금발 C일 때 백발이라면 해당 염기의 위치 (염색체 3번의 123,245,321) 를 SNPs위치라고 말 할 수 있다는 것이다. 

- 물론 예시처럼 단순한하지는 않다. SNPs을 정의하기 위해서는 수 많은 샘플에서 적어도 약 1%가 넘는 돌연변이를 가진 그룹이 존재해야 한다. (A가 9900명 G가 100명 존재한다면 SNPs으로 정의할 수 있다.)


Copy number variants (CNVs)

- Duplication 또는 deletion으로 DNA의 일정 부분이 삭제되거나 중복으로 존재하여 유전자의 copy수가 바뀌게 될 때를 말한다.

- copy가 바뀐다는 말은 해당 유전자의 번역 과정에서 생겨나는 단백질의 양도 변하게 된다는 말이고 이것이 결과적으로 질병 의 발생 등에 영향을 줄 수 있게 된다.

- 대표적으로는 헌팅턴병이 유전자 말단 부분의 duplication으로 일어난다.


Translocations

- translocations은 DNA복제 과정 중에 DNA영역 일부가 기존에 위치와는 다른 위치로 옮겨지는 것을 말한다. 

- 단순해 보이지만 유전자가 발현되기 위해서는 DNA의 2차구조나 promoter 등에 의한 복잡한 조합이 일어나야 하는데 전체 유전자의 일부만 옮겨지게 되면 발현이 지나치게 되거나 적게 되는 문제가 발생할 수 있다.


Reference -

https://www.genomicseducation.hee.nhs.uk/news/item/289-various-types-of-variant-what-is-genomic-variation/


반응형

+ Recent posts