반응형

RPKM, FPKM and TPM의 정의




RPKM, FPKM, TPM은 생물정보학에서 상당히 쉽게 접할 수 있는 용어들이다.

여러 샘플의 RNA-seq을 발현 분석할 때 정규화(normalize)된 발현량을 의미하는 것으로 과거에는 RPKM이 많이 쓰였으나 점차 FPKM을 거쳐 TPM을 많이 사용하고 있다.

각 용어가 의미하는 바는 크게 다르지 않으며 샘플간의 차이 (주로 total depth)로 인한 발현량을 정규화하여 비교하기 위해 사용하게 되었다.

RPKM (Reads Per Kilobase of transcript per Million mapped reads)

- 추후에 FPKM 설명에서 FPKM과 RPKM에 차이에 대해서 설명하겠지만 과거에 single-end RNA-seq이 주로 생산되었을 때 단순히 read counts in transcripts, gene length, total mapped reads 만을 가지고 계산한 값이다.

enter image description here

- 먼저 total mapped reads로 나누는 이유는 sample에 따라서 total depth가 다른 것을 normalize해주기 위함이다. 
sample A는 1,000,000개의 reads가 있고 sample B에는 2,000,000개의 reads가 있을 때, 같은 유전자에 같은 갯수의 reads가 붙었다고하면 sample A가 더 발현량이 높다고 계산하기 위함이다. 
(sample B가 PCR cycle이 한 번 더 진행되었기 때문에 전체 depth가 높은 것이라고 가정한 것이다. 단순히 reads count가 같다고 해서 발현량이 같은 것이 아니다!)

- gene length로 나누는 이유는 샘플간의 비교가 아닌 유전자 간의 비교를 위함이다. 
gene A는 길이가 1000고 gene B는 길이가 2000일 때 위와 마찬가지로 같은 갯수의 reads가 붙었다면 gene A의 발현량이 더 높다고 추측할 수 있다. 
(길이가 2배이고 발현량이 같다면 gene B가 두 배 많은 reads를 생산 되었어야 한다!)

FPKM (Fragments Per Kilobase of transcripts per Million mapped reads)

- FPKM과 RPKM의 차이는 paired-end로 생산된 RNA-seq에서 나타난다. paired-end는 하나의 reads에서 두 개의 fragments가 나온다고 생각하면 된다. 즉 left fragements와 right fragments가 각각 계산되어 RPKM의 대략 두 배의 값을 가지게 된다.(paired-end의 두 fragments가 항상 같이 맵핑되는 것은 아니기 때문에 정확하게 두 배 일 수는 없다.) 
용어가 헷갈릴 수 있는데 일반적으로 paired-end는 reads를 두 개 가지고 있다고 말하는 경우도 있다. 하지만 여기서는 각각을 fragments로 계산하고 있음을 유의해야 한다.


TPM (Transcripts Per Million)

- TPM에서는 total mapped reads를 사용하지 않으며 transcripts level에서의 값이 계산된다. gene level로 계산하고 싶으면 TPM값들을 모두 더하면 된다.

계산하는 방법은 순서가 중요한데

1. 각각의 transcipt에 대해 mapped reads / transcripts length / killobase 로 값을 구한다. (=normalized transcripts expression)
2. 1번에서 구한 값들을 모두 더한뒤 1,000,000으로 나눈다. (=scaling factor)
3. 각각 1번에서 구한 값들을 2번에서 구한 값으로 나눈다. (=TPM)


아래 reference에 있는 논문에 따르면 RPKM을 사용하는 것 보다 TPM을 사용하는 것이 더 정확한 발현 값을 구할 수 있다고 한다.


Reference -

http://www.incodom.kr/Expression_profiling

https://www.rna-seqblog.com/rpkm-fpkm-and-tpm-clearly-explained/

Wagner GP, Kin K, Lynch VJ. Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples. Theory in biosciences. 2012 Dec 1;131(4):281-5.


반응형

'bioinformatics' 카테고리의 다른 글

RNA-seq 라이브러리 종류와 구별법  (1) 2018.08.03
MultiQC 설치 및 실행하기  (1) 2018.07.31
Remove duplicates  (0) 2018.07.24
Gene ontology analysis - DAVID  (0) 2018.07.16
_PAR_Y in Genecode annotation  (0) 2018.07.13
반응형

Remove duplicates




Illumina 같이 PCR amplification이 포함되어 있는 NGS 기술을 사용하면 특정 reads가 과도하게 증폭되는 현상이 나타난다. 이를 제거하기 위한 방법이 remove duplicates 이다.

가장 많이 쓰이는 프로그램은 Picard에 있는 Markduplicates이며 samtools에도 rmdup라는 비슷한 방식이 존재한다.

가능하면 Picard를 쓰는 것을 추천하는데 samtools는 read의 chromosome, position만 고려하여 duplicate여부를 판단하고 제거하는 반면에 Picard는 additional information도 고려하여 duplicate여부를 판단하기 때문이다. 단 Picard를 쓸 때는 모듈 명처럼 duplicate 여부를 마킹하는 것이기 때문에 이후 분석 tools에서 마킹여부를 고려하지 않을 수 있다.

이럴때는 Markduplicates 모듈을 쓸 때 duplicate된 read를 제거하는 옵션에서 true를 걸어놓는것이 좋다.

source -

https://www.biostars.org/p/105291/
http://seqanswers.com/forums/showthread.php?t=5424


반응형

'bioinformatics' 카테고리의 다른 글

MultiQC 설치 및 실행하기  (1) 2018.07.31
RPKM, FPKM and TPM의 정의  (0) 2018.07.27
Gene ontology analysis - DAVID  (0) 2018.07.16
_PAR_Y in Genecode annotation  (0) 2018.07.13
HLAtyping  (0) 2018.07.06
반응형

Gene ontology analysis - DAVID




DAVID는 Database for Annotation, Visualization and Integrated Discovery의 약자로 유전자 리스트를 입력으로 받아 각 유전자의 기능은 해석해주는 웹 제공을 기반으로하는 무료 툴 이다.



주로 유전자 기능 분류를 하거나 기능을 모를때 주석을 달기 위해 사용되며 이를 위해 현재 공개되어 있는 주요한 데이터베이스의 정보를 대부분 가져와 직접시켜 DAVID만의 데이터 베이스를 만들고 있다.


주요 기능으로는 유전자 리스트가 주어졌을 때

- 특정 기능에 대한 유전자들이 많이 포함되었는지

- 비슷한 기능을 가진 유전자들의 그룹화

- BioCarta & KEGG pathway map과의 가시화된 연결

- 2-D로 유전자와 특정 묶음간의 연관성

- 유전자와 상호작용하는 단백질 리스트

- 유전자의 질병간의 연관성 리스트

- 단백질의 기능적 도메인과 모티프

- 관련 문헌

- 유전자 ID를 다른 ID로 변환 ex) ensembl id에서 refseq id로


등등이 존재한다.


DAVID를 실제로 사용하기 위해서는 gene id list가 필요하다. gene symbol인지 특정한 데이터베이스에서 사용하는 ID인지는 ID mapping 과정을 통해 변환하는 과정이 있기 때문에 크게 중요하지 않다.



step1의 A에 유전자 ID를 직접 넣거나 한 줄에 하나씩 입력된 파일을 B에 넣고 step2의 identifier는 어떤 종류의 ID를 사용하고 있는지 넣은 후 step3의 gene list를 체크 후 submit 하면 된다.


당장 파일이 없을 땐 demolist를 눌러서 진행한다.



입력한 gene id를 기반으로 어떤 종에서 찾고싶은 것인지 선택하여야 한다. 만약 넣어준 gene list의 매칭되는 종이 있다면 위와같은 화면이 나오겠지만 없다면 mapping과정을 진행하는 창이 뜰 것이다. mapping 과정은 gene id를 통일하는 과정이다. mapping이 진행되고 나면 위와 같은 화면이 나온다.



Use 버튼을 눌러 분석을 실행했다면 위와같이 특정한 분류대로 어떤 유전자가 많이 포함되어있는지를 보여준다. 



가장 밑의 Functional Annotation Clustering은 누르면 모든 cluster에 대해서 어떤 유전자가 어떻게 묶였으며 각 p-value는 어떻게 되는지 확인할 수 있다.



위와 같이 그룹화된것을 확인하고 p-value, Benjamini, FDR 값을 토대로 특정 값 이하의 그룹을 significant하다고 정의내린 후 결과를 정리하면 된다.


통계 방법에 대한 정의는 아래 포스트를 참조하면 된다.


2018/07/11 - [bioinformatics] - Multiple Comparsion Problem



DAVID에서 제공하는 FDR값은 정상적이지 않다. 제일 마지막 줄에 있는 그룹만 봐도 FDR값이 3.3인데 FDR음 0에서 1 사이의 값을 가져야 한다.


Benjamini 값을 토대로 cutoff를 정하면 될 것이다.




source -

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2375021/

https://david.ncifcrf.gov/

반응형

'bioinformatics' 카테고리의 다른 글

RPKM, FPKM and TPM의 정의  (0) 2018.07.27
Remove duplicates  (0) 2018.07.24
_PAR_Y in Genecode annotation  (0) 2018.07.13
HLAtyping  (0) 2018.07.06
CRISPR editing  (0) 2018.04.05
반응형

_PAR_Y in Genecode annotation


htseq-count를 돌렸는데 genecode annotation을 사용하였다.


결과로 나온 gene_id 중에 _PAR_Y라는 태그가 붙어서 나오는 것을 확인하였다.



특이하여 genecode 홈페이지에 직접 들어가서 무슨 의미인지 확인해보니 염색체 Y의 "pseudoautosomal region" (PAR)에 존재하는 유전자라는 뜻으로 염색체 X와 Y에 동일한 서열부분에 존재하는것을 의미한다. 



실제로 annotation file을 열어보면 염색체 X에는 "ENSG00000124333.15_2"라는 gene_id가 염색체 Y에는 "ENSG00000124333.15_2_PAR_Y"라는 gene_id가 존재하는것을 확인할 수 있었다.



source -

https://www.gencodegenes.org/faq.html

반응형

'bioinformatics' 카테고리의 다른 글

Remove duplicates  (0) 2018.07.24
Gene ontology analysis - DAVID  (0) 2018.07.16
HLAtyping  (0) 2018.07.06
CRISPR editing  (0) 2018.04.05
Stem cell  (0) 2018.04.05
반응형

Clinical Cancer 데이터베이스



CIViC 데이터베이스

CIViC는 Clinical Interpretation of Variants in Cancer의 약자로 암을 유발할 수 있는 유전체 내의 변이를 모은 데이터 베이스이다. 




CIViC의 목적은 암 환자의 가진 변이중에 pathogenic한 변이를 찾아내고 여기에 맞는 치료방법을 사용하는 정밀의학에 적용하기 위한 데이터베이스 구축이며 유사한 목적을 가진 데이터베이스보다 더 적극적인 방식으로 정보를 제공하며 토론을 장려한다고 밝히고 있다.


그래서 아래처럼 데이터 베이스의 통계를 주마다 갱신하여 보여주거나, Activity를 업데이트하여 실시간으로 정보가 더 쌓여가는 것을 홈페이지 시작 화면에서 보여주고 있다.



아래는 TP53에서 찾은 변이의 결과로 CIViC에서는 해당 변이에 대해 진행된 연구를 표시하고 있는데 해당 변이를 치료할 때 사용할 수 있는 DRUG를 표시해 주고 있으며 evidence level을 A,B,C,D 총 네 단계로 나누어 어떤 evidence가 서포트 해주고 있는지도 표시하고 있다.




OncoKB 데이터베이스

OncoKB는 특정 암 유전자 변이가 가져오는 효과와 이에 대한 치료 방법을 모아놓은 데이터베이스다. CIViC과 유사하게 evidence level을 나누고 있지만 좀 더 구체적으로 나누고 있다.



둘의 차이점은 데이터베이스 구성에 있어서 겹치지 않는 변이들이 있는데 아마도 데이터베이스에 변이가 등록되는게 일일히 확인하는 작업이 필요하기 때문에 차이가 있는 것으로 보인다.

개인적인 평가로는 시각화는 CIViC이 더 잘 되어 있어 특정 변이를 웹 검색을 통해 확인하고 싶으면 유용하나 같은 유전자라 하더라도 variants의 종류가 더 많고 Data download나 API등의 지원에 있어서는 OncoKB가 나은 것 같다.

source -

https://civicdb.org/home

https://www.nature.com/articles/ng.3774

http://oncokb.org/#/

반응형

'bioinformatics > cancer genomics' 카테고리의 다른 글

somatic mutation과 germline mutation  (0) 2018.10.12
Cancer cell line 정보 받기  (0) 2018.08.28
Molecular disease  (0) 2018.07.05
암 분류법  (0) 2018.07.05
CancerSCAN  (0) 2018.07.04
반응형

HLA typing



HLA 정의

- Human leukocyte antigene (HLA)은 사람의 MHC 단백질로 면역체계를 담당하는 당단백 분자를 말한다. MHC는 세포막 단백질로서 면역 체계를 조절하는데 직접적으로 관여하고 있다. MHC 유전자는 positive selection, negative selection등을 통해 자가 세포 인식 과정에 기여 하며 항원 자극에 대한 면역반응 등에 관여하고 있다. 

- 예를 들어 면역 세포들이 세포의 세포막에 있는 특정 항원을 보고 그게 자기 자신의 것이라면 공격하지 않고 자신의 것이 아니면 공격한다던지, 아니면 특정 항원 자체가 없는 외부 바이러스 등의 세포라면 공격하는 식으로 면역 활동을 하고 있다.

- 이러한 MHC항원에 의한 면역반응을 '거부반응' 이라고 칭하며 의학적으로 매우 중요하게 다뤄지고 있다.

- MHC 유전자는 사람의 6번 염색체의 약 3Mbp정도의 길이를 가지며 매우 다양한 다형성을 가지고 있기때문에 사람들간의 적응 면역 체계로 사용할 수 있게 된다. 유전자의 위치와 HLA항원의 구조와 기능에 따라 Class I, Class II, Class III로 분류된다. 

- 장기 이식이나 약물처방 등에서 일어날 수 있는 면역 거부 반응을 최소화 하기 위해서 공여자와 환자의 HLA type을 아는것은 매우 중요하다.

HLA typing by NGS

- 이미 1000 Genome Project나 International HapMap Project 등에서 human의 SNPs에 대한 분석이 많이 진행되었고 HLA 또한 이 database를 활용하여 분석할 수 있다.

- 염색체 6p21 영역에 있는 여섯 개의 클래스를 가지는 HLA 유전자만 적어도 132개의 단백질 유전자가 있으며 HLA 영역에 annotation된 유전자가 1999년에 보고된 것만으로도 224개이다. 

- WES나 WGS을 HLA 유전자에 맵핑하여 생기는 nucleotide를 보고 international ImMunoGeneTics project (IMGT)의 HLA database 등에 매치되는 타입이 있는지 확인한다.




- 사용 가능한 프로그램으로는 HLA reporter, PHLAT, HLAscan 등이 있다.


source -

Kazuyoshi Hosomichi et al., The impact of next-generation sequencing technologies on HLA research, Journal of Human Genetics, 2015

https://en.wikipedia.org/wiki/Human_leukocyte_antigen

반응형

'bioinformatics' 카테고리의 다른 글

Gene ontology analysis - DAVID  (0) 2018.07.16
_PAR_Y in Genecode annotation  (0) 2018.07.13
CRISPR editing  (0) 2018.04.05
Stem cell  (0) 2018.04.05
Single cell sequencing  (0) 2018.04.05
반응형

Molecular disease


겸형 적혈구 빈혈증은 1977년 β-globin 유전자의 손상에 의해 일어나는 최초의 분자 질환으로 기록되었으며 이 후로 유전자의 손상이 질병과 연관되어 있다는 것이 알려졌다. 이후 NGS의 발달로 sequencing 가격이 저렴해지면서 single nucleotide level의 mutation까지 측정할 수 있게 되었고 특정한 유전자 염기의 변이가 질병과 관련 있다는 연구가 진행되기 시작했다.


하지만 질병이 생길 수 있는 요인을 매우 다양하기 때문에 특정 변이와 질병관의 관계성을 특정짓기가 쉽지 않아 미국의학유전학회(American Medical College of Medical Genetics and Genomics, ACMG)는 이를 다섯가지 단계로 분류하기로 하였다.








Pathogenic

- 이미 신뢰할만한 데이터가 해당 변이와 질병간의 관계를 뒷받침 하고 있는 연구결과가 존재할 때 


Likely pathogenic

- 이전에는 보고되지 않았지만 질병과 연관되어 있는 유전자의 단백질 구조에 영향을 주는 변이가 발견되었을 때


Uncertain significance

- 이전에는 보고되지 않았고 다른 포유동물에서 해당 아미노산이 보존되어 있지만 변이가 발견되었을 때 


Likely benign

- 해당 변이가 이 전에 발견되었으며 in silico 실험 결과 영향력이 크지 않을 때


Benign

- 잦은 빈도로 변이가 발견되며 in silico 분석 결과 큰 영향이 없으며 또한 해당 변이를 친족이 가지고 있으나 같은 질병에 대해서 아무런 징후가 없을 때




위의 표기 방법을 따르는 것은 강제적인 것은 아니나 일반적으로 널리 쓰이는 방법이니 알아두는 것이 좋다.




source -

https://en.wikipedia.org/wiki/Variant_of_uncertain_significance#Classification

Sue Richards, PhD et al., Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology, Genetics in Medicine, 2015

반응형

'bioinformatics > cancer genomics' 카테고리의 다른 글

somatic mutation과 germline mutation  (0) 2018.10.12
Cancer cell line 정보 받기  (0) 2018.08.28
Clinical Cancer 데이터베이스  (0) 2018.07.09
암 분류법  (0) 2018.07.05
CancerSCAN  (0) 2018.07.04
반응형

암 분류법



암의 정의

- 암은 세포 주기 조절이 되지 않고 계속 세포 분열을 하는 질병의 통칭이다. 정상적인 세포는 일정한 주기를 가지고 분열하며 특정 조건이 만족되거나 한계 이상으로는 분열하지 않지만 암을 계속해서 분열하기 때문에 정상적인 기능을 하는 세포에 비해 수가 많으며 몸의 밸런스를 무너뜨리게 된다.


- 악성 종양이라고도 불리는데 양성 종양과는 구분을 해야한다. 일반적으로 종양은 비 정상적인 세포 덩어리를 의미하며 다른 조직으로 전이가 일어나면 악성 종양 그렇지 않으면 양성 종양이라고 부른다. 양성 종양은 발견시 제거하면 재발 위험이 낮지만 악성 종양은 이미 다른 조직으로 전이 했다면 찾기가 굉장히 어렵기 때문에 재발 위험이 높다.


- WHO에 의하면 neoplasm은 크게 4개의 범주로 구분할 수 있다.


 1) benign neoplasms : 양성 종양

 2) in situ neoplasms : 상피 내암

 3) malignant neoplasms : 악성 종양

 4) neoplasms of uncertain or unknown behavior : 



암종과 육종

- 악성종양은 발생 부위에 따라 암종(Carcinoma)와 육종(Sarcoma)로 나뉜다.

- 암종은 점막, 피부 같은 상피성 세포에서 발생한 악성종양을 뜻하고 육종은 근육, 결합조직, 뼈, 연골, 혈관 등의 비상피성 세포에서 발생한 악성종양을 뜻한다.


- carcinoma는 기원한 세포에 따라 아래처럼 나눌 수 있다. (예시 외에도 존재하지만 드물게 나타남으로 생략한다.)

 1) Adenocarcinoma : 선암종

   점액 등 피복원주상피, 선상피 세포로부터 발생한다.

 2) Squamous cell carcinoa : 편평세포암종

  중층편평상피세포를 가진 피부, 구강, 인두, 식도, 질, 자궁질부 등의 점막에서 발생한다.

 3) Adenosquamous carcinoma : 선편평세포암종

 4) Large cell carcinoma : 대세포암종

 5) Small cell carcinoma : 소세포암종


더 자세히 알고 싶으면 oncotree 사이트에 32개의 sample에 따른 685개의 암 종류를 확인할 수 있다.




고형암과 혈액암

- 고형암은 암 세포가 자라면서 덩어리를 이루는 암을 말한다. 간암, 폐암, 유방암, 위암 등 대부분의 암들이 여기에 해당하며 치료를 위해서는 해당 부위를 절제 후 항암, 방사선 치료 등을 시행한다.

- 혈액암은 혈액이나 조혈기관, 림프절, 림프 기관 등 혈액을 구성하는 성분에 발생한 암을 말한다. 백혈병, 악성림프종, 다발성골수증 등이 여기에 해당하며 전체 암의 약 5~10%정도의 비율을 차지한다.



Reference -

http://oncotree.mskcc.org/#/home

반응형

'bioinformatics > cancer genomics' 카테고리의 다른 글

somatic mutation과 germline mutation  (0) 2018.10.12
Cancer cell line 정보 받기  (0) 2018.08.28
Clinical Cancer 데이터베이스  (0) 2018.07.09
Molecular disease  (0) 2018.07.05
CancerSCAN  (0) 2018.07.04
반응형

CancerSCAN



LabGenomics에서 SGI로부터 기술이전을 받아 서비스 하고 있는 Cancer Scan의 method에 관한 리뷰이다.


Cancer Scan (Cancer Somatic mutation call for Clinical reports with ANnotation)의 궁극적인 목적은 암환자의 종양 샘플에서 주요 유전자의 변이를 검출하여 맞춤형 치료를 가능하도록 하는 것이다.


잘 알려진 pathogenic gene 381개를 타겟하는 패널을 제작하여 mean 800x 이상을 sequencing하고 여기에 SNVs, INDELs, Fusion gene, CNV를 찾아내는 tools을 사용한다.


사용하는 tool로는 Mutect, LoFreq, pindel과 local script를 사용한다.


파이프라인은 tumor purity, treatment-induced mutation 등으로 발생한 low variant allele frequency도 잘 찾아낼 수 있으며 약 800X의 depth를 생산하여 FFPE등의 정제도가 떨어지는 검체에서도 높은 sensitivity를 가진다는 것이 장점이다.




실제 clinical samples에서는 tumor purity가 매우 낮기 때문에 이러한 low-variant allele frequency를 가지는 변이를 찾아내는것이 매우 중요하다.




이미 7,000명 이상의 한국인 환자의 데이터 분석을 통해 한국인에게 맞는 분석 데이터 베이스를 확보하였으며 지속적인 Annotation 데이터베이스 업데이트로 질병 변이가 일어난 유전자에 따른 최신의 표적 항암제 정보도 제공하고 있다. 


Reference -

Hyun-Tae Shin et al, Prevalence and detection of low-allele-fraction variants in clinical cancer samples, NatureCommunications, 2017

DOI: 10.1038/s41467-017-01470-y



반응형

'bioinformatics > cancer genomics' 카테고리의 다른 글

somatic mutation과 germline mutation  (0) 2018.10.12
Cancer cell line 정보 받기  (0) 2018.08.28
Clinical Cancer 데이터베이스  (0) 2018.07.09
Molecular disease  (0) 2018.07.05
암 분류법  (0) 2018.07.05
반응형

CRISPR editing



CRISPR는 1세대 ZFN과 2세대 TALEN이 갖는 cost와 sensitivity 문제를 개선한 3세대 Genetic editing 기술로서 약 20nt의 서열을 인지하여 서열을 절단하는 기술이다.

원래는 박테리아의 방어 기제 중에 하나로서 바이러스 침입 등으로 인한 외부 DNA를 절단하기 위한 시스템을 인공적으로 만든 염기 서열을 단백질과 같이 넣어줌으로서 특정 부위를 절단하는데 유전자의 기능을 밝히거나 기능을 제한하고자 할 때 쓰인다. 하지만 아직은 원하지 않는 부위도 절단하는 부작용이 있으며 이것이 어떻게 영향을 미칠 지 정확히 예측하기 힘들기 때문에 실용화까지는 해결해야 할 문제가 많이 남았다.

- CRISPR-Cas9
Streptococcus에서 발견한 시스템으로 crRNA와 tracrRNA로 이루어진 endonuclease를 가지고 있다. 이 두 RNA를 이어 붙인 single guide RNA를 Cas9과 함께 넣어주면 target DNA를 절단하게 된다.

- CRISPR-Cpf1
Francisella에서 발견된 시스템으로 'T rich' PAM을 가지게 되고 crRNA만을 필요로 하며 가장 Cas9과의 가장 큰 차이는 Cpf1은 sticky ends를 만들게 되고 Cas9은 blunt ends를 만들게 된다.
crRNA만 가지기 때문에 size가 작아 한 vector만을 사용할 수 있으며 sticky ends를 가지기 때문에 특정 유전자를 만들어 넣는데 더 유용하다는 장점이 있다.

- CRISPR-C2c2

많은 바이러스가 DNA가 아닌 RNA를 유전정보로 사용하고 있기 때문에 DNA가 아닌 RNA를 조절하는 C2c2 유전자를 fusobacteria에서 발견하였다. 위의 Cas9이나 Cpf1과는 다르게 RNA를 대상으로 작용한다.

반응형

'bioinformatics' 카테고리의 다른 글

_PAR_Y in Genecode annotation  (0) 2018.07.13
HLAtyping  (0) 2018.07.06
Stem cell  (0) 2018.04.05
Single cell sequencing  (0) 2018.04.05
MARS 설치 및 실행하기  (0) 2017.09.27

+ Recent posts