반응형

Gene Ontology(GO) 분석은 유전자 기능을 체계적으로 분류하여 생물학적 역할을 이해하는 생물정보학 분석 기법이다. 유전자의 기능을 표준화된 용어로 나타내어 연구자가 특정 유전자 집합이 수행하는 생물학적 과정이나 기능, 그리고 세포 내 위치를 쉽게 파악할 수 있도록 돕는다. GO 분석은 크게 생물학적 과정(Biological Process; BP), 분자 기능(Molecular Function; MF), 세포 구성(Cellular Component; CC)의 세 가지 범주로 나뉜다.

  • Biological Process (BP): 유전자가 관여하는 생물학적 과정, 예를 들어 세포 분열, 대사 과정, 신호 전달 등의 역할을 설명한다. 유전자 세트가 특정 생물학적 과정에 속할 경우, 해당 과정이 연구 대상 조건에서 중요한 역할을 수행하고 있음을 의미한다.
  • Molecular Function (MF): 유전자가 수행하는 분자 수준의 기능을 나타내며, 예로는 단백질 결합, 효소 활성, 전자 운반 기능 등이 있다. MF 분석을 통해 특정 단백질 상호작용이나 분자 반응이 활성화되었는지를 알 수 있다.
  • Cellular Component (CC): 유전자가 위치하는 세포 내 혹은 세포 간 특정 위치를 정의하며, 예를 들어 세포핵, 미토콘드리아, 리보솜 등이 포함된다. 이를 통해 특정 세포 소기관이나 구조가 실험 조건에서 주로 활성화되었는지 파악할 수 있다.

GO 분석에서는 over-expressed(과발현)under-expressed(저발현) 유전자 세트를 기반으로 특정 조건에서 유전자들이 어떤 생물학적 경로에 영향을 주는지 평가한다. RNA-seq 실험 데이터를 통해 특정 조건에서 발현이 증가하거나 감소한 유전자 목록을 생성하고, 이들 유전자를 GO 용어로 매핑하여 특정 생물학적 과정이나 분자 기능에 대한 과대 표현 여부(enrichment)를 통계적으로 평가한다. 이를 통해 특정 조건에서 활성화되거나 억제되는 생물학적 경로를 구체적으로 파악할 수 있다.

RNA-seq 데이터 분석과 차등 발현 유전자(DEG) 선정 기준

RNA-seq 데이터는 유전자 발현의 전반적인 변화를 정량화할 수 있어 특정 조건에서 차등 발현된 유전자(differentially expressed genes, DEGs)를 탐색하기에 적합하다. DEG를 선정하는 기준은 발현량 변화 크기(Fold Change)통계적 유의성을 기반으로 한다.

  1. 발현량 변화 크기 (Fold Change): RNA-seq 데이터에서 특정 조건에서 발현이 2배 이상 증가(upregulated) 또는 1/2 이하로 감소(downregulated)한 유전자를 DEG로 간주하는 경우가 많다. 이 기준은 유전자 발현의 큰 변화를 반영하며, 발현량 변화가 생물학적 의미를 가질 가능성을 높여준다. 다만, 연구에 따라서는 1.5배 이상의 변화 또는 더 엄격한 기준을 설정할 수 있다.
  2. 통계적 유의성 (Statistical Significance): 발현 변화가 통계적으로 유의미한지를 확인하기 위해 p-valuefalse discovery rate (FDR)을 사용하여 차등 발현 여부를 판단한다. RNA-seq 데이터에서 수많은 유전자에 대해 검정하므로, 단순히 p-value ≤ 0.05와 같은 기준을 적용하면 다중 비교 문제로 인해 거짓 양성이 많아질 수 있다. 이를 해결하기 위해 Benjamini-Hochberg 보정과 같은 방법으로 FDR을 조정하고, 통상적으로 FDR ≤ 0.05를 기준으로 유의미한 DEG를 선정한다.
  3. 발현 수준의 절대값 기준: 발현량이 너무 낮은 유전자들은 분석 결과에 잡음(noise)을 줄 수 있으므로, 최소 발현량 기준(예: counts per million, CPM ≥ 1)을 설정하여 발현이 어느 정도 있는 유전자들만 분석에 포함한다. 이를 통해 데이터의 신뢰성을 높일 수 있다.

volcano plot

다중 검정 문제와 FDR 조정의 필요성

RNA-seq와 같은 대규모 유전자 발현 분석에서는 수천 개 이상의 유전자에 대해 동시에 통계 검정을 수행하므로, 다중 비교 문제가 발생할 수 있다. 다중 비교 문제란 하나의 실험에서 여러 가설을 동시에 검정할 때 우연에 의한 거짓 양성(false positive) 결과가 누적되는 현상을 의미한다. 예를 들어, 1,000개의 유전자에 대해 검정할 때 p-value ≤ 0.05를 기준으로 설정하면, 그중 약 5%인 50개의 유전자가 우연히 유의미하다고 나타날 수 있다.

이를 해결하기 위해 FDR (False Discovery Rate)을 조정하며, 특히 Benjamini-Hochberg (BH) 방법을 많이 활용한다. FDR 조정은 다중 검정을 수행하면서 거짓 양성 비율을 제어하여 분석 결과의 신뢰도를 높인다.

Benjamini-Hochberg (BH) FDR 조정 방법

BH 방법은 각 유전자에 대해 계산된 p-value를 정렬하고, 그 순위에 따라 유의미성을 점차적으로 조정하는 방식이다.

  • 모든 유전자의 p-value를 오름차순으로 정렬하고, 각 유전자에 대해 순위를 부여한다.
  • 각 유전자에 대해 FDR 기준을 다음과 같이 계산한다:
  • 여기서 p(i)는 i번째로 작은 p-value, m은 전체 유전자 수, α는 설정한 FDR 수준(예: 0.05)이다.
  • 이 기준을 만족하는 가장 큰 p-value까지의 유전자들을 DEG로 선택하여 최종 DEG 목록을 작성한다.
  • 이 방법을 통해 여러 유전자를 동시에 분석하더라도 통계적 신뢰도를 유지하면서 더 많은 DEG를 포착할 수 있다.

Bonferroni Correction과의 차이점

Bonferroni Correction은 설정한 유의 수준을 전체 유전자 수로 나누어 각 개별 검정에 엄격하게 적용하는 방법으로, 모든 개별 검정에서 거짓 양성을 완전히 억제하고자 한다. Bonferroni Correction은 매우 보수적인 방법이기 때문에 많은 검정 수에서 유의미한 결과를 얻기 어렵다. 반면, Benjamini-Hochberg (FDR) 조정은 전체 분석에서 거짓 양성 비율을 제한하여 다중 검정 문제를 해결하는 유연한 접근법으로, RNA-seq와 같이 유전자 수가 많고 유의미한 결과를 찾고자 할 때 더 자주 사용된다.

추가 분석 방법들

GO 분석 외에도 RNA-seq 유전자 발현 데이터를 활용할 수 있는 다양한 분석 방법이 존재하며, 이들 각각은 다른 생물학적 정보를 제공한다.

  1. Pathway Enrichment Analysis: 특정 생물학적 경로(예: KEGG, Reactome)를 중심으로 유전자들이 관여하는 경로를 분석하여 특정 조건에서 활성화되는 경로를 확인할 수 있다. 세포 신호 전달, 대사 경로, 질병 관련 경로를 심층적으로 분석할 수 있다.
  2. Gene Set Enrichment Analysis (GSEA): 유전자 발현 순위에 기반하여 특정 유전자 세트가 실험 조건에서 상위 또는 하위에 과대 대표되는지를 확인하는 방법이다. 발현 변화가 미세한 유전자들도 분석할 수 있어 노이즈가 많은 데이터에서도 의미 있는 생물학적 경로를 탐색할 수 있다.
  3. Protein-Protein Interaction (PPI) Network Analysis: 과발현 또는 저발현된 유전자들이 코딩하는 단백질의 상호작용 네트워크를 구축하여 특정 단백질 간의 상호작용 허브나 모듈을 확인한다. 이를 통해 특정 조건에서 활성화되는 단백질 복합체나 중요한 조절 단백질을 파악할 수 있다.
  4. Co-expression Network Analysis: WGCNA(Weighted Gene Co-expression Network Analysis)와 같은 방법을 사용하여 유전자들의 공발현 패턴을 네트워크로 분석한다. 이를 통해 유사한 발현 패턴을 가지는 유전자 모듈을 식별하여 기능적으로 연결될 가능성이 있는 유전자 그룹을 찾는 데 유용하다.
  5. Functional Annotation Clustering: DAVID와 같은 도구를 사용하여 유전자들의 기능적 특징을 클러스터링하여 유사한 기능을 가진 유전자 그룹을 식별하고, 이들 유전자들이 어떤 생물학적 역할을 수행하는지 전반적으로 파악할 수 있다.
  6. Transcription Factor (TF) Enrichment Analysis: 과발현된 유전자들이 공통적인 전사 인자(TF)에 의해 조절되는지를 분석하여 특정 전사 인자가 활성화된 상태임을 확인한다. 이를 통해 특정 조건에서 유전자 발현의 조절 메커니즘을 탐구할 수 있다.
  7. Single-Sample Gene Set Enrichment Analysis (ssGSEA): 각 샘플별로 유전자 세트의 활성화 정도를 평가하여 특정 샘플에서 주요한 생물학적 경로나 기능적 특성을 분석할 수 있다.

결론

RNA-seq 데이터에서 차등 발현 유전자(DEG)를 선별할 때, FDR 조정을 통해 다중 비교 문제를 해결하고 각 유전자가 관여하는 기능적 경로나 생물학적 과정을 정확하게 파악하는 것은 분석의 신뢰성을 높이는 핵심 요소다. GO 분석을 비롯한 다양한 분석 방법을 조합하여 생물학적 해석을 입체적으로 수행함으로써 특정 조건에서 발생하는 유전자 발현 변화의 의미를 깊이 이해할 수 있다.

이와 같이 RNA-seq 데이터를 기반으로 한 다양한 기능적 분석은 암, 신경계 질환, 면역 반응 등 복잡한 생물학적 현상을 연구하는 데 필수적인 도구이며, 생물학적 경로, 기능적 역할, 그리고 상호작용 네트워크를 체계적으로 파악하여 연구의 해석력을 높일 수 있다.

반응형
반응형

Gene ontology analysis - DAVID




DAVID는 Database for Annotation, Visualization and Integrated Discovery의 약자로 유전자 리스트를 입력으로 받아 각 유전자의 기능은 해석해주는 웹 제공을 기반으로하는 무료 툴 이다.



주로 유전자 기능 분류를 하거나 기능을 모를때 주석을 달기 위해 사용되며 이를 위해 현재 공개되어 있는 주요한 데이터베이스의 정보를 대부분 가져와 직접시켜 DAVID만의 데이터 베이스를 만들고 있다.


주요 기능으로는 유전자 리스트가 주어졌을 때

- 특정 기능에 대한 유전자들이 많이 포함되었는지

- 비슷한 기능을 가진 유전자들의 그룹화

- BioCarta & KEGG pathway map과의 가시화된 연결

- 2-D로 유전자와 특정 묶음간의 연관성

- 유전자와 상호작용하는 단백질 리스트

- 유전자의 질병간의 연관성 리스트

- 단백질의 기능적 도메인과 모티프

- 관련 문헌

- 유전자 ID를 다른 ID로 변환 ex) ensembl id에서 refseq id로


등등이 존재한다.


DAVID를 실제로 사용하기 위해서는 gene id list가 필요하다. gene symbol인지 특정한 데이터베이스에서 사용하는 ID인지는 ID mapping 과정을 통해 변환하는 과정이 있기 때문에 크게 중요하지 않다.



step1의 A에 유전자 ID를 직접 넣거나 한 줄에 하나씩 입력된 파일을 B에 넣고 step2의 identifier는 어떤 종류의 ID를 사용하고 있는지 넣은 후 step3의 gene list를 체크 후 submit 하면 된다.


당장 파일이 없을 땐 demolist를 눌러서 진행한다.



입력한 gene id를 기반으로 어떤 종에서 찾고싶은 것인지 선택하여야 한다. 만약 넣어준 gene list의 매칭되는 종이 있다면 위와같은 화면이 나오겠지만 없다면 mapping과정을 진행하는 창이 뜰 것이다. mapping 과정은 gene id를 통일하는 과정이다. mapping이 진행되고 나면 위와 같은 화면이 나온다.



Use 버튼을 눌러 분석을 실행했다면 위와같이 특정한 분류대로 어떤 유전자가 많이 포함되어있는지를 보여준다. 



가장 밑의 Functional Annotation Clustering은 누르면 모든 cluster에 대해서 어떤 유전자가 어떻게 묶였으며 각 p-value는 어떻게 되는지 확인할 수 있다.



위와 같이 그룹화된것을 확인하고 p-value, Benjamini, FDR 값을 토대로 특정 값 이하의 그룹을 significant하다고 정의내린 후 결과를 정리하면 된다.


통계 방법에 대한 정의는 아래 포스트를 참조하면 된다.


2018/07/11 - [bioinformatics] - Multiple Comparsion Problem



DAVID에서 제공하는 FDR값은 정상적이지 않다. 제일 마지막 줄에 있는 그룹만 봐도 FDR값이 3.3인데 FDR음 0에서 1 사이의 값을 가져야 한다.


Benjamini 값을 토대로 cutoff를 정하면 될 것이다.




source -

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2375021/

https://david.ncifcrf.gov/

반응형

'bioinformatics' 카테고리의 다른 글

RPKM, FPKM and TPM의 정의  (0) 2018.07.27
Remove duplicates  (0) 2018.07.24
_PAR_Y in Genecode annotation  (0) 2018.07.13
HLAtyping  (0) 2018.07.06
CRISPR editing  (0) 2018.04.05

+ Recent posts