Gene Ontology (GO) 분석과 활용 방법

바닐라스카이 2024. 10. 27. 17:59

2024. 10. 27. 17:59

Gene Ontology(GO) 분석은 유전자 기능을 체계적으로 분류하여 생물학적 역할을 이해하는 생물정보학 분석 기법이다. 유전자의 기능을 표준화된 용어로 나타내어 연구자가 특정 유전자 집합이 수행하는 생물학적 과정이나 기능, 그리고 세포 내 위치를 쉽게 파악할 수 있도록 돕는다. GO 분석은 크게 생물학적 과정(Biological Process; BP), 분자 기능(Molecular Function; MF), 세포 구성(Cellular Component; CC)의 세 가지 범주로 나뉜다.

Biological Process (BP): 유전자가 관여하는 생물학적 과정, 예를 들어 세포 분열, 대사 과정, 신호 전달 등의 역할을 설명한다. 유전자 세트가 특정 생물학적 과정에 속할 경우, 해당 과정이 연구 대상 조건에서 중요한 역할을 수행하고 있음을 의미한다.
Molecular Function (MF): 유전자가 수행하는 분자 수준의 기능을 나타내며, 예로는 단백질 결합, 효소 활성, 전자 운반 기능 등이 있다. MF 분석을 통해 특정 단백질 상호작용이나 분자 반응이 활성화되었는지를 알 수 있다.
Cellular Component (CC): 유전자가 위치하는 세포 내 혹은 세포 간 특정 위치를 정의하며, 예를 들어 세포핵, 미토콘드리아, 리보솜 등이 포함된다. 이를 통해 특정 세포 소기관이나 구조가 실험 조건에서 주로 활성화되었는지 파악할 수 있다.

GO 분석에서는 over-expressed(과발현) 및 under-expressed(저발현) 유전자 세트를 기반으로 특정 조건에서 유전자들이 어떤 생물학적 경로에 영향을 주는지 평가한다. RNA-seq 실험 데이터를 통해 특정 조건에서 발현이 증가하거나 감소한 유전자 목록을 생성하고, 이들 유전자를 GO 용어로 매핑하여 특정 생물학적 과정이나 분자 기능에 대한 과대 표현 여부(enrichment)를 통계적으로 평가한다. 이를 통해 특정 조건에서 활성화되거나 억제되는 생물학적 경로를 구체적으로 파악할 수 있다.

RNA-seq 데이터 분석과 차등 발현 유전자(DEG) 선정 기준

RNA-seq 데이터는 유전자 발현의 전반적인 변화를 정량화할 수 있어 특정 조건에서 차등 발현된 유전자(differentially expressed genes, DEGs)를 탐색하기에 적합하다. DEG를 선정하는 기준은 발현량 변화 크기(Fold Change)와 통계적 유의성을 기반으로 한다.

발현량 변화 크기 (Fold Change): RNA-seq 데이터에서 특정 조건에서 발현이 2배 이상 증가(upregulated) 또는 1/2 이하로 감소(downregulated)한 유전자를 DEG로 간주하는 경우가 많다. 이 기준은 유전자 발현의 큰 변화를 반영하며, 발현량 변화가 생물학적 의미를 가질 가능성을 높여준다. 다만, 연구에 따라서는 1.5배 이상의 변화 또는 더 엄격한 기준을 설정할 수 있다.
통계적 유의성 (Statistical Significance): 발현 변화가 통계적으로 유의미한지를 확인하기 위해 p-value와 false discovery rate (FDR)을 사용하여 차등 발현 여부를 판단한다. RNA-seq 데이터에서 수많은 유전자에 대해 검정하므로, 단순히 p-value ≤ 0.05와 같은 기준을 적용하면 다중 비교 문제로 인해 거짓 양성이 많아질 수 있다. 이를 해결하기 위해 Benjamini-Hochberg 보정과 같은 방법으로 FDR을 조정하고, 통상적으로 FDR ≤ 0.05를 기준으로 유의미한 DEG를 선정한다.
발현 수준의 절대값 기준: 발현량이 너무 낮은 유전자들은 분석 결과에 잡음(noise)을 줄 수 있으므로, 최소 발현량 기준(예: counts per million, CPM ≥ 1)을 설정하여 발현이 어느 정도 있는 유전자들만 분석에 포함한다. 이를 통해 데이터의 신뢰성을 높일 수 있다.

다중 검정 문제와 FDR 조정의 필요성

RNA-seq와 같은 대규모 유전자 발현 분석에서는 수천 개 이상의 유전자에 대해 동시에 통계 검정을 수행하므로, 다중 비교 문제가 발생할 수 있다. 다중 비교 문제란 하나의 실험에서 여러 가설을 동시에 검정할 때 우연에 의한 거짓 양성(false positive) 결과가 누적되는 현상을 의미한다. 예를 들어, 1,000개의 유전자에 대해 검정할 때 p-value ≤ 0.05를 기준으로 설정하면, 그중 약 5%인 50개의 유전자가 우연히 유의미하다고 나타날 수 있다.

이를 해결하기 위해 FDR (False Discovery Rate)을 조정하며, 특히 Benjamini-Hochberg (BH) 방법을 많이 활용한다. FDR 조정은 다중 검정을 수행하면서 거짓 양성 비율을 제어하여 분석 결과의 신뢰도를 높인다.

Benjamini-Hochberg (BH) FDR 조정 방법

BH 방법은 각 유전자에 대해 계산된 p-value를 정렬하고, 그 순위에 따라 유의미성을 점차적으로 조정하는 방식이다.

모든 유전자의 p-value를 오름차순으로 정렬하고, 각 유전자에 대해 순위를 부여한다.
각 유전자에 대해 FDR 기준을 다음과 같이 계산한다:
여기서 p(i)는 i번째로 작은 p-value, m은 전체 유전자 수, α는 설정한 FDR 수준(예: 0.05)이다.
이 기준을 만족하는 가장 큰 p-value까지의 유전자들을 DEG로 선택하여 최종 DEG 목록을 작성한다.
이 방법을 통해 여러 유전자를 동시에 분석하더라도 통계적 신뢰도를 유지하면서 더 많은 DEG를 포착할 수 있다.

Bonferroni Correction과의 차이점

Bonferroni Correction은 설정한 유의 수준을 전체 유전자 수로 나누어 각 개별 검정에 엄격하게 적용하는 방법으로, 모든 개별 검정에서 거짓 양성을 완전히 억제하고자 한다. Bonferroni Correction은 매우 보수적인 방법이기 때문에 많은 검정 수에서 유의미한 결과를 얻기 어렵다. 반면, Benjamini-Hochberg (FDR) 조정은 전체 분석에서 거짓 양성 비율을 제한하여 다중 검정 문제를 해결하는 유연한 접근법으로, RNA-seq와 같이 유전자 수가 많고 유의미한 결과를 찾고자 할 때 더 자주 사용된다.

추가 분석 방법들

GO 분석 외에도 RNA-seq 유전자 발현 데이터를 활용할 수 있는 다양한 분석 방법이 존재하며, 이들 각각은 다른 생물학적 정보를 제공한다.

Pathway Enrichment Analysis: 특정 생물학적 경로(예: KEGG, Reactome)를 중심으로 유전자들이 관여하는 경로를 분석하여 특정 조건에서 활성화되는 경로를 확인할 수 있다. 세포 신호 전달, 대사 경로, 질병 관련 경로를 심층적으로 분석할 수 있다.
Gene Set Enrichment Analysis (GSEA): 유전자 발현 순위에 기반하여 특정 유전자 세트가 실험 조건에서 상위 또는 하위에 과대 대표되는지를 확인하는 방법이다. 발현 변화가 미세한 유전자들도 분석할 수 있어 노이즈가 많은 데이터에서도 의미 있는 생물학적 경로를 탐색할 수 있다.
Protein-Protein Interaction (PPI) Network Analysis: 과발현 또는 저발현된 유전자들이 코딩하는 단백질의 상호작용 네트워크를 구축하여 특정 단백질 간의 상호작용 허브나 모듈을 확인한다. 이를 통해 특정 조건에서 활성화되는 단백질 복합체나 중요한 조절 단백질을 파악할 수 있다.
Co-expression Network Analysis: WGCNA(Weighted Gene Co-expression Network Analysis)와 같은 방법을 사용하여 유전자들의 공발현 패턴을 네트워크로 분석한다. 이를 통해 유사한 발현 패턴을 가지는 유전자 모듈을 식별하여 기능적으로 연결될 가능성이 있는 유전자 그룹을 찾는 데 유용하다.
Functional Annotation Clustering: DAVID와 같은 도구를 사용하여 유전자들의 기능적 특징을 클러스터링하여 유사한 기능을 가진 유전자 그룹을 식별하고, 이들 유전자들이 어떤 생물학적 역할을 수행하는지 전반적으로 파악할 수 있다.
Transcription Factor (TF) Enrichment Analysis: 과발현된 유전자들이 공통적인 전사 인자(TF)에 의해 조절되는지를 분석하여 특정 전사 인자가 활성화된 상태임을 확인한다. 이를 통해 특정 조건에서 유전자 발현의 조절 메커니즘을 탐구할 수 있다.
Single-Sample Gene Set Enrichment Analysis (ssGSEA): 각 샘플별로 유전자 세트의 활성화 정도를 평가하여 특정 샘플에서 주요한 생물학적 경로나 기능적 특성을 분석할 수 있다.

결론

RNA-seq 데이터에서 차등 발현 유전자(DEG)를 선별할 때, FDR 조정을 통해 다중 비교 문제를 해결하고 각 유전자가 관여하는 기능적 경로나 생물학적 과정을 정확하게 파악하는 것은 분석의 신뢰성을 높이는 핵심 요소다. GO 분석을 비롯한 다양한 분석 방법을 조합하여 생물학적 해석을 입체적으로 수행함으로써 특정 조건에서 발생하는 유전자 발현 변화의 의미를 깊이 이해할 수 있다.

이와 같이 RNA-seq 데이터를 기반으로 한 다양한 기능적 분석은 암, 신경계 질환, 면역 반응 등 복잡한 생물학적 현상을 연구하는 데 필수적인 도구이며, 생물학적 경로, 기능적 역할, 그리고 상호작용 네트워크를 체계적으로 파악하여 연구의 해석력을 높일 수 있다.

저작자표시 비영리 변경금지 (새창열림)

Be great