반응형

Gene Ontology(GO) 분석은 유전자 기능을 체계적으로 분류하여 생물학적 역할을 이해하는 생물정보학 분석 기법이다. 유전자의 기능을 표준화된 용어로 나타내어 연구자가 특정 유전자 집합이 수행하는 생물학적 과정이나 기능, 그리고 세포 내 위치를 쉽게 파악할 수 있도록 돕는다. GO 분석은 크게 생물학적 과정(Biological Process; BP), 분자 기능(Molecular Function; MF), 세포 구성(Cellular Component; CC)의 세 가지 범주로 나뉜다.

  • Biological Process (BP): 유전자가 관여하는 생물학적 과정, 예를 들어 세포 분열, 대사 과정, 신호 전달 등의 역할을 설명한다. 유전자 세트가 특정 생물학적 과정에 속할 경우, 해당 과정이 연구 대상 조건에서 중요한 역할을 수행하고 있음을 의미한다.
  • Molecular Function (MF): 유전자가 수행하는 분자 수준의 기능을 나타내며, 예로는 단백질 결합, 효소 활성, 전자 운반 기능 등이 있다. MF 분석을 통해 특정 단백질 상호작용이나 분자 반응이 활성화되었는지를 알 수 있다.
  • Cellular Component (CC): 유전자가 위치하는 세포 내 혹은 세포 간 특정 위치를 정의하며, 예를 들어 세포핵, 미토콘드리아, 리보솜 등이 포함된다. 이를 통해 특정 세포 소기관이나 구조가 실험 조건에서 주로 활성화되었는지 파악할 수 있다.

GO 분석에서는 over-expressed(과발현)under-expressed(저발현) 유전자 세트를 기반으로 특정 조건에서 유전자들이 어떤 생물학적 경로에 영향을 주는지 평가한다. RNA-seq 실험 데이터를 통해 특정 조건에서 발현이 증가하거나 감소한 유전자 목록을 생성하고, 이들 유전자를 GO 용어로 매핑하여 특정 생물학적 과정이나 분자 기능에 대한 과대 표현 여부(enrichment)를 통계적으로 평가한다. 이를 통해 특정 조건에서 활성화되거나 억제되는 생물학적 경로를 구체적으로 파악할 수 있다.

RNA-seq 데이터 분석과 차등 발현 유전자(DEG) 선정 기준

RNA-seq 데이터는 유전자 발현의 전반적인 변화를 정량화할 수 있어 특정 조건에서 차등 발현된 유전자(differentially expressed genes, DEGs)를 탐색하기에 적합하다. DEG를 선정하는 기준은 발현량 변화 크기(Fold Change)통계적 유의성을 기반으로 한다.

  1. 발현량 변화 크기 (Fold Change): RNA-seq 데이터에서 특정 조건에서 발현이 2배 이상 증가(upregulated) 또는 1/2 이하로 감소(downregulated)한 유전자를 DEG로 간주하는 경우가 많다. 이 기준은 유전자 발현의 큰 변화를 반영하며, 발현량 변화가 생물학적 의미를 가질 가능성을 높여준다. 다만, 연구에 따라서는 1.5배 이상의 변화 또는 더 엄격한 기준을 설정할 수 있다.
  2. 통계적 유의성 (Statistical Significance): 발현 변화가 통계적으로 유의미한지를 확인하기 위해 p-valuefalse discovery rate (FDR)을 사용하여 차등 발현 여부를 판단한다. RNA-seq 데이터에서 수많은 유전자에 대해 검정하므로, 단순히 p-value ≤ 0.05와 같은 기준을 적용하면 다중 비교 문제로 인해 거짓 양성이 많아질 수 있다. 이를 해결하기 위해 Benjamini-Hochberg 보정과 같은 방법으로 FDR을 조정하고, 통상적으로 FDR ≤ 0.05를 기준으로 유의미한 DEG를 선정한다.
  3. 발현 수준의 절대값 기준: 발현량이 너무 낮은 유전자들은 분석 결과에 잡음(noise)을 줄 수 있으므로, 최소 발현량 기준(예: counts per million, CPM ≥ 1)을 설정하여 발현이 어느 정도 있는 유전자들만 분석에 포함한다. 이를 통해 데이터의 신뢰성을 높일 수 있다.

volcano plot

다중 검정 문제와 FDR 조정의 필요성

RNA-seq와 같은 대규모 유전자 발현 분석에서는 수천 개 이상의 유전자에 대해 동시에 통계 검정을 수행하므로, 다중 비교 문제가 발생할 수 있다. 다중 비교 문제란 하나의 실험에서 여러 가설을 동시에 검정할 때 우연에 의한 거짓 양성(false positive) 결과가 누적되는 현상을 의미한다. 예를 들어, 1,000개의 유전자에 대해 검정할 때 p-value ≤ 0.05를 기준으로 설정하면, 그중 약 5%인 50개의 유전자가 우연히 유의미하다고 나타날 수 있다.

이를 해결하기 위해 FDR (False Discovery Rate)을 조정하며, 특히 Benjamini-Hochberg (BH) 방법을 많이 활용한다. FDR 조정은 다중 검정을 수행하면서 거짓 양성 비율을 제어하여 분석 결과의 신뢰도를 높인다.

Benjamini-Hochberg (BH) FDR 조정 방법

BH 방법은 각 유전자에 대해 계산된 p-value를 정렬하고, 그 순위에 따라 유의미성을 점차적으로 조정하는 방식이다.

  • 모든 유전자의 p-value를 오름차순으로 정렬하고, 각 유전자에 대해 순위를 부여한다.
  • 각 유전자에 대해 FDR 기준을 다음과 같이 계산한다:
  • 여기서 p(i)는 i번째로 작은 p-value, m은 전체 유전자 수, α는 설정한 FDR 수준(예: 0.05)이다.
  • 이 기준을 만족하는 가장 큰 p-value까지의 유전자들을 DEG로 선택하여 최종 DEG 목록을 작성한다.
  • 이 방법을 통해 여러 유전자를 동시에 분석하더라도 통계적 신뢰도를 유지하면서 더 많은 DEG를 포착할 수 있다.

Bonferroni Correction과의 차이점

Bonferroni Correction은 설정한 유의 수준을 전체 유전자 수로 나누어 각 개별 검정에 엄격하게 적용하는 방법으로, 모든 개별 검정에서 거짓 양성을 완전히 억제하고자 한다. Bonferroni Correction은 매우 보수적인 방법이기 때문에 많은 검정 수에서 유의미한 결과를 얻기 어렵다. 반면, Benjamini-Hochberg (FDR) 조정은 전체 분석에서 거짓 양성 비율을 제한하여 다중 검정 문제를 해결하는 유연한 접근법으로, RNA-seq와 같이 유전자 수가 많고 유의미한 결과를 찾고자 할 때 더 자주 사용된다.

추가 분석 방법들

GO 분석 외에도 RNA-seq 유전자 발현 데이터를 활용할 수 있는 다양한 분석 방법이 존재하며, 이들 각각은 다른 생물학적 정보를 제공한다.

  1. Pathway Enrichment Analysis: 특정 생물학적 경로(예: KEGG, Reactome)를 중심으로 유전자들이 관여하는 경로를 분석하여 특정 조건에서 활성화되는 경로를 확인할 수 있다. 세포 신호 전달, 대사 경로, 질병 관련 경로를 심층적으로 분석할 수 있다.
  2. Gene Set Enrichment Analysis (GSEA): 유전자 발현 순위에 기반하여 특정 유전자 세트가 실험 조건에서 상위 또는 하위에 과대 대표되는지를 확인하는 방법이다. 발현 변화가 미세한 유전자들도 분석할 수 있어 노이즈가 많은 데이터에서도 의미 있는 생물학적 경로를 탐색할 수 있다.
  3. Protein-Protein Interaction (PPI) Network Analysis: 과발현 또는 저발현된 유전자들이 코딩하는 단백질의 상호작용 네트워크를 구축하여 특정 단백질 간의 상호작용 허브나 모듈을 확인한다. 이를 통해 특정 조건에서 활성화되는 단백질 복합체나 중요한 조절 단백질을 파악할 수 있다.
  4. Co-expression Network Analysis: WGCNA(Weighted Gene Co-expression Network Analysis)와 같은 방법을 사용하여 유전자들의 공발현 패턴을 네트워크로 분석한다. 이를 통해 유사한 발현 패턴을 가지는 유전자 모듈을 식별하여 기능적으로 연결될 가능성이 있는 유전자 그룹을 찾는 데 유용하다.
  5. Functional Annotation Clustering: DAVID와 같은 도구를 사용하여 유전자들의 기능적 특징을 클러스터링하여 유사한 기능을 가진 유전자 그룹을 식별하고, 이들 유전자들이 어떤 생물학적 역할을 수행하는지 전반적으로 파악할 수 있다.
  6. Transcription Factor (TF) Enrichment Analysis: 과발현된 유전자들이 공통적인 전사 인자(TF)에 의해 조절되는지를 분석하여 특정 전사 인자가 활성화된 상태임을 확인한다. 이를 통해 특정 조건에서 유전자 발현의 조절 메커니즘을 탐구할 수 있다.
  7. Single-Sample Gene Set Enrichment Analysis (ssGSEA): 각 샘플별로 유전자 세트의 활성화 정도를 평가하여 특정 샘플에서 주요한 생물학적 경로나 기능적 특성을 분석할 수 있다.

결론

RNA-seq 데이터에서 차등 발현 유전자(DEG)를 선별할 때, FDR 조정을 통해 다중 비교 문제를 해결하고 각 유전자가 관여하는 기능적 경로나 생물학적 과정을 정확하게 파악하는 것은 분석의 신뢰성을 높이는 핵심 요소다. GO 분석을 비롯한 다양한 분석 방법을 조합하여 생물학적 해석을 입체적으로 수행함으로써 특정 조건에서 발생하는 유전자 발현 변화의 의미를 깊이 이해할 수 있다.

이와 같이 RNA-seq 데이터를 기반으로 한 다양한 기능적 분석은 암, 신경계 질환, 면역 반응 등 복잡한 생물학적 현상을 연구하는 데 필수적인 도구이며, 생물학적 경로, 기능적 역할, 그리고 상호작용 네트워크를 체계적으로 파악하여 연구의 해석력을 높일 수 있다.

반응형
반응형

NGS 데이터 분석에서는 데이터의 신뢰성과 정확도를 평가하는 것이 매우 중요하다. 그중에서도 PHRED 품질 점수(Phred Quality Score)는 각 염기 서열의 신뢰도를 수치화하여 제공하며, 고품질 데이터 확보와 데이터 해석의 신뢰성을 높이는 데 큰 역할을 한다. 이번 글에서는 PHRED 품질 점수가 무엇인지, 왜 중요한지, 그리고 파이썬 코드로 FASTQ 데이터의 품질 점수를 확인하는 방법까지 설명하겠다.


PHRED Quality Score란?

PHRED 품질 점수는 NGS(Next-Generation Sequencing) 데이터를 처리할 때 각 염기 서열의 정확도를 나타내는 지표이다. 이 점수는 각 염기의 검출 오류 확률을 수치화하여 표현하며, 데이터의 신뢰도를 높이기 위해 중요한 역할을 한다. PHRED 품질 점수는 다음과 같은 수식으로 계산된다:

  • Q: 품질 점수
  • P: 염기가 잘못 검출될 확률

즉, Q 값이 높을수록 염기 검출의 정확도가 높고, 오류 확률이 낮다는 것을 의미한다. 예를 들어, Q20은 오류 확률이 1%, Q30은 0.1% 오류 확률을 나타낸다. 이는 데이터의 신뢰도를 높이기 위한 지표로써, 연구의 정확도를 높이는 데 매우 중요한 역할을 한다.

왜 PHRED 품질 점수를 확인해야 하는가?

  1. 데이터의 신뢰성 확보: 품질 점수는 각 염기가 얼마나 정확하게 검출되었는지를 나타내므로, 분석에 앞서 데이터의 신뢰성을 평가할 수 있다.
  2. 비용과 시간의 효율성: 잘못된 염기 데이터로 분석을 진행하면 불필요한 비용과 시간을 낭비하게 되며, 결과의 정확도도 떨어질 수 있다.
  3. 변이 검출의 정확성: 암 연구나 유전자 변이 분석에서는 미스매치가 변이인지 기술적 오류인지를 구분하는 것이 중요하다. 품질 점수가 낮은 위치에서 발생한 미스매치는 오류일 가능성이 높아, 이를 걸러내는 데 품질 점수가 필요하다.

PHRED 품질 점수의 아스키코드화 이유와 해석 방법

FASTQ 파일에서는 각 염기의 품질 점수가 아스키(ASCII) 코드 문자로 저장된다. 이는 파일의 저장 공간을 줄이고 데이터 처리를 간편하게 하기 위해서이다. FASTQ 파일의 데이터는 보통 수백만 개의 염기로 구성되기 때문에, 각 염기의 품질 점수를 숫자로 직접 기록하면 파일 크기가 지나치게 커지게 된다. ASCII 문자를 활용하면 숫자 대신 문자로 품질 점수를 기록하여 데이터 압축 효과를 높일 수 있다.

  1. 품질 점수와 아스키 문자 관계: 각 문자는 고유의 아스키 코드 값을 가지며, 품질 점수와 대응된다. 일반적으로 33을 더하거나(Sanger 포맷), 64를 더한 값으로 변환된 문자가 기록된다.
    • 예를 들어, 품질 점수가 30일 때 Sanger 포맷에서는 ASCII !부터 시작하여 30 + 33 = 63, 즉 문자 ?로 저장된다.
  2. 해석 방법: 품질 점수를 얻기 위해 각 문자의 아스키 값에서 33(Sanger 포맷)이나 64(Illumina 1.3+ 포맷)을 빼면 실제 품질 점수를 확인할 수 있다.

ASCII 테이블

예시 코드를 통해 FASTQ 파일에서 품질 점수를 추출하고 해석하는 방법을 살펴보겠다.


파이썬 코드로 FASTQ 데이터의 품질 점수 분석하기

FASTQ 파일의 품질 점수를 파싱하여 평균, 중위값, 상위 25%, 하위 25%를 계산하는 파이썬 코드를 작성해 보겠다. 이 코드에서는 Bio.SeqIO 모듈을 사용하여 FASTQ 파일을 읽고, 각 염기의 품질 점수를 추출하여 계산한다.

from Bio import SeqIO
import numpy as np

# FASTQ 파일 경로 설정
fastq_file = "your_fastq_file.fastq"

# 품질 점수를 저장할 리스트 생성
quality_scores = []

# FASTQ 파일 읽기 및 품질 점수 추출
for record in SeqIO.parse(fastq_file, "fastq"):
    quality_scores.extend(record.letter_annotations["phred_quality"])

# 품질 점수의 평균, 중위값, 상위 25%, 하위 25% 계산
mean_quality = np.mean(quality_scores)
median_quality = np.median(quality_scores)
upper_25th = np.percentile(quality_scores, 75)
lower_25th = np.percentile(quality_scores, 25)

# 결과 출력
print(f"품질 점수 평균: {mean_quality:.2f}")
print(f"품질 점수 중위값: {median_quality:.2f}")
print(f"상위 25% 품질 점수: {upper_25th:.2f}")
print(f"하위 25% 품질 점수: {lower_25th:.2f}")

이 코드에서는 품질 점수를 저장할 리스트를 생성한 뒤 FASTQ 파일을 읽어 각 염기의 품질 점수를 추출하고, numpy 모듈을 사용하여 평균, 중위값, 상위 25%, 하위 25%를 계산한다. 이와 같이 품질 점수의 통계치를 통해 데이터의 신뢰성을 평가할 수 있다.

반응형
반응형

1. 염색체란 무엇인가?

염색체는 생명체의 유전 정보를 담고 있는 구조체로, 세포의 핵 안에 존재합니다. 인간의 경우 46개의 염색체를 가지며, 이는 23쌍으로 구성되어 있습니다. 그 중 22쌍은 상염색체(autosomes)이며, 나머지 1쌍은 성염색체(sex chromosomes)로 성을 결정합니다. 여성은 XX 성염색체를, 남성은 XY 성염색체를 가지고 있습니다.

각 염색체는 염기쌍(base pairs, bp)이라는 단위로 구성된 DNA 분자이며, 이 염기서열의 길이를 통해 염색체의 크기가 결정됩니다. 인간의 유전체는 약 3.2Gb(기가베이스)의 DNA를 포함하며, 각각의 염색체는 수백만에서 수억 개의 염기쌍으로 이루어져 있습니다.


2. 사람 염색체 크기의 기본 정보

사람의 염색체는 크기에 따라 번호가 매겨지며, 염기쌍의 수에 따라 각각의 염색체 크기가 달라집니다. 염색체 1은 가장 크며 약 248백만 염기쌍(bp)을 가지고 있고, 염색체 21은 상대적으로 작으며 약 47백만 염기쌍으로 이루어져 있습니다. 이는 인간 게놈 프로젝트(Human Genome Project)에서 밝혀진 정보입니다. 아래는 주요 염색체의 크기 정보입니다.

염색체 번호크기(bp)

염색체 1 약 248백만 bp
염색체 2 약 242백만 bp
염색체 3 약 198백만 bp
염색체 4 약 190백만 bp
염색체 5 약 181백만 bp
염색체 21 약 47백만 bp
성염색체 X 약 156백만 bp
성염색체 Y 약 57백만 bp

염색체 크기는 정확히 알려면 NGS(차세대 염기서열 분석)과 같은 고급 기술이 필요합니다. NGS는 DNA의 염기서열을 읽어 염색체의 전체 길이를 계산해 정확한 크기를 알려주는 가장 정밀한 방법입니다.


3. NGS 이전의 대안적인 기술들

염색체 크기를 정확하게 측정하려면 NGS가 필수적이지만, NGS를 사용하기 전에도 염색체를 대략적으로 분석하고 구분하는 다양한 대안적인 방법들이 존재합니다. 이러한 방법들은 염색체 크기나 구조적 이상을 확인하는 데 유용하지만, 염기서열 수준의 정밀한 분석은 불가능합니다.


4. 카이로타이핑(Karyotyping)

카이로타이핑은 염색체를 직접 관찰하고 분석하는 방법으로, 주로 염색체 수나 구조적 이상을 확인하는 데 사용됩니다. 세포 분열의 중기(Metaphase) 단계에서 염색체가 가장 잘 보이기 때문에, 이 시점에 염색체를 추출하여 분석합니다. 염기서열 정보를 제공하지는 않지만, 염색체의 크기와 모양을 바탕으로 상대적인 비교가 가능합니다.

카이로타이핑의 과정:

  1. 세포 배양: 체세포를 채취하여 세포를 분열시킵니다.
  2. 염색: Giemsa 염색(G-banding) 기법을 사용하여 염색체에 독특한 밴드 패턴을 형성시킵니다.
  3. 분석: 현미경을 통해 염색된 염색체를 관찰하고, 크기와 밴드 패턴을 통해 각각의 염색체를 식별합니다.

카이로타이핑의 활용:

  • 염색체 수 이상: 예를 들어, 다운 증후군은 21번 염색체가 3개인 경우로, 카이로타이핑을 통해 쉽게 확인할 수 있습니다.
  • 구조적 이상: 염색체 전좌(translocation), 결실(deletion), 중복(duplication) 등의 구조적 변이를 확인할 수 있습니다.

카이로타이핑은 염색체의 크기와 구조를 비교하는 데 유용하지만, NGS처럼 염기서열에 대한 정밀한 정보를 제공하지는 않습니다.


5. 플로우 사이토메트리(Flow Cytometry)

플로우 사이토메트리는 세포나 염색체의 DNA 양과 같은 물리적, 화학적 특성을 분석하는 기법입니다. 특히 형광 염료를 이용해 DNA 양에 따라 염색체를 구분할 수 있습니다. 이 방법은 염색체의 상대적인 크기와 DNA 양을 측정할 수 있지만, 염기서열 정보는 제공하지 않습니다.

플로우 사이토메트리의 과정:

  1. 염색: 세포나 염색체를 형광 물질로 염색하여 DNA 양을 반영하는 형광 신호를 제공합니다.
  2. 레이저 조사: 레이저를 이용해 염색된 염색체에서 방출되는 형광 신호를 측정합니다.
  3. 데이터 분석: 염색체의 상대적인 크기와 DNA 양을 바탕으로 염색체를 구분하고 분석할 수 있습니다.

플로우 사이토메트리의 활용:

  • 염색체 분리: 염색체의 크기와 DNA 함량에 따라 염색체를 분리하고 분석할 수 있습니다.
  • 세포 주기 분석: 세포가 어느 단계에 있는지 분석하여 세포 분열 상태를 평가할 수 있습니다.

이 기술은 염색체의 상대적인 크기와 DNA 양을 파악할 수 있는 효율적인 방법이지만, NGS처럼 염기서열 정보를 제공하지는 않습니다.


6. 효소를 사용한 염색체 구분: FISH 기법과 제한효소 분석

염색체를 구분하는 또 다른 방법으로는 FISH(Fluorescence In Situ Hybridization)제한효소 분석이 있습니다. 이 기법들은 염기서열을 타겟으로 특정 구역을 시각화하거나 절단하여 분석할 수 있습니다. 이 방법들도 NGS의 대안으로 사용되지만, 염기서열 전체를 분석하는 데는 한계가 있습니다.

FISH(Fluorescence In Situ Hybridization)

FISH는 특정 염기서열에 결합하는 형광 탐침을 이용하여 염색체 내 특정 구역을 시각화하는 방법입니다. 탐침은 특정 DNA 서열에 결합하여 형광을 방출하며, 이를 통해 염색체 구조나 이상을 확인할 수 있습니다.

제한효소 분석

제한효소는 DNA의 특정 염기서열을 인식하여 해당 위치에서 DNA를 절단하는 효소입니다. 이를 통해 염색체 내 특정 구역을 절단하고, 전기영동(gel electrophoresis)으로 크기별로 분리하여 분석할 수 있습니다.


7. 염색체 번호 부여의 규칙

사람 염색체는 크기에 따라 번호가 부여되는데, 큰 염색체일수록 작은 번호를 가집니다. 예를 들어, 염색체 1은 가장 크며, 염색체 22는 상대적으로 작습니다. 그러나 염색체 21과 22는 크기 순서에서 약간의 예외가 존재합니다. 염색체 21이 크기가 더 작음에도 불구하고 22보다 먼저 번호가 부여되었습니다. 이는 초기 연구에서 발생한 착오로 인한 결과입니다.

성염색체는 남성과 여성의 성별을 결정하는데, 여성은 XX, 남성은 XY 성염색체를 가집니다.


8. 성염색체의 다양한 부여 방식: 사람과 다른 사례들

사람은 성염색체가 XX(여성) 또는 XY(남성)로 구성되는 성 결정 체계를 따르지만, 모든 생명체가 이러한 성염색체 체계를 따르는 것은 아닙니다. 동물계에는 성별을 결정하는 다양한 염색체 체계가 존재하며, 그 중에서 대표적인 방식 몇 가지를 소개하겠습니다.

1. ZW 성염색체 체계

  • 어디에서 발견되는가: 조류(새), 파충류, 일부 어류 및 곤충(나비, 나방 등)
  • 구성: ZW(암컷), ZZ(수컷)
  • 설명: 이 체계에서는 ZW를 가진 개체가 암컷, ZZ를 가진 개체가 수컷입니다. XY 체계에서 Y 염색체가 성을 결정하는 반면, ZW 체계에서는 W 염색체가 성을 결정합니다.
  • 예시:
    • : 수탉은 ZZ 염색체를 가지며, 암탉은 ZW 염색체를 가집니다.
    • : 많은 파충류에서도 ZW 체계가 발견됩니다.

2. XO 성염색체 체계

  • 어디에서 발견되는가: 주로 곤충(예: 메뚜기, 노린재)
  • 구성: XX(암컷), XO(수컷)
  • 설명: 이 성 결정 체계에서는 암컷이 두 개의 X 염색체(XX)를 가지지만, 수컷은 X 염색체 하나만 가지고 있고 Y 염색체는 없습니다. 수컷은 XO로 불리며, 이 체계에서는 O가 염색체가 없음을 나타냅니다.
  • 예시:
    • 메뚜기: 메뚜기 같은 곤충들은 XO 체계를 따릅니다.

3. 환경에 의한 성 결정

  • 어디에서 발견되는가: 주로 파충류(예: 거북, 악어), 일부 어류
  • 설명: 일부 동물에서는 성별이 염색체가 아니라 환경 요인, 특히 부화 온도에 의해 결정됩니다. 성 결정의 유전적 요소가 아닌 환경적 요인이 중요한 역할을 하는 이 방식은 성비 조절에 영향을 미칠 수 있습니다.
  • 예시:
    • 거북: 특정 온도에서 부화한 알은 암컷이 되고, 다른 온도에서 부화한 알은 수컷이 됩니다.
    • 악어: 온도에 따라 성비가 결정되는 대표적인 종입니다.

4. 하플로-딥로 성 결정 체계

  • 어디에서 발견되는가: 곤충(예: 꿀벌, 개미, 말벌)
  • 구성: 암컷(이배체, Diploid), 수컷(반수체, Haploid)
  • 설명: 하플로-딥로 체계에서는 암컷은 이배체(2n)이고, 수컷은 반수체(n)입니다. 이 체계에서 수컷은 수정되지 않은 난자에서 발생하고, 암컷은 수정된 난자에서 발생합니다.
  • 예시:
    • 꿀벌: 여왕벌과 일벌은 이배체(암컷)이고, 수벌은 반수체로 수정되지 않은 난자에서 태어납니다.
    • 개미: 개미도 하플로-딥로 성 결정 체계를 따르며, 여왕개미와 일개미는 이배체, 수개미는 반수체입니다.

5. 유전자성 성 결정

  • 어디에서 발견되는가: 어류, 일부 양서류
  • 설명: 이 체계에서는 특정 유전자(예: DMRT1 유전자)가 성을 결정하는 데 중요한 역할을 합니다. 이러한 유전자성 성 결정 체계는 성별을 결정하는 명확한 염색체가 아닌, 특정 유전자의 발현에 따라 성이 결정됩니다.

결론

염색체 분석 기술은 카이로타이핑, 플로우 사이토메트리, FISH, 제한효소 분석 등 다양한 방법으로 발전해왔으며, 각각의 기술은 염색체 수와 구조적 이상을 확인하는 데 유용하게 사용됩니다. 그러나 이러한 방법들은 대안적인 기술로서, 염색체의 크기나 염기서열을 정확히 분석하려면 NGS 같은 고급 기술이 필요합니다. 이를 통해 질병의 원인을 규명하고, 유전자 수준에서의 연구를 통해 질병의 치료와 예방에 중요한 정보를 제공합니다.

반응형

'biology' 카테고리의 다른 글

고강도 PCR  (0) 2024.10.10
핵형분석과 AI  (1) 2024.09.24
유전체 연구와 임상시험: 바이오마커 발굴과 전임상 및 임상 단계의 역할  (0) 2024.09.20
The 4d nucleome project  (0) 2024.09.10
FISH vs IHC  (0) 2024.09.10
반응형

Noninvasive prenatal testing (NIPT)는 태아의 유전적 이상을 찾아내는 방법 중 하나로 임부의 피에 떠다니는 cell free DNA(cfDNA)를 검사한다. 침습적 방법의 경우 주사를 직접 태반에 찔러 넣는 방식으로 낮은 확률의 사산이 생길 수 있는것에 비해 안정적이지만 검사의 정확도가 상대적으로 낮은 단점이 있다.

 

cfDNA는 약 200bp의 길이로 일반적으로는 세포가 죽을 때 생기는 부산물이며 혈류를 따라 이동한다. 임신 중에는 태반 세포의 일부도 cfDNA가 되는데 태반의 DNA는 태아의 DNA와 일치하기 때문에 이 DNA를 NGS 방식으로 시퀀싱 하여 태아의 DNA를 분석할 수 있다. 

 

NIPT는 주로 aneuploidy 같은 염색체 이상 질환에 대해 검사한다. 특히나 주로 보는 것은 trisomy 21(다운 증후군), trisomy 18, trisomy 13 그리고 X, Y 염색체의 수 이상 등이 있다.

염색체 특정 영역의 deletion 또는 duplication도 확인 하기도 한다.

 

엄마의 피에서 태아의 DNA가 차지하는 비율을 "fetal fraction" 이라고 부른다. 10주 이상일 때 보통 4퍼센트 이상이며 만약 이보다 낮다면 검사의 정확도가 낮아져 위양성 결과가 나올 수 있다. 샘플링 에러, 엄마의 비만 또는 태아의 비정상적인 부분이 있다면 fetal fraction이 낮게 나올 수 있다.

 

염색체 이상을 찾아내는 방법은 태아와 엄마의 모든 cfDNA 조각의 개수를 세고 모든 염색체의 비율이 비슷하다면 염색체 이상이 있을 확률은 낮은 것으로 본다. 만약 특정 염색체의 조각이 많다면 trisomy를 의심해 볼 수 있다. NIPT는 정확도가 높지 않기 때문에 추가적인 검사로 양성 판단이 필요하다.

 

Reference -

https://medlineplus.gov/genetics/understanding/testing/nipt/

 

반응형

'bioinformatics' 카테고리의 다른 글

Argo workflow를 사용한 파이프라인 관리  (0) 2024.09.22
연구실 정보 관리 시스템 (LIMS)의 사용  (0) 2024.08.26
gnomAD  (0) 2020.06.25
Phred quality score  (0) 2020.03.11
Sequencing QC  (0) 2020.03.11
반응형

WGS, RNA-seq, sRNA-seq 등 시퀀싱 테크닉에따라 그리고 샘플의 종(species)에 따라 QC기준은 달라질 수 밖에 없지만 사람을 기준으로 대표적인 QC기준을 설명하고자 한다.

 

크게 실험단계에서의 라이브러리 제작이 잘 되는지 QC가 있고 시퀀싱이 진행된 후에 BI 기준의 QC가 있다.

 

실험 QC는 잘 모르니 생략하고 BI기준의 시퀀싱 이후 단계만 요약하고자 한다.

 

가장 첫 번째 단계는 Illumina 시퀀서 기준으로 PF(passing filter)가 있다.

 

passing filter란 시퀀싱 단계에서 일어나는 cluster가 얼마나 잘 구성되었는지 여부를 의미한다. cluster들끼리 오버랩되면 에러가 생길 가능성이 커져 오버랩이 일어난 cluster는 모두 제거하는데 이 비율이 얼마나 되는지 수치가 PF값이다.

 

https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/hiseq-x-percent-pf-technical-note-770-2014-043.pdf

불러오는 중입니다...

PF값은 참고용으로만 사용할 뿐 실제 분석에서는 대부분 raw file인 fastq 파일부터 시작하기 때문에 QC는 아래 값들을 주로 사용한다.

 

fastq파일의 Number of reads, GCratio, Q20, Q30, N(%), Duplication rate, Adapter sequence

BAM파일의 Mapping rate, House-keeping gene expression, Insert size distribution

 

각각의 수치를 구하는 방법은 여러 종류의 tool이 있으나 FastQC가 fastq 수준에서는 가장 많이 사용한다.

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

 

Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data

 

www.bioinformatics.babraham.ac.uk

BAM파일은 alignment tool에 따라서 수치를 제공하는 프로그램도 있고 samtools stats 명령어를 통해서도 확인 가능하다. 

반응형

'bioinformatics' 카테고리의 다른 글

gnomAD  (0) 2020.06.25
Phred quality score  (0) 2020.03.11
HLA genotyping  (0) 2020.02.21
SnpEff 빌드하기  (0) 2019.09.30
GC bias in the first few bases.  (0) 2019.07.04
반응형

Pyrosequencing, methylation-specific polymerase chain reaction (PCR), direct Sanger sequencing이 프로모터 영역이나 CpG island 등 특정 영역의 메틸화 정도를 보려고 할 때 사용하는 기술이다. 이 기술들은 유용하지만 정확도가 낮고 read length가 짧으며 수율이 낮다는 단점이 있다.

 

이후에 적은 비용과 많은 양의 DNA가 필요하지 않으면서도 게놈 영역 전체를 커버할 수 있는 Microarray를 사용한 기술을 사용한 메틸화 분석 기술이 나왔으나 이는 depth에 의해 결과가 영향을 받을 수 있다.

 

NGS기술은 단일 염기 수준의 정확도로 거의 모든 CpG 사이트를 구분할 수 있는 기술임을 보였으나 여전히 density-biased, deficient in robustness and consistency, or incapable of analyzing 5mC specifically 등의 문제가 있다.

 

가장 많이 사용하는 기술의 요약이다.

 

 

1. Affinity Enrichment-Based Methods

antibody(MeDIP-Seq)나 binding protein(MBD-Seq)을 사용하는 방법으로 특정 영역을 당겨서 시퀀싱을 하고 나머지는 버리는 방법이다. enriched CpG영역에 대한 분석에 용이하다.

 

2. Restriction Enzymes-Based Methods

MspI 제한효소를 하용하여 CCGG motifs를 절단한다. 시간과 비용이 적게 들고 DNA도 소량만 있으면 되지만 게놈 영역 전체를 골고루 커버할 수 없다. (특정 영역이 chromatin structure 등에 의해 더 잘 잘리거나, 덜 잘리거나 하는 경향이 있을 수 있음.)

 

3. Bisulfite Conversion-Based Methods

bisulfite 처리를 하면 보통의 C가 U라 바뀌지만 메틸화 C는 바뀌지 않는다. 따라서 bisulfite처리를 한 샘플과 게놈 sequence를 비교하여 실제 메틸화 C가 어디 있는지를 알아낼 수 있으며 따라서 이 분석에 맞는 alignment프로그램을 사용하여야 한다. 가장 많이 쓰이는 프로그램은 BISMARK.

WGBS는 가장 많은 정보를 담을 수 있지만 비싸다는 단점이 있다.

 

4. Oxidative Bisulfite Conversion-Based Methods

최근에 개발된 기술로 5hmC와 5caC, 5fC를 포함하여 cytosine modification을 찾아낼 수 있다. 방법으로는 Ox-BS나 TAB-Seq 등이 있다.

 

5. Capture-Based Methods

기존의 방법들에 비해 많은 진보가 있는 기술로서 whole genome sequencing에 비해 cost-effective 하면서도 수율도 높고 특히나 complex regions에서 강점을 보인다.  MethylCap-seq은 CpG islands 외의 질병과 관련되어있는 메틸화 영역에 대한 연구가 가능하며 reproducibility도 높음을 여러 샘플에서 보여주었다. MethylCap-seq 외에도 SeqCap Epi CpGiant 등 bisulfite-converted DNA를 사용하여 방법들이 있다. 

 

6. Third-Generation Sequencing

최근에는 chemical conversion이 없이도 DNA modification 분석이 가능한 기술이 가능하다. SMRT DNA sequencing은 kinetics of DNA polymerase를 인지함으로 modifed DNA를 찾아낼 수 있다. nanopore sequencer또한 DNA base의 modification 여부를 reading과정 중에 찾아낼 수 있다.

 

 

참고 -

Barros-Silva, Daniela et al. “Profiling DNA Methylation Based on Next-Generation Sequencing Approaches: New Insights and Clinical Applications.” Genes vol. 9,9 429. 23 Aug. 2018, doi:10.3390/genes9090429

반응형

'bioinformatics' 카테고리의 다른 글

GC bias in the first few bases.  (0) 2019.07.04
DNA methylation  (0) 2019.06.18
KEGG Mapper 사용법  (2) 2018.11.15
Gene ID conversion  (0) 2018.11.15
SRA data 다운로드받기  (1) 2018.10.17

+ Recent posts