반응형

소비자 직접 유전자검사(DTC, Direct-To-Consumer)는 소비자가 의료기관을 거치지 않고 직접 유전자검사 기관을 통해 자신의 유전 정보를 확인할 수 있는 서비스입니다. 이 글에서는 한국에서 DTC 유전자검사의 허용 범위와 규제, 그리고 해외와의 차이점에 대해 설명합니다.


1. DTC 유전자검사의 목적

DTC 유전자검사는 개인의 유전 정보를 바탕으로 건강 관리와 생활 습관 개선을 돕는 것을 주요 목적으로 합니다. 특히, 질병 위험도를 직접적으로 다루는 대신 생활 습관 및 웰니스와 관련된 항목을 중점적으로 분석하여 개인의 건강 관리에 유용한 정보를 제공합니다.

DTC 유전자검사의 주요 목적은 다음과 같습니다.

  • 건강 관리: 유전자형 정보를 통해 개인의 건강 관리 방안을 제안합니다.
  • 생활 습관 개선: 영양, 운동, 피부 특성 등을 고려하여 맞춤형 생활 습관 개선을 돕습니다.
  • 개인 맞춤형 서비스: 유전적 특성을 반영한 맞춤형 영양 섭취나 운동 방법을 추천합니다.

2. 한국에서의 DTC 유전자검사 항목과 제한

보건복지부는 한국에서의 DTC 유전자검사 항목을 엄격히 규제하고 있으며, 생활 습관 및 웰니스와 관련된 항목만 허용됩니다. 2023년 기준으로 총 165개의 항목이 고시되었으며, 이는 개인의 건강 관리와 생활 습관 개선에 중점을 둔 항목으로 구성되어 있습니다. 질병의 진단이나 치료 목적의 검사는 불허되며, 의료기관을 통해서만 진행할 수 있습니다.

허용된 주요 항목은 다음과 같습니다.

  • 영양소 관련: 비타민 D, 오메가-3 지방산, 나트륨 배출
  • 운동 및 신체 특성: 심폐 지구력, 근력, 골강도
  • 피부 및 모발 특성: 피부 노화, 탈모, 색소 침착
  • 식습관 및 대사: 카페인 대사, 알코올 분해 능력
  • 기타 개인 특성: 왼손/오른손잡이, 후각 민감도

출처: 보건복지부, “소비자대상직접시행(DTC) 유전자검사항목 165개로 확대” (mohw.go.kr)


3. 한국과 해외 DTC 유전자검사의 차이점

3.1 검사 항목 및 규제 차이

  • 한국: 주로 웰니스와 생활 습관 관련 항목에 국한되며, 질병 예측을 위한 검사는 불가능합니다.
  • 해외: 미국유럽 일부 국가에서는 특정 질병의 유전자형을 검사해 알츠하이머, 파킨슨병 등의 위험도를 제공하는 경우도 있습니다. 예를 들어, 미국의 23andMe는 FDA 승인을 받은 검사를 통해 질병 위험도 정보를 제공할 수 있습니다.

3.2 검사 결과 해석의 차이

  • 한국: 결과를 건강 관리 참고 자료로 사용할 수 있도록 단순화하여 제공하며, 소비자가 이를 바탕으로 전문가의 도움을 받을 수 있습니다.
  • 해외: 미국에서는 질병 위험도 정보를 포함하여 소비자가 질병 예방 및 건강 관리에 활용할 수 있도록 상세한 해석을 제공합니다.

4. DTC 유전자검사에서의 SNP 선택과 규제

한국에서는 DTC 검사 항목뿐만 아니라 각 항목에 대해 분석할 SNP도 규제하고 있습니다. 보건복지부가 지정한 인증 항목 내에서 승인된 SNP만 검사가 가능하며, 검사기관이 임의로 SNP를 선택할 수 없습니다. 이는 검사 신뢰성과 소비자 보호를 위한 조치로, 검사가 규정된 범위 내에서만 이루어지도록 제한합니다.


5. 전통적 분석, 머신러닝, 딥러닝을 활용한 유전자형 분석

  • 1. 전통적 통계 방법: Odds Ratio와 로지스틱 회귀Odds Ratio (OR)
    로지스틱 회귀
    로지스틱 회귀는 단순한 해석이 용이하며, 각 SNP가 독립적이라는 가정하에 해석할 수 있어 이해하기 쉽지만, 다중 상호작용이나 비선형 관계를 반영하는 데는 한계가 있습니다.
    2. 머신러닝 기반 모델: 랜덤 포레스트와 Gradient Boosting랜덤 포레스트 (Random Forest)
    랜덤 포레스트는 변수 중요도(feature importance)를 계산해 각 SNP가 표현형에 미치는 영향력을 추정할 수 있어 해석이 용이하며, 비선형 관계를 반영해 분석을 수행합니다. 과적합을 방지하면서도 높은 예측력을 보이며, 다수의 트리로 인해 LD 패턴을 효과적으로 반영할 수 있습니다.Gradient Boosting은 여러 약한 학습기를 결합하여 모델의 예측력을 점진적으로 향상시키는 방식으로, SNP와 표현형 간의 비선형적 관계를 학습하는 데 유리합니다.
    Gradient Boosting은 변수 중요도부분 의존도 플롯(PDP)을 통해 각 SNP의 기여도를 해석할 수 있으며, 고차원 상호작용을 반영할 수 있는 강력한 비선형 모델입니다. 다만, 과적합이 발생할 가능성이 있으며, 이를 방지하기 위해 학습률과 나무의 깊이를 조절해야 합니다.
    3. 딥러닝 기반 모델: CNN과 GNNConvolutional Neural Networks (CNN)
    CNN은 각 SNP가 표현형에 미치는 영향을 LD 패턴과 연관 지어 학습하는 데 강점이 있으며, 비선형적 관계를 자동으로 탐지할 수 있습니다. 필터 크기와 수를 조정하여 다양한 SNP 간의 관계를 학습할 수 있으며, 높은 예측력을 보입니다.GNN은 그래프 구조에서 노드(여기서는 SNP) 간의 상호작용을 반영하여 복잡한 LD 패턴을 반영할 수 있는 모델입니다. SNP 간의 상관관계를 그래프 구조로 나타내어, 노드 간의 연결을 통해 유전적 상호작용을 반영합니다.
    GNN은 고차원적 상호작용을 반영하고, 비선형적 관계를 탐지할 수 있어 복잡한 LD 구조를 효과적으로 학습합니다. SNP 간의 상관관계를 그래프 형식으로 나타내어 상호작용과 LD 패턴을 자연스럽게 반영할 수 있습니다.

    요약  비교방법론 해석력 비선형 패턴 학습 LD 패턴 반영데이터 요구량
    전통적 통계 (OR, 로지스틱 회귀) 높음 낮음 제한적 적은 데이터에서도 가능
    머신러닝 (랜덤 포레스트, Gradient Boosting) 중간 중간 일부 반영 중간
    딥러닝 (CNN, GNN) 낮음 매우 높음 고도 반영 대규모 데이터 필요
    각 방법론은 SNP와 표현형 간의 상관관계를 파악하는 방식과 능력에 차이가 있습니다. 전통적 방법은 해석이 쉽고, 머신러닝은 비선형 패턴을 일부 반영할 수 있으며, 딥러닝은 복잡한 비선형 패턴과 LD 패턴을 포괄적으로 학습할 수 있지만, 해석력과 데이터 요구량에서 각각의 장단점이 있습니다.

요약

한국에서의 DTC 유전자검사는 소비자의 건강 관리와 생활 습관 개선에 초점을 맞추고 있으며, 지정된 항목과 SNP만 검사할 수 있도록 규제되어 있습니다. 반면, 해외에서는 질병 위험도 평가까지 허용되기도 하며, 더 많은 정보와 해석을 제공합니다. 전통적인 통계 방법에서부터 머신러닝, 딥러닝에 이르기까지 다양한 분석 방법론이 있으며, 각 방법의 장단점에 따라 유전자형과 표현형 간의 상관관계를 분석하는 방식이 달라질 수 있습니다.

반응형
반응형

멀티오믹스 데이터 분석은 다차원 생물학적 데이터를 통합하여 질병의 원인, 생물학적 경로, 잠재적 치료 표적 등을 보다 심층적으로 이해하는 데 필수적입니다. 이러한 접근 방식은 유전체, 전사체, 단백체, 대사체 등의 데이터 유형을 통합해 복잡한 생물학적 시스템을 분석하며, 현대 생물정보학 연구에서 필수적인 도구로 자리잡고 있습니다. 이번 블로그에서는 멀티오믹스 데이터 분석이 활발히 이루어지는 주요 연구 주제와 이에 적합한 공공 데이터베이스들을 소개하고자 합니다.


1. 암 (Cancer)

암 연구는 다양한 오믹스 데이터를 활용하여 종양의 발생과 전이를 이해하고, 암의 발병 기전을 밝혀내기 위한 연구가 진행되고 있습니다. 특히, 다차원 데이터를 통합한 멀티오믹스 접근법은 암의 유전적 변이, 에피제네틱 변화, 단백질 발현의 변화를 종합적으로 분석해 치료 표적 발굴에 도움을 줍니다.

  • TCGA (The Cancer Genome Atlas): 전 세계적으로 사용되는 대표적인 암 멀티오믹스 데이터베이스로, 암 종류별 유전체, 전사체, 에피지놈, 단백체, 메틸화 및 임상 데이터가 통합되어 있습니다. TCGA 데이터는 암의 다양한 분자적 특성을 분석할 수 있는 기회를 제공합니다.
  • ICGC (International Cancer Genome Consortium): 국제 암 유전체 프로젝트로, 다양한 인종과 환경에서 수집된 암 유전체 및 관련 데이터를 제공합니다. TCGA와 협력하여 전 세계적으로 암의 분자적 특성을 비교하고 분석하는 데 큰 기여를 하고 있습니다.

2. 치매 (Alzheimer's Disease)

알츠하이머병과 같은 퇴행성 신경 질환 연구는 질병의 초기 진단 및 치료 타겟 발굴을 위한 멀티오믹스 접근법이 중요한 역할을 합니다. 치매 연구에서 다차원 데이터를 통합함으로써 뇌의 구조적 변화와 유전적 요인을 더 잘 이해할 수 있습니다.

  • ADNI (Alzheimer’s Disease Neuroimaging Initiative): 알츠하이머병 연구를 위한 대표적 데이터베이스로, 유전체, 전사체, 단백체, MRI, PET 등 다양한 유형의 데이터가 포함되어 있습니다. 뇌 영상 데이터를 포함해 질병의 진행 상황을 추적하는 데 유용한 자료를 제공합니다.

3. 심혈관 질환 (Cardiovascular Disease)

심혈관 질환은 대규모 코호트 연구를 통해 연구되고 있으며, 유전자형, 전사체, 단백체 데이터와 생체 신호 데이터를 결합하여 심장 질환의 발생 위험을 예측하고, 예방 전략을 수립하는 데 기여하고 있습니다.

  • Framingham Heart Study: 1948년부터 시작된 심혈관 질환에 대한 대표적인 코호트 연구로, 다양한 유전자형과 표현형 데이터를 포함하고 있으며, 심혈관 질환 발생의 유전적 및 환경적 요인을 연구하는 데 중점을 둡니다.
  • dbGaP (Database of Genotypes and Phenotypes): 심혈관 질환을 포함하여 다양한 질병에 대해 유전자형과 표현형 데이터를 제공하며, 공공 연구 커뮤니티에서 널리 활용됩니다.

4. 마이크로바이옴 (Microbiome)

인간의 건강과 질병 상태에 큰 영향을 미치는 장내 미생물군을 연구하는 마이크로바이옴 연구는 최근 주목받고 있는 분야입니다. 다양한 오믹스 데이터 통합을 통해 마이크로바이옴이 건강에 미치는 영향을 분석하고 있습니다.

  • Human Microbiome Project (HMP): 인간 마이크로바이옴 데이터를 다룬 대표적 프로젝트로, 유전체, 전사체, 단백체 데이터를 통합하여 다양한 미생물군의 역할을 연구합니다.
  • GMrepo (Gut Microbiota Repository): 장내 미생물에 대한 방대한 유전자형 및 표현형 데이터베이스로, 장내 미생물의 구성과 기능적 역할을 분석하는 연구에 유용합니다.

5. 노화 관련 연구 (Aging and Age-related Diseases)

노화 연구에서는 다양한 연령층의 생물학적 데이터를 통해 노화 과정과 관련된 유전자 발현의 변화를 파악합니다. 이를 통해 노화와 관련된 질병의 예방 및 치료 타겟을 발굴할 수 있습니다.

  • GTEx (Genotype-Tissue Expression Project): 다양한 연령층에서 여러 조직의 전사체 데이터를 제공하여, 조직별 유전자 발현의 변화를 연구할 수 있도록 돕습니다.
  • LonGenity: 장수와 관련된 유전자, 생물학적 경로, 표현형 데이터를 포함하여 노화 과정과 관련된 연구에 활용될 수 있습니다.

6. 감염성 질환 (Infectious Diseases)

감염성 질환 연구는 면역 반응과 병원체의 상호작용을 이해하는 데 필수적입니다. 감염성 질환에 대한 다차원 데이터를 통해 질병의 진단 및 예방에 중요한 기초 자료를 제공합니다.

  • ImmPort: 감염성 질환에 대한 다양한 오믹스 데이터를 포함하고 있으며, 면역학적 연구에 적합한 구조를 갖추고 있어, 감염성 질환에 대한 면역 반응 연구에 유용합니다.
  • Viral Pathogen Resource (ViPR): 다양한 바이러스 관련 데이터를 통합하여, 바이러스와 숙주 간의 상호작용을 이해할 수 있는 연구 자료를 제공합니다.

7. 희귀질환 (Rare Diseases)

희귀 유전 질환 연구는 제한된 환자 수와 희귀성으로 인해 유전자 변이 정보를 통합한 멀티오믹스 데이터 접근이 중요합니다. 희귀질환은 특정 유전자 변이로 인해 발생하는 경우가 많아, 유전체 데이터를 바탕으로 한 연구가 활발히 진행되고 있습니다.

  • ClinVar: 희귀 유전 질환에 대한 유전자 변이 정보와 임상적 해석이 포함된 데이터베이스로, 질병 원인 유전자 변이를 연구하는 데 매우 유용합니다.
  • The Human Phenotype Ontology (HPO): 희귀질환의 표현형 정보와 유전 변이를 통합하여 희귀질환의 병리 기작 연구에 활용할 수 있습니다.

이와 같은 데이터베이스들은 각 분야 연구자들이 활용할 수 있는 방대한 자료를 제공하며, 특히 다양한 오믹스 데이터를 통합 분석하여 질병의 원인을 규명하고 맞춤형 치료 타겟을 발굴하는 데 큰 기여를 합니다.

반응형
반응형

NGS 데이터 분석에서는 데이터의 신뢰성과 정확도를 평가하는 것이 매우 중요하다. 그중에서도 PHRED 품질 점수(Phred Quality Score)는 각 염기 서열의 신뢰도를 수치화하여 제공하며, 고품질 데이터 확보와 데이터 해석의 신뢰성을 높이는 데 큰 역할을 한다. 이번 글에서는 PHRED 품질 점수가 무엇인지, 왜 중요한지, 그리고 파이썬 코드로 FASTQ 데이터의 품질 점수를 확인하는 방법까지 설명하겠다.


PHRED Quality Score란?

PHRED 품질 점수는 NGS(Next-Generation Sequencing) 데이터를 처리할 때 각 염기 서열의 정확도를 나타내는 지표이다. 이 점수는 각 염기의 검출 오류 확률을 수치화하여 표현하며, 데이터의 신뢰도를 높이기 위해 중요한 역할을 한다. PHRED 품질 점수는 다음과 같은 수식으로 계산된다:

  • Q: 품질 점수
  • P: 염기가 잘못 검출될 확률

즉, Q 값이 높을수록 염기 검출의 정확도가 높고, 오류 확률이 낮다는 것을 의미한다. 예를 들어, Q20은 오류 확률이 1%, Q30은 0.1% 오류 확률을 나타낸다. 이는 데이터의 신뢰도를 높이기 위한 지표로써, 연구의 정확도를 높이는 데 매우 중요한 역할을 한다.

왜 PHRED 품질 점수를 확인해야 하는가?

  1. 데이터의 신뢰성 확보: 품질 점수는 각 염기가 얼마나 정확하게 검출되었는지를 나타내므로, 분석에 앞서 데이터의 신뢰성을 평가할 수 있다.
  2. 비용과 시간의 효율성: 잘못된 염기 데이터로 분석을 진행하면 불필요한 비용과 시간을 낭비하게 되며, 결과의 정확도도 떨어질 수 있다.
  3. 변이 검출의 정확성: 암 연구나 유전자 변이 분석에서는 미스매치가 변이인지 기술적 오류인지를 구분하는 것이 중요하다. 품질 점수가 낮은 위치에서 발생한 미스매치는 오류일 가능성이 높아, 이를 걸러내는 데 품질 점수가 필요하다.

PHRED 품질 점수의 아스키코드화 이유와 해석 방법

FASTQ 파일에서는 각 염기의 품질 점수가 아스키(ASCII) 코드 문자로 저장된다. 이는 파일의 저장 공간을 줄이고 데이터 처리를 간편하게 하기 위해서이다. FASTQ 파일의 데이터는 보통 수백만 개의 염기로 구성되기 때문에, 각 염기의 품질 점수를 숫자로 직접 기록하면 파일 크기가 지나치게 커지게 된다. ASCII 문자를 활용하면 숫자 대신 문자로 품질 점수를 기록하여 데이터 압축 효과를 높일 수 있다.

  1. 품질 점수와 아스키 문자 관계: 각 문자는 고유의 아스키 코드 값을 가지며, 품질 점수와 대응된다. 일반적으로 33을 더하거나(Sanger 포맷), 64를 더한 값으로 변환된 문자가 기록된다.
    • 예를 들어, 품질 점수가 30일 때 Sanger 포맷에서는 ASCII !부터 시작하여 30 + 33 = 63, 즉 문자 ?로 저장된다.
  2. 해석 방법: 품질 점수를 얻기 위해 각 문자의 아스키 값에서 33(Sanger 포맷)이나 64(Illumina 1.3+ 포맷)을 빼면 실제 품질 점수를 확인할 수 있다.

ASCII 테이블

예시 코드를 통해 FASTQ 파일에서 품질 점수를 추출하고 해석하는 방법을 살펴보겠다.


파이썬 코드로 FASTQ 데이터의 품질 점수 분석하기

FASTQ 파일의 품질 점수를 파싱하여 평균, 중위값, 상위 25%, 하위 25%를 계산하는 파이썬 코드를 작성해 보겠다. 이 코드에서는 Bio.SeqIO 모듈을 사용하여 FASTQ 파일을 읽고, 각 염기의 품질 점수를 추출하여 계산한다.

from Bio import SeqIO
import numpy as np

# FASTQ 파일 경로 설정
fastq_file = "your_fastq_file.fastq"

# 품질 점수를 저장할 리스트 생성
quality_scores = []

# FASTQ 파일 읽기 및 품질 점수 추출
for record in SeqIO.parse(fastq_file, "fastq"):
    quality_scores.extend(record.letter_annotations["phred_quality"])

# 품질 점수의 평균, 중위값, 상위 25%, 하위 25% 계산
mean_quality = np.mean(quality_scores)
median_quality = np.median(quality_scores)
upper_25th = np.percentile(quality_scores, 75)
lower_25th = np.percentile(quality_scores, 25)

# 결과 출력
print(f"품질 점수 평균: {mean_quality:.2f}")
print(f"품질 점수 중위값: {median_quality:.2f}")
print(f"상위 25% 품질 점수: {upper_25th:.2f}")
print(f"하위 25% 품질 점수: {lower_25th:.2f}")

이 코드에서는 품질 점수를 저장할 리스트를 생성한 뒤 FASTQ 파일을 읽어 각 염기의 품질 점수를 추출하고, numpy 모듈을 사용하여 평균, 중위값, 상위 25%, 하위 25%를 계산한다. 이와 같이 품질 점수의 통계치를 통해 데이터의 신뢰성을 평가할 수 있다.

반응형
반응형

파이프라인 관리의 중요성과 Argo Workflows

생명과학 및 데이터 분석 분야에서 데이터 처리 파이프라인의 효율적인 관리는 필수적입니다. 데이터의 수집, 전처리, 분석 및 시각화 단계에서 발생하는 복잡한 작업을 체계적으로 관리하기 위해서는 각 도구의 역할과 흐름을 명확히 정의할 수 있어야 합니다. 이를 가능하게 하는 도구 중 하나가 Argo Workflows입니다.

 

Argo Workflows는 Kubernetes 환경에서 실행되는 워크플로우 오케스트레이션 도구로, 여러 작업을 병렬로 실행하고, 작업 간의 의존성을 관리할 수 있습니다. 데이터의 흐름과 연산을 시각적으로 표현할 수 있는 DAG(Directed Acyclic Graph) 구조를 지원하여, 복잡한 파이프라인을 효율적으로 구축할 수 있는 장점을 제공합니다.

Argo Workflows의 특징과 다른 도구들과의 차이점

Argo Workflows는 다음과 같은 특징을 갖고 있으며, 다른 오케스트레이션 도구와의 차별점이 있습니다:

  • Kubernetes 네이티브: Argo는 Kubernetes와 완벽하게 통합되어 있어, 클라우드 네이티브 환경에서 효율적으로 작업을 관리할 수 있습니다. Kubernetes의 확장성과 자원 관리를 활용하여 대규모 작업을 처리할 수 있습니다.
  • 유연한 워크플로우 정의: DAG 형태로 작업 간의 의존성을 명확히 정의할 수 있어 복잡한 데이터 흐름을 쉽게 관리할 수 있습니다. 각 작업을 컨테이너로 실행하므로 환경 간의 충돌을 방지할 수 있습니다.
  • 병렬 처리: Argo는 여러 작업을 동시에 실행할 수 있어 전체 파이프라인의 성능을 최적화할 수 있습니다. 이는 대규모 데이터 분석 시 특히 유용합니다.
  • 리소스 관리: Argo는 Kubernetes의 리소스 관리 기능을 활용하여, 각 작업에 필요한 CPU, 메모리 등의 자원을 효율적으로 할당할 수 있습니다.

Argo Workflows는 NextflowSnakemake와 같은 다른 오케스트레이션 도구와 비교할 때, Kubernetes 환경과의 통합에 중점을 두고 있습니다. Nextflow와 Snakemake는 데이터 과학 및 생명과학 작업에 최적화된 특화된 도구입니다:

  • Nextflow: 파일 기반의 데이터 흐름과 파라미터화를 중시하며, 다양한 실행 환경(로컬, 클라우드, HPC)에서 유연하게 사용할 수 있습니다. 데이터의 흐름을 관리하는 데 강점을 가지고 있습니다.
  • Snakemake: Python 기반으로 강력한 표현력을 가지며, 간단한 규칙 기반의 작업 정의로 사용이 용이합니다. 특히 생명과학 분야에서 널리 사용되며, 데이터의 의존성을 쉽게 설정할 수 있습니다.

전체 파이프라인의 버전 관리 및 주의 사항

각 도구를 별도의 Docker 이미지로 구성하는 방식은 파이프라인 관리의 유연성과 확장성을 높이는 데 도움이 됩니다. 이때, 전체 파이프라인의 버전 관리를 원활히 하려면 다음과 같은 방법들을 고려해야 합니다:

  1. 이미지 태깅: 각 Docker 이미지를 버전 번호나 커밋 해시로 태그하여, 특정 버전을 쉽게 참조할 수 있도록 합니다. 예를 들어, my-tool:v1.0.0, my-tool:latest, my-tool:commit_hash와 같은 방식으로 태그를 붙입니다.
  2. 버전 매니페스트 파일: 전체 파이프라인의 각 도구 버전을 명시한 매니페스트 파일(예: versions.yaml)을 작성하여 의존성을 관리합니다. 이 파일에서 각 도구의 이미지 태그와 해당 버전 정보를 관리하여, 버전 업그레이드 시 전체 파이프라인의 의존성을 쉽게 관리할 수 있습니다.
  3. CI/CD 통합: CI/CD 도구(예: GitHub Actions, Jenkins)를 사용하여 각 도구의 변경사항이 있을 때 자동으로 Docker 이미지를 빌드하고 태그를 지정합니다. 이 과정에서 전체 파이프라인의 버전 정보를 업데이트할 수 있습니다.
  4. 의존성 관리: 상위 레벨의 파이프라인 정의 파일을 통해 각 도구의 버전과 설정을 명확히 관리합니다. 이를 통해 각 도구가 올바르게 작동하도록 보장할 수 있습니다.
  5. 테스트 및 검증: 새로운 버전의 도구가 추가되거나 업데이트될 때, 기존 파이프라인에 대한 테스트를 수행하여 호환성 문제를 사전에 식별합니다. CI/CD 파이프라인에서 자동화된 테스트를 통해 이러한 검증을 수행할 수 있습니다.
  6. 변경 로그 및 문서화: 각 도구의 변경 사항을 문서화하여, 어떤 버전에서 어떤 기능이 추가되거나 변경되었는지를 명확히 기록합니다. 이를 통해 전체 파이프라인의 버전 이력을 쉽게 파악할 수 있습니다.

결론

효과적인 파이프라인 관리는 데이터 분석과 처리의 효율성을 크게 향상시킵니다. Argo Workflows와 같은 강력한 오케스트레이션 도구를 활용하여, 복잡한 데이터 흐름을 체계적으로 관리하고, 각 도구의 버전과 의존성을 효과적으로 관리할 수 있습니다. 이러한 점을 고려하여 파이프라인을 설계하면, 데이터 분석의 품질과 성능을 더욱 높일 수 있을 것입니다.

반응형
반응형

여기서는 LIMS(Laboratory Information Management System, 실험실 정보 관리 시스템)의 이상적인 사용 방법과 실무자로서 경험했던 LIMS 구축에 필요한 기능들에 대해 논의해보겠습니다.

LIMS란 무엇인가?

LIMS는 Laboratory Information Management System의 약자로, 연구소나 실험실에서 생성되는 데이터를 관리하고 추적하는 소프트웨어 시스템입니다. LIMS는 샘플의 수집, 처리, 저장, 분석, 보고서 작성 및 데이터 관리와 같은 실험실의 다양한 작업을 자동화하고 효율적으로 관리하는 데 사용됩니다. 이를 통해 실험실의 운영 효율성을 높이고, 데이터의 정확성 및 추적성을 보장하며, 규제 준수를 지원하는 데 중요한 역할을 합니다.

LIMS의 주요 기능

  1. 샘플 관리: 샘플의 수집, 레이블링, 저장 위치 추적 및 관리를 자동화합니다.
  2. 데이터 관리: 실험 데이터의 수집, 저장, 분석 및 보고서 생성을 지원합니다.
  3. 품질 관리: 실험 절차와 결과의 품질 보증 및 규정 준수를 관리합니다.
  4. 재고 관리: 시약, 소모품 및 기타 실험실 자원의 재고를 효율적으로 관리합니다.
  5. 프로세스 자동화: 실험실 워크플로우와 프로세스를 자동화하여 업무 효율성을 높입니다.
  6. 컴플라이언스 관리: 규제 요구 사항 및 표준 준수를 관리하여 법적 문제를 방지합니다.

LIMS vs. Excel: 왜 LIMS를 선택해야 할까?

많은 실험실, 특히 소규모 연구실에서는 여전히 엑셀을 사용하여 데이터를 정리하고 관리합니다. 엑셀은 비교적 저렴하고 사용하기 쉬운 도구이기 때문에 널리 사용되고 있지만, 데이터 관리 측면에서는 여러 가지 제한과 단점을 가지고 있습니다.

엑셀의 단점

  • 데이터 제한: 엑셀은 워크시트의 행과 열 수가 제한되어 있어 대량의 데이터를 처리하는 데 한계가 있습니다.
    • 최대 행 수: 1,048,576
    • 최대 열 수: 16,384
  • 데이터 무결성 문제: 엑셀은 자유롭게 편집할 수 있어 데이터가 손상되거나 무결성이 훼손될 위험이 있습니다.
  • 파일 손상 위험: 엑셀 파일은 저장 및 관리가 제대로 되지 않을 경우 쉽게 손상될 수 있습니다.

이러한 문제들은 LIMS를 도입할 경우 해결할 수 있습니다. LIMS는 대량의 데이터를 효율적으로 처리하고, 데이터의 무결성을 유지하며, 손상 없이 안전하게 데이터를 관리할 수 있는 시스템입니다.

LIMS의 3가지 단계적 용도

LIMS를 활용하면 실험실 데이터 관리의 효율성을 극대화할 수 있습니다. 필자가 생각하는 LIMS의 3가지 단계적 용도는 다음과 같습니다:

  1. 데이터의 수집 및 저장
  2. 데이터의 처리 및 관리
  3. 수집된 데이터의 2차적 분석

이러한 용도는 정보 관리 시스템이라는 이름에 걸맞게 데이터 엔지니어가 주로 관련된 업무를 포함합니다. (UI/UX 구성은 별도로 고려하지 않았지만, LIMS의 기본 기능은 정보 관리에 중점을 둡니다.)

1. 데이터의 수집 및 저장

LIMS의 첫 번째 단계는 데이터의 수집 및 저장입니다. 실험실 장비에서 데이터를 직접 수집하는 것이 중요합니다. 일부 장비에서는 자체 소프트웨어가 아니면 해석할 수 없는 바이너리 파일을 제공하지만, 데이터의 무결성을 유지하기 위해 최대한 원본 파일을 수집하는 것이 중요합니다.

전자 연구 노트에서 블록체인 기술이 도입되어 작성 시점에서 데이터가 변경되지 않았다는 것을 인증하는 것처럼, LIMS에서도 장비에서 직접 수집된 원본 데이터임을 보증하기 위해 블록체인 기술을 도입할 수 있습니다. 이는 데이터의 무결성과 신뢰성을 보장하고, 실험 데이터의 신뢰도를 높이는 데 유용할 것입니다.

2. 데이터의 처리 및 관리

두 번째 단계는 데이터의 처리 및 관리입니다. 데이터가 잘 수집되었다면, 이제 데이터베이스의 장점을 활용하여 데이터를 관리할 차례입니다.

  • 수집된 데이터는 임의로 조작할 수 없도록 데이터 접근 권한을 설정하고 변경 기록을 관리하여 무결성을 보장합니다.
  • 권한이 있는 사람은 누구나 쉽게 접근하여 데이터를 확인할 수 있습니다.
  • 예를 들어, NGS(Next-Generation Sequencing) 시퀀싱이 끝난 후 수집된 bcl 파일은 자동 분석 파이프라인을 실행하도록 설정할 수 있으며, 원본 데이터에서 분석 데이터로의 전환이 자연스럽게 이루어집니다.

이를 통해 기존 수기 방법의 휴먼 에러를 줄이고, 많은 시간이 소요되는 불편함을 해결할 수 있습니다.

3. 데이터의 2차적 분석

세 번째 단계는 수집된 데이터의 2차적 분석입니다. 데이터를 수집하고 정리한 후에는 분석을 통해 의미 있는 정보를 도출할 수 있습니다.

예를 들어, MLflow와 같은 프로그램은 머신 러닝 실험에서 데이터가 수집되고 이를 차트로 시각화하여 분석에 활용할 수 있도록 돕습니다. 데이터가 잘 수집되어 있다면, 이를 차트로 표현하고 다양한 분석을 수행하는 것은 상대적으로 쉬운 작업이 됩니다. LIMS는 이러한 분석 작업을 지원하여 실험실의 생산성을 크게 향상시킬 수 있습니다.

MLflow 화면

 

그러나 단순히 차트를 그리는 것이 2차적 분석의 전부는 아닙니다. 다양한 통계 기법이나 이상 감지와 같은 딥러닝 기법을 적용하여 데이터의 품질을 관리할 수 있습니다. 예를 들어, 실험 조건의 차이를 입력하면 어떤 요인이 실험 결과에 영향을 주는지 파악할 수 있습니다. 이러한 분석은 실험 데이터의 신뢰성을 높이고, 연구 결과의 정확성을 강화하는 데 매우 유용합니다.

현재 SnowflakeDatabricks와 같은 데이터 저장 및 관리 소프트웨어는 이미 이러한 고급 기능을 지원하고 있습니다. LIMS도 이러한 기능을 실험실 용도에 맞게 확장하는 것이 앞으로 나아가야 할 방향이라고 생각합니다. 이를 통해 LIMS는 단순한 데이터 관리 도구를 넘어, 연구와 개발의 중요한 파트너가 될 수 있을 것입니다.

 

결론

LIMS는 실험실 데이터 관리의 핵심적인 도구로, 엑셀에 비해 훨씬 더 효율적이고 안전한 데이터 관리 방법을 제공합니다. 데이터의 수집, 처리, 관리, 그리고 분석까지의 모든 과정을 자동화하고 체계적으로 관리할 수 있는 LIMS를 도입하면, 실험실의 운영 효율성을 크게 향상시킬 수 있습니다. LIMS의 도입을 고려하고 있다면, 위에서 언급한 단계적 접근 방식을 참고하여 필요한 기능을 구축해 나가면 좋을 것입니다. 

 

 

반응형

'bioinformatics' 카테고리의 다른 글

NGS 데이터 분석에서 PHRED Quality Score 이해하기  (0) 2024.10.27
Argo workflow를 사용한 파이프라인 관리  (0) 2024.09.22
NIPT 분석  (0) 2021.06.01
gnomAD  (0) 2020.06.25
Phred quality score  (0) 2020.03.11
반응형

Noninvasive prenatal testing (NIPT)는 태아의 유전적 이상을 찾아내는 방법 중 하나로 임부의 피에 떠다니는 cell free DNA(cfDNA)를 검사한다. 침습적 방법의 경우 주사를 직접 태반에 찔러 넣는 방식으로 낮은 확률의 사산이 생길 수 있는것에 비해 안정적이지만 검사의 정확도가 상대적으로 낮은 단점이 있다.

 

cfDNA는 약 200bp의 길이로 일반적으로는 세포가 죽을 때 생기는 부산물이며 혈류를 따라 이동한다. 임신 중에는 태반 세포의 일부도 cfDNA가 되는데 태반의 DNA는 태아의 DNA와 일치하기 때문에 이 DNA를 NGS 방식으로 시퀀싱 하여 태아의 DNA를 분석할 수 있다. 

 

NIPT는 주로 aneuploidy 같은 염색체 이상 질환에 대해 검사한다. 특히나 주로 보는 것은 trisomy 21(다운 증후군), trisomy 18, trisomy 13 그리고 X, Y 염색체의 수 이상 등이 있다.

염색체 특정 영역의 deletion 또는 duplication도 확인 하기도 한다.

 

엄마의 피에서 태아의 DNA가 차지하는 비율을 "fetal fraction" 이라고 부른다. 10주 이상일 때 보통 4퍼센트 이상이며 만약 이보다 낮다면 검사의 정확도가 낮아져 위양성 결과가 나올 수 있다. 샘플링 에러, 엄마의 비만 또는 태아의 비정상적인 부분이 있다면 fetal fraction이 낮게 나올 수 있다.

 

염색체 이상을 찾아내는 방법은 태아와 엄마의 모든 cfDNA 조각의 개수를 세고 모든 염색체의 비율이 비슷하다면 염색체 이상이 있을 확률은 낮은 것으로 본다. 만약 특정 염색체의 조각이 많다면 trisomy를 의심해 볼 수 있다. NIPT는 정확도가 높지 않기 때문에 추가적인 검사로 양성 판단이 필요하다.

 

Reference -

https://medlineplus.gov/genetics/understanding/testing/nipt/

 

반응형

'bioinformatics' 카테고리의 다른 글

Argo workflow를 사용한 파이프라인 관리  (0) 2024.09.22
연구실 정보 관리 시스템 (LIMS)의 사용  (0) 2024.08.26
gnomAD  (0) 2020.06.25
Phred quality score  (0) 2020.03.11
Sequencing QC  (0) 2020.03.11
반응형

gnomAD란 gnome aggregation database의 줄임말로 전 세계의 다양한 large-scale exome과 genome sequencing 데이터를 모은 데이터 베이스이다.

https://gnomad.broadinstitute.org/

 

gnomAD

 

gnomad.broadinstitute.org

 

v2(GRCh37/hg19)와 v3(GRCh38)로 나누어져있으며 각각 독립적인 데이터이기때문에 Reference 버전에 따라 선택하면 된다. v2 기준으로 125,748개의 exome sequence와 15,708개의 whole-genome sequence를 가지고 있다.

데이터 다운로드는 아래 주소에서 할 수 있다.

 

https://gnomad.broadinstitute.org/downloads

 

gnomAD

 

gnomad.broadinstitute.org

 

주요 사용처는 variant calling에 사용되는데 예를 들어 GATK4 버전에서 somatic variant calling을 위해 Mutect2를 쓸 때 옵션으로 들어가는 정보가 gnomad이다. 

 

반응형

'bioinformatics' 카테고리의 다른 글

연구실 정보 관리 시스템 (LIMS)의 사용  (0) 2024.08.26
NIPT 분석  (0) 2021.06.01
Phred quality score  (0) 2020.03.11
Sequencing QC  (0) 2020.03.11
HLA genotyping  (0) 2020.02.21
반응형

Phred quality score란 NGS 시퀀싱으로 생성된 fastq파일에서 각각의 염기가 가지는 품질. 다른 의미로는 정확도를 나타는 지표이다. 

 

Human genome project에서 시작한 개념으로 염기는 기계로 읽을 때 필수적으로 에러가 생길 수 밖에 없는데 quality score는 에러를 확률적으로 표시해 준다. 이 정확도 Q는 아래의 공식을 가진다.

 

다시말해 A라고 읽혀진 어떠한 염기가 90%의 확률의 정확도를 가진다면 quality score는 10, 99%는 20을 가진다는 의미이다. 

 

염기가 확률을 가진다는 의미는 chemical signal을 digital 신호로 바꾸는 과정에서 오차가 생길 수 있기 때문이다. cluster 단위에서는 A가 붉은색 G가 노란색인데 cluster의 색이 아주 약간의 노란색이 섞인 붉은색이 관찰된다면 이를 100% A라고 할 수 없기 때문이다.

 

이 숫자는 두 자리 수 인데 염기는 한 자리이니 맞지 않는다. 그래서 숫자를 ASCII 코드로 변환하여 표시한다. 

 

ASCII code 테이블에서 Dec(10진수)로 표시된 숫자가 실제 quality score에 해당한다. 단 fastq파일 형식이 phred +33 또는 +64일텐데 이 수치만큼 더해주어야한다. phred+33일때 quality score가 20이라면 53에 해당하는 '5' 라는 형식이다.

 

최근 생산되는 데이터는 대부분 +33이지만 보다 확실하게 구분하고 싶다면 직접 fastq파일의 qulity score를 살펴보면 된다. 이론적으로 +64라면 '@' 가 0이기때문에 이 이하의 문자는 가질 수가 없다. 있다면 +33 인것이다.

 

출처 -

https://en.wikipedia.org/wiki/Phred_quality_score

 

Phred quality score - Wikipedia

Phred quality scores shown on a DNA sequence trace A Phred quality score is a measure of the quality of the identification of the nucleobases generated by automated DNA sequencing.[1][2] It was originally developed for Phred base calling to help in the aut

en.wikipedia.org

 

반응형

'bioinformatics' 카테고리의 다른 글

NIPT 분석  (0) 2021.06.01
gnomAD  (0) 2020.06.25
Sequencing QC  (0) 2020.03.11
HLA genotyping  (0) 2020.02.21
SnpEff 빌드하기  (0) 2019.09.30
반응형

WGS, RNA-seq, sRNA-seq 등 시퀀싱 테크닉에따라 그리고 샘플의 종(species)에 따라 QC기준은 달라질 수 밖에 없지만 사람을 기준으로 대표적인 QC기준을 설명하고자 한다.

 

크게 실험단계에서의 라이브러리 제작이 잘 되는지 QC가 있고 시퀀싱이 진행된 후에 BI 기준의 QC가 있다.

 

실험 QC는 잘 모르니 생략하고 BI기준의 시퀀싱 이후 단계만 요약하고자 한다.

 

가장 첫 번째 단계는 Illumina 시퀀서 기준으로 PF(passing filter)가 있다.

 

passing filter란 시퀀싱 단계에서 일어나는 cluster가 얼마나 잘 구성되었는지 여부를 의미한다. cluster들끼리 오버랩되면 에러가 생길 가능성이 커져 오버랩이 일어난 cluster는 모두 제거하는데 이 비율이 얼마나 되는지 수치가 PF값이다.

 

https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/hiseq-x-percent-pf-technical-note-770-2014-043.pdf

불러오는 중입니다...

PF값은 참고용으로만 사용할 뿐 실제 분석에서는 대부분 raw file인 fastq 파일부터 시작하기 때문에 QC는 아래 값들을 주로 사용한다.

 

fastq파일의 Number of reads, GCratio, Q20, Q30, N(%), Duplication rate, Adapter sequence

BAM파일의 Mapping rate, House-keeping gene expression, Insert size distribution

 

각각의 수치를 구하는 방법은 여러 종류의 tool이 있으나 FastQC가 fastq 수준에서는 가장 많이 사용한다.

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

 

Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data

 

www.bioinformatics.babraham.ac.uk

BAM파일은 alignment tool에 따라서 수치를 제공하는 프로그램도 있고 samtools stats 명령어를 통해서도 확인 가능하다. 

반응형

'bioinformatics' 카테고리의 다른 글

gnomAD  (0) 2020.06.25
Phred quality score  (0) 2020.03.11
HLA genotyping  (0) 2020.02.21
SnpEff 빌드하기  (0) 2019.09.30
GC bias in the first few bases.  (0) 2019.07.04
반응형

HLA는 MHC의 한 부분이다. HLA는 세포 표면 단백질 항원으로 모든 유핵 세포 표면에 발현되어 있고 면역세포가 '정상적인 자가 세포'인지 아닌지 판단하는 지표로 사용한다.

 

염색체 6p21에 약 3Mbp 정도의 크기이며 polymorphic하다. 후술하겠지만 locus에 따라 수만 종류의 allele이 밝혀졌으며 여전히 밝혀지지 않은 allele들도 다수 존재하는 것으로 보인다.

 

HLA는 Class I(A, B, C), Class II(DP, DM, DO, DQ, DR) 그리고 Class III로 이루어져 있다.

 

Class I은 세포 내에서 외부로 펩타이드를 제시한다. 만약 세포가 바이러스 등 외부 요인에 의해 감염되었다면 그 조각을 세포막 외부에 제시하고 killer T-cell 등이 이를 인지하고 면역 체계를 발동시키도록 하는 역할이다. 

 

Class II는 세포 밖에서 항원을 제시하여 T-림프구가 이를 인지하도록 한다. T-림프구가 이를 인지하면 T-helper 세포를 자극시켜 이 항원에 대응하는 항체를 가지는 B세포의 합성을 유도한다. 

 

Class III는 complement system 또는 complement cascade라고하는 면역 체계를 활성화 시킨다.

 

 

HLA는 주로 장기 이식 거부 반응이나 자가면역 질환(1형 당뇨, 실리악 스프루 등)과 연관이 깊다.

 

HLA는 변이가 매우 잘 일어나기때문에 동일한 HLA allele을 가지는 사람이 있을 확률은 매우 낮다. 장기 기증을 신청하면 HLA genotype을 미리 조사했다가 같은 type의 수여자가 생겨나면 알려주는 식으로 진행되며 가족일 경우 확률이 높은 것은 당연하다. 

 

 

HLA nomenclature

 

HLA의 명명법은 위와 같다. Field 1은 2digit, Field 2는 4digit 등으로 말하기도 한다.

 

 

최신 업데이트의 HLA database는 IMGT-HLA database에서 얻을 수 있다.

https://www.ebi.ac.uk/ipd/imgt/hla/

 

IMGT/HLA < IPD < EMBL-EBI

Disclaimer Where discrepancies have arisen between reported sequences and those stored in the databases, the original authors have been contacted where possible, and necessary amendments to published sequences have been incorporated. Future sequencing may

www.ebi.ac.uk

 

 

 

출처 -

https://en.wikipedia.org/wiki/Human_leukocyte_antigen#Functions

 

Human leukocyte antigen - Wikipedia

HLA region of Chromosome 6 The human leukocyte antigen (HLA) system or complex is a gene complex encoding the major histocompatibility complex (MHC) proteins in humans. These cell-surface proteins are responsible for the regulation of the immune system in

en.wikipedia.org

http://hla.alleles.org/nomenclature/naming.html

 

HLA Nomenclature @ hla.alleles.org

Nomenclature for Factors of the HLA System Nomenclature of HLA Alleles Each HLA allele name has a unique number corresponding to up to four sets of digits separated by colons. The length of the allele designation is dependent on the sequence of the allele

hla.alleles.org

반응형

'bioinformatics' 카테고리의 다른 글

Phred quality score  (0) 2020.03.11
Sequencing QC  (0) 2020.03.11
SnpEff 빌드하기  (0) 2019.09.30
GC bias in the first few bases.  (0) 2019.07.04
DNA methylation  (0) 2019.06.18

+ Recent posts