반응형
생존 분석(Survival Analysis)은 특정 사건(예: 사망, 질병 재발, 기계 고장 등)이 발생할 때까지의 시간을 분석하는 통계적 기법이다. 의료 및 바이오인포매틱스 분야에서는 환자의 생존 기간을 예측하거나 치료 효과를 비교하는 데 널리 사용된다.
1. Kaplan-Meier 생존 곡선(Kaplan-Meier Survival Curve)
Kaplan-Meier(KM) 생존 곡선은 개별 시간 지점에서의 생존 확률을 추정하는 방법이다. 사건(예: 사망)이 발생할 때마다 생존 확률을 갱신하며, 검열된 데이터(censored data)도 고려할 수 있다.
Kaplan-Meier 생존 확률 계산
생존 확률 S(t)S(t) 는 다음과 같이 계산된다:
여기서,
- ti : 사건(사망)이 발생한 시간
- di : 해당 시간에서 사건이 발생한 개체 수
- ni : 해당 시간 직전까지 생존한 개체 수
Kaplan-Meier 곡선 해석
- 곡선이 급격히 떨어지는 구간은 특정 시간대에 사건 발생률이 높음을 의미한다.
- 생존 곡선이 평탄한 부분은 해당 시간 동안 사건 발생이 적음을 의미한다.
- 두 개 이상의 곡선을 비교하면, 치료 그룹 간의 생존 차이를 시각적으로 확인할 수 있다.
2. Log-rank Test: 생존 곡선 비교
두 개 이상의 생존 곡선을 비교할 때 Log-rank test를 사용한다. 이는 두 그룹 간의 전체 생존 분포가 통계적으로 유의미한 차이를 보이는지를 평가하는 검정 방법이다.
Log-rank Test 계산 방법
Log-rank test는 시간별로 기대 사건 수(EiE_i)와 실제 사건 수(OiO_i)를 비교하여 카이제곱(χ2\chi^2) 통계를 계산한다.
- 각 시간점에서 기대 사건 수(Expected Events, Ei) 를 계산한다
여기서,- ni,1,ni,2 : 해당 시점에서 각각의 그룹에서 살아있는 개체 수
- di,1,di,2 : 해당 시점에서 발생한 사건 수
- 카이제곱 통계량(χ2)을 계산한다.
여기서 Oi는 실제 사건 발생 수, Ei는 기대 사건 수이다. - p-value를 확인하여 두 그룹 간의 생존 차이가 유의미한지 평가한다.
- p < 0.05: 두 그룹 간 생존 차이가 통계적으로 유의미함.
- p ≥ 0.05: 두 그룹 간 생존 차이가 유의하지 않음.
3. 생존 모델과 기대 생존 확률(Expected Survival Probability)
생존 분석에서는 관측된 생존 데이터(Observed)와 기대 생존 데이터(Expected)를 비교하는 경우가 많다.
모델 기반 생존 예측
딥러닝 모델(예: Cox Proportional Hazards Model, DeepSurv, Survival CNN)이 생존 확률을 예측하는 경우:
- 모델은 환자의 특징(임상 데이터, 영상 데이터 등)을 입력으로 받아 생존 확률을 추정한다.
- 모델이 예측한 생존 확률(Spred(t)S_{pred}(t))을 이용해 Kaplan-Meier 곡선과 비교할 수 있다.
- 모델이 그룹을 분류한 경우, 해당 그룹의 Kaplan-Meier 곡선을 다시 계산하여 Log-rank test를 수행할 수 있다.
- Kaplan-Meier 곡선에서는 관측된 데이터에서 직접 생존 확률을 계산하여 Expected = Observed이다.
- 모델을 이용한 예측에서는 모델이 예측한 생존 확률을 Expected로 사용하고, 실제 환자의 생존 데이터와 비교한다.
- Log-rank test에서 모델이 분류한 그룹의 생존 곡선을 다시 생성하고, 실제 데이터와의 차이를 검정한다.
4. 실전 예제: Kaplan-Meier 곡선 해석 및 비교
예제 데이터
시간 (개월) | 사건 발생 수 | 생존 환자 수 | 생존 확률(S(t)) |
0 | 0 | 100 | 1.00 |
5 | 4 | 96 | 0.96 |
10 | 6 | 90 | 0.90 |
15 | 8 | 82 | 0.82 |
20 | 10 | 72 | 0.72 |
이 데이터를 사용하면 Kaplan-Meier 곡선을 생성할 수 있으며, 특정 치료 그룹 간의 생존 곡선을 비교할 수도 있다.
5. 결론
- Kaplan-Meier 생존 곡선은 사건 발생률을 시간에 따라 시각화하는 강력한 도구이다.
- Log-rank test를 사용하면 두 그룹 간의 생존 차이가 유의미한지 평가할 수 있다.
- 딥러닝 모델을 사용한 생존 예측에서는 모델이 예측한 그룹별 생존 확률을 Kaplan-Meier 곡선과 비교하여 평가할 수 있다.
- 실제 생존 데이터와 모델 예측을 비교할 때는 관측된 값(Observed)과 기대값(Expected)을 구분하여 해석해야 한다.
이러한 방법을 통해 생존 분석을 효과적으로 수행하고, 모델이 제공하는 생물학적 의미를 평가할 수 있다.
반응형
'bioinformatics' 카테고리의 다른 글
Ubuntu 20.04에서 최신 버전 Slurm 수동 설치 방법 (0) | 2025.02.11 |
---|---|
한국에서의 DTC 유전자검사: 검사 항목, 방법, 규제 및 글로벌 차이점 (1) | 2024.11.02 |
멀티오믹스 분석 주제와 활용할 수 있는 공공 데이터베이스 (3) | 2024.10.29 |
NGS 데이터 분석에서 PHRED Quality Score 이해하기 (0) | 2024.10.27 |
Argo workflow를 사용한 파이프라인 관리 (0) | 2024.09.22 |