생존 분석(Survival Analysis) 개요

바닐라스카이 2025. 2. 4. 10:41

2025. 2. 4. 10:41

생존 분석(Survival Analysis)은 특정 사건(예: 사망, 질병 재발, 기계 고장 등)이 발생할 때까지의 시간을 분석하는 통계적 기법이다. 의료 및 바이오인포매틱스 분야에서는 환자의 생존 기간을 예측하거나 치료 효과를 비교하는 데 널리 사용된다.

1. Kaplan-Meier 생존 곡선(Kaplan-Meier Survival Curve)

Kaplan-Meier(KM) 생존 곡선은 개별 시간 지점에서의 생존 확률을 추정하는 방법이다. 사건(예: 사망)이 발생할 때마다 생존 확률을 갱신하며, 검열된 데이터(censored data)도 고려할 수 있다.

생존 확률 S(t)S(t) 는 다음과 같이 계산된다:

여기서,

두 개 이상의 생존 곡선을 비교할 때 Log-rank test를 사용한다. 이는 두 그룹 간의 전체 생존 분포가 통계적으로 유의미한 차이를 보이는지를 평가하는 검정 방법이다.

Log-rank test는 시간별로 기대 사건 수(EiE_i)와 실제 사건 수(OiO_i)를 비교하여 카이제곱(χ2\chi^2) 통계를 계산한다.

각 시간점에서 기대 사건 수(Expected Events, Ei) 를 계산한다

여기서,
- ni,1,ni,2 : 해당 시점에서 각각의 그룹에서 살아있는 개체 수
- di,1,di,2 : 해당 시점에서 발생한 사건 수
카이제곱 통계량(χ2)을 계산한다.

여기서 Oi는 실제 사건 발생 수, Ei는 기대 사건 수이다.
p-value를 확인하여 두 그룹 간의 생존 차이가 유의미한지 평가한다.
- p < 0.05: 두 그룹 간 생존 차이가 통계적으로 유의미함.
- p ≥ 0.05: 두 그룹 간 생존 차이가 유의하지 않음.

생존 분석에서는 관측된 생존 데이터(Observed)와 기대 생존 데이터(Expected)를 비교하는 경우가 많다.

딥러닝 모델(예: Cox Proportional Hazards Model, DeepSurv, Survival CNN)이 생존 확률을 예측하는 경우:

이 데이터를 사용하면 Kaplan-Meier 곡선을 생성할 수 있으며, 특정 치료 그룹 간의 생존 곡선을 비교할 수도 있다.

이러한 방법을 통해 생존 분석을 효과적으로 수행하고, 모델이 제공하는 생물학적 의미를 평가할 수 있다.

Ubuntu 20.04에서 최신 버전 Slurm 수동 설치 방법 (0)	2025.02.11
한국에서의 DTC 유전자검사: 검사 항목, 방법, 규제 및 글로벌 차이점 (1)	2024.11.02
멀티오믹스 분석 주제와 활용할 수 있는 공공 데이터베이스 (3)	2024.10.29
NGS 데이터 분석에서 PHRED Quality Score 이해하기 (0)	2024.10.27
Argo workflow를 사용한 파이프라인 관리 (0)	2024.09.22