반응형

생존 분석(Survival Analysis)은 특정 사건(예: 사망, 질병 재발, 기계 고장 등)이 발생할 때까지의 시간을 분석하는 통계적 기법이다. 의료 및 바이오인포매틱스 분야에서는 환자의 생존 기간을 예측하거나 치료 효과를 비교하는 데 널리 사용된다.

1. Kaplan-Meier 생존 곡선(Kaplan-Meier Survival Curve)

Kaplan-Meier(KM) 생존 곡선은 개별 시간 지점에서의 생존 확률을 추정하는 방법이다. 사건(예: 사망)이 발생할 때마다 생존 확률을 갱신하며, 검열된 데이터(censored data)도 고려할 수 있다.

Kaplan-Meier 생존 확률 계산

생존 확률 S(t)S(t) 는 다음과 같이 계산된다:

여기서,

  • ti : 사건(사망)이 발생한 시간
  • di : 해당 시간에서 사건이 발생한 개체 수
  • ni : 해당 시간 직전까지 생존한 개체 수

Kaplan-Meier 곡선 해석

  • 곡선이 급격히 떨어지는 구간은 특정 시간대에 사건 발생률이 높음을 의미한다.
  • 생존 곡선이 평탄한 부분은 해당 시간 동안 사건 발생이 적음을 의미한다.
  • 두 개 이상의 곡선을 비교하면, 치료 그룹 간의 생존 차이를 시각적으로 확인할 수 있다.

2. Log-rank Test: 생존 곡선 비교

두 개 이상의 생존 곡선을 비교할 때 Log-rank test를 사용한다. 이는 두 그룹 간의 전체 생존 분포가 통계적으로 유의미한 차이를 보이는지를 평가하는 검정 방법이다.

Log-rank Test 계산 방법

Log-rank test는 시간별로 기대 사건 수(EiE_i)와 실제 사건 수(OiO_i)를 비교하여 카이제곱(χ2\chi^2) 통계를 계산한다.

  1. 각 시간점에서 기대 사건 수(Expected Events, Ei) 를 계산한다

     여기서,
    • ni,1,ni,2 : 해당 시점에서 각각의 그룹에서 살아있는 개체 수
    • di,1,di,2 : 해당 시점에서 발생한 사건 수
  2. 카이제곱 통계량(χ2)을 계산한다.

    여기서 Oi는 실제 사건 발생 수, Ei는 기대 사건 수이다.
  3. p-value를 확인하여 두 그룹 간의 생존 차이가 유의미한지 평가한다.
    • p < 0.05: 두 그룹 간 생존 차이가 통계적으로 유의미함.
    • p ≥ 0.05: 두 그룹 간 생존 차이가 유의하지 않음.

 

 

3. 생존 모델과 기대 생존 확률(Expected Survival Probability)

생존 분석에서는 관측된 생존 데이터(Observed)기대 생존 데이터(Expected)를 비교하는 경우가 많다.

모델 기반 생존 예측

딥러닝 모델(예: Cox Proportional Hazards Model, DeepSurv, Survival CNN)이 생존 확률을 예측하는 경우:

  • 모델은 환자의 특징(임상 데이터, 영상 데이터 등)을 입력으로 받아 생존 확률을 추정한다.
  • 모델이 예측한 생존 확률(Spred(t)S_{pred}(t))을 이용해 Kaplan-Meier 곡선과 비교할 수 있다.
  • 모델이 그룹을 분류한 경우, 해당 그룹의 Kaplan-Meier 곡선을 다시 계산하여 Log-rank test를 수행할 수 있다.
  1. Kaplan-Meier 곡선에서는 관측된 데이터에서 직접 생존 확률을 계산하여 Expected = Observed이다.
  2. 모델을 이용한 예측에서는 모델이 예측한 생존 확률을 Expected로 사용하고, 실제 환자의 생존 데이터와 비교한다.
  3. Log-rank test에서 모델이 분류한 그룹의 생존 곡선을 다시 생성하고, 실제 데이터와의 차이를 검정한다.

4. 실전 예제: Kaplan-Meier 곡선 해석 및 비교

예제 데이터

 

시간 (개월)  사건 발생 수  생존 환자 수  생존 확률(S(t))
0 0 100 1.00
5 4 96 0.96
10 6 90 0.90
15 8 82 0.82
20 10 72 0.72

이 데이터를 사용하면 Kaplan-Meier 곡선을 생성할 수 있으며, 특정 치료 그룹 간의 생존 곡선을 비교할 수도 있다.

5. 결론

  • Kaplan-Meier 생존 곡선은 사건 발생률을 시간에 따라 시각화하는 강력한 도구이다.
  • Log-rank test를 사용하면 두 그룹 간의 생존 차이가 유의미한지 평가할 수 있다.
  • 딥러닝 모델을 사용한 생존 예측에서는 모델이 예측한 그룹별 생존 확률을 Kaplan-Meier 곡선과 비교하여 평가할 수 있다.
  • 실제 생존 데이터와 모델 예측을 비교할 때는 관측된 값(Observed)과 기대값(Expected)을 구분하여 해석해야 한다.

이러한 방법을 통해 생존 분석을 효과적으로 수행하고, 모델이 제공하는 생물학적 의미를 평가할 수 있다.

반응형

+ Recent posts