Be great

전체 글

Docker 환경에서 Kafka 설정 및 Slack Webhook 연동하기 2025.02.25
Slurm에서 GPU Resource 관리: Shard 개념 2025.02.25
Slurm에서 Foreground 작업을 고려한 자원 예약 방법 2025.02.25
Ubuntu 20.04에서 최신 버전 Slurm 수동 설치 방법 2025.02.11
생존 분석(Survival Analysis) 개요 2025.02.04

Docker 환경에서 Kafka 설정 및 Slack Webhook 연동하기

바닐라스카이 2025. 2. 25. 09:59

2025. 2. 25. 09:59

Kafka란 무엇인가?

Apache Kafka는 대규모 데이터를 실시간으로 처리하기 위해 설계된 분산 스트리밍 플랫폼입니다. Kafka는 주로 데이터를 빠르게 전송하고, 저장하며, 실시간으로 처리하는 시스템에서 활용됩니다. Kafka는 Producer, Consumer, Broker, Topic, Partition 등의 개념을 기반으로 데이터를 송수신하고 관리합니다.

Kafka는 대규모 데이터 스트리밍, 이벤트 소싱, 실시간 로그 분석 등에서 강력한 성능을 보이며, 대규모 시스템에서 비동기 데이터 처리를 가능하게 만듭니다.

Docker 환경에서 Kafka 설정하기

Docker를 사용하면 Kafka와 관련된 여러 서비스를 쉽게 배포하고 관리할 수 있습니다. Kafka를 Docker 컨테이너에서 실행하고, Kafdrop을 통해 웹 UI로 모니터링하는 방법을 알아보겠습니다.

1. Docker Compose로 Kafka와 Zookeeper 설정

Kafka는 분산 시스템으로, Zookeeper와 함께 동작합니다. Zookeeper는 Kafka 클러스터의 메타데이터를 관리하는 역할을 합니다. Docker Compose를 사용하면 Kafka와 Zookeeper를 쉽게 설정할 수 있습니다.

docker-compose.yml 예시

version: '2'
services:
  zookeeper:
    image: wurstmeister/zookeeper:3.4.6
    ports:
      - "2181:2181"
    environment:
      ZOOKEEPER_SERVER_ID: 1
      ZOOKEEPER_SERVERS: "zookeeper:2181"

  kafka:
    image: wurstmeister/kafka:latest
    ports:
      - "9093:9093"
    environment:
      KAFKA_ADVERTISED_LISTENERS: INSIDE://kafka:9093
      KAFKA_LISTENER_SECURITY_PROTOCOL: PLAINTEXT
      KAFKA_LISTENER_PORT: 9093
      KAFKA_LISTENERS: INSIDE://0.0.0.0:9093
      KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181
      KAFKA_LISTENER_NAME_INSIDE_LISTENER: INSIDE
    depends_on:
      - zookeeper

  kafdrop:
    image: obsidiandynamics/kafdrop
    ports:
      - "9000:9000"
    environment:
      KAFKA_BROKERCONNECT: "kafka:9093"
      SERVER_SERVLET_CONTEXT_PATH: "/kafdrop"
    depends_on:
      - kafka

위의 docker-compose.yml 파일을 사용하여 Kafka와 Zookeeper, Kafdrop을 함께 실행할 수 있습니다. Kafka와 Zookeeper는 내부 통신을 위해 Docker 네트워크를 사용하며, Kafdrop은 Kafka 클러스터 상태를 모니터링하는 웹 UI를 제공합니다.

실행 방법:

위의 docker-compose.yml 파일을 프로젝트 디렉토리에 저장합니다.
Docker Compose를 통해 컨테이너를 실행합니다.
```
docker-compose up -d
```
Kafdrop의 웹 UI는 http://localhost:9000에서 확인할 수 있습니다.

2. Kafka Receiver 예시 스크립트 (Python)

Kafka에서 데이터를 수신하고, 그 데이터를 Slack Webhook을 통해 알림으로 전송하는 예시를 보겠습니다.

kafka_receiver.py

from kafka import KafkaConsumer
import requests
import json

# Kafka Consumer 설정
consumer = KafkaConsumer(
    'test-topic',  # Kafka에서 구독할 토픽
    bootstrap_servers=['localhost:9093'],
    auto_offset_reset='earliest',
    group_id='my-consumer-group'
)

# Slack Webhook URL 설정
slack_webhook_url = 'https://hooks.slack.com/services/your/slack/webhook'

# Kafka 메시지 소비 및 Slack으로 전송
for message in consumer:
    print(f"Received message: {message.value.decode('utf-8')}")
    
    # Slack 메시지 형식
    slack_message = {
        'text': f"Received Kafka message: {message.value.decode('utf-8')}"
    }
    
    # Slack Webhook에 메시지 전송
    response = requests.post(slack_webhook_url, data=json.dumps(slack_message), headers={'Content-Type': 'application/json'})
    
    if response.status_code == 200:
        print("Message successfully sent to Slack.")
    else:
        print(f"Failed to send message to Slack. Status code: {response.status_code}")

설명:

KafkaConsumer를 사용하여 Kafka 토픽에서 메시지를 수신합니다.
수신된 메시지는 Slack Webhook URL을 통해 Slack 채널로 전송됩니다.
requests 라이브러리를 사용해 POST 요청을 보내며, Slack 메시지는 JSON 형식으로 전송됩니다.

실행 방법:

kafka-python 라이브러리를 설치합니다.
```
pip install kafka-python
```
kafka_receiver.py 스크립트를 실행합니다.
```
python kafka_receiver.py
```

Kafka 시스템이 주로 사용되는 상황

Kafka는 대규모 데이터 처리 및 실시간 스트리밍에 특화된 시스템으로, 다양한 상황에서 활용됩니다. 다음은 Kafka가 주로 사용되는 세 가지 예시입니다.

1. 실시간 로그 수집 및 분석

Kafka는 실시간 로그 수집에 매우 유용합니다. 대규모 웹 애플리케이션이나 서버에서 발생하는 로그를 Kafka 토픽에 실시간으로 전송하고, 이를 다양한 분석 시스템에서 소비할 수 있습니다. 예를 들어, 서버에서 발생하는 로그를 Kafka로 수집하고, 실시간으로 이상 징후를 분석하여 알림을 전송하는 시스템에 활용될 수 있습니다.

사용 예시:

웹 애플리케이션의 오류 로그 수집
실시간 사용자 행동 분석
서버 성능 모니터링 및 경고 시스템

2. 데이터 파이프라인 및 ETL

Kafka는 데이터 파이프라인을 구성하는 데 널리 사용됩니다. Kafka를 사용하면 여러 시스템 간의 데이터를 효율적으로 전송하고 처리할 수 있습니다. 예를 들어, 데이터베이스에서 실시간으로 데이터를 추출하여 Kafka 토픽에 발행하고, 다른 시스템에서 이를 소비하여 분석하거나 저장할 수 있습니다.

사용 예시:

실시간 데이터 ETL(Extract, Transform, Load)
데이터 웨어하우스와 데이터 lake 간의 데이터 동기화
금융 거래 데이터의 실시간 처리

3. 이벤트 기반 시스템

Kafka는 이벤트 기반 아키텍처에서 중요한 역할을 합니다. 이벤트가 발생할 때마다 Kafka에 메시지를 발행하고, 이를 여러 개의 소비자가 처리하는 형태로 설계할 수 있습니다. 예를 들어, 사용자 활동이나 시스템 이벤트를 Kafka에 전송하고, 이를 기반으로 다른 서비스들이 특정 작업을 수행하도록 할 수 있습니다.

사용 예시:

사용자 활동을 기반으로 맞춤형 알림 전송
결제 시스템에서 거래 발생 시 다른 시스템으로 알림 전송
IoT 기기에서 발생하는 이벤트 처리 및 모니터링

결론

Kafka는 대규모 데이터 처리와 실시간 스트리밍에 매우 강력한 도구입니다. Docker와 Kafdrop을 활용하면 Kafka의 설정과 모니터링을 간편하게 할 수 있으며, 다양한 시스템 간의 데이터 전송을 실시간으로 처리할 수 있습니다. Kafka와 Slack Webhook을 연동하여 실시간 알림 시스템을 구축하는 것도 손쉽게 구현할 수 있습니다.

Kafka의 활용 사례를 통해 실시간 데이터 처리 및 이벤트 기반 시스템의 중요성을 이해하고, 이를 다양한 산업에서 어떻게 적용할 수 있을지 고민해보시길 바랍니다.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

Slurm에서 GPU Resource 관리: Shard 개념 (0)	2025.02.25
Slurm에서 Foreground 작업을 고려한 자원 예약 방법 (0)	2025.02.25
작업량 기반 노드 배정과 다양한 스케러 도구 비교: 컨테이너와 HPC를 모두 아우르는 통합 관리 전략 (2)	2024.10.14
작업량 기반 노드 배정 설명: 공용 노드와 작업량에 기반한 개인 또는 프로젝트별 노드 배정 전략 (0)	2024.10.14
GNU Parallel: 정의, 사용법, 그리고 예시 (1)	2024.10.02

Slurm에서 GPU Resource 관리: Shard 개념

바닐라스카이 2025. 2. 25. 09:44

2025. 2. 25. 09:44

Slurm을 사용하여 클러스터에서 GPU 자원을 효율적으로 관리할 때, gres(Generic Resource) 기능을 활용하여 특정 GPU 자원을 예약하고 할당할 수 있습니다. 최근에는 GPU 자원을 세밀하게 분할하여 활용할 수 있도록 shard 개념이 도입되었습니다.

1. 왜 GPU를 Shard로 나누어야 하는가?

GPU는 일반적으로 하나의 작업이 독점하는 방식으로 사용되지만, 일부 작업은 전체 GPU 성능을 필요로 하지 않을 수도 있습니다. 예를 들어, 작은 배치 크기로 수행되는 머신러닝 작업이나 여러 개의 경량 프로세스를 병렬로 실행해야 하는 경우, 하나의 GPU를 여러 개의 shard로 나누어 자원을 효율적으로 분배할 수 있습니다.

Shard 사용의 장점

자원 낭비 최소화: 단일 작업이 전체 GPU를 점유하지 않고 필요한 만큼만 사용하도록 조정 가능
동시 작업 증가: 여러 개의 경량 프로세스를 병렬로 실행할 수 있어 클러스터 활용도가 향상됨
유연한 스케줄링: Slurm이 작업별 GPU shard 요구량을 고려하여 보다 세밀한 스케줄링 가능

2. Shard 설정 확인하기

클러스터의 GPU 관련 리소스를 확인하려면 다음 명령어를 사용할 수 있습니다:

scontrol show node

또는 특정 노드의 상세 리소스를 보려면:

scontrol show node nodename

출력 예시는 다음과 같습니다:

CfgTRES=cpu=112,mem=250G,billing=112,gres/gpu=2,gres/shard=80
AllocTRES=cpu=64,mem=10G,gres/gpu=1

여기서 gres/shard=80은 해당 노드가 총 80개의 GPU shard를 제공할 수 있음을 의미합니다.

3. Shard를 사용하기 위한 Slurm 설정

GPU shard를 활용하려면 Slurm 설정 파일(slurm.conf)에서 GRES 항목을 추가해야 합니다.

예제 설정:

GresTypes=gpu,shard
NodeName=gpu-node Gres=gpu:2,shard:80

이 설정을 적용한 후 Slurm을 재시작하면 GPU shard를 활용할 수 있습니다.

4. Shard를 활용한 작업 제출

특정 개수의 GPU shard를 사용하여 작업을 실행하려면 sbatch나 srun 명령어에서 gres 옵션을 사용하면 됩니다:

sbatch --gres=shard:10 my_script.sh

위 명령어는 10개의 GPU shard를 사용하도록 Slurm에 요청하는 것입니다.

또는 srun을 사용할 수도 있습니다:

srun --gres=shard:5 python train_model.py

이 명령어는 5개의 GPU shard를 할당하여 스크립트를 실행합니다.

5. Shard를 활용한 효율적인 GPU 관리

GPU shard를 활용하면 다음과 같은 이점이 있습니다:

하나의 GPU를 여러 개의 작은 shard 단위로 나누어 다중 사용자 환경에서 효율적으로 활용 가능
특정 작업에 필요한 만큼만 GPU 연산 자원을 할당하여 GPU 낭비 최소화
보다 유연한 스케줄링을 통해 클러스터 자원을 최적화

6. Shard 사용 시 고려할 점

클러스터 관리자가 GPU를 shard 단위로 나눌 수 있도록 Slurm 설정이 필요함
GPU 연산이 강하게 요구되는 작업의 경우 shard 사용이 적절하지 않을 수 있음 (예: 전체 GPU 메모리를 필요로 하는 작업)
GPU shard를 지원하는 소프트웨어 및 프레임워크 사용 여부 확인 필요

결론

Slurm의 shard 기능을 활용하면 GPU 자원을 보다 효율적으로 관리하고, 여러 사용자가 동시에 GPU를 사용할 수 있도록 조정할 수 있습니다. 특히 대규모 클러스터 환경에서 GPU 리소스를 최적화하는 데 중요한 역할을 할 수 있으므로, 필요에 따라 shard 개념을 적용해보는 것이 좋습니다.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

Docker 환경에서 Kafka 설정 및 Slack Webhook 연동하기 (0)	2025.02.25
Slurm에서 Foreground 작업을 고려한 자원 예약 방법 (0)	2025.02.25
작업량 기반 노드 배정과 다양한 스케러 도구 비교: 컨테이너와 HPC를 모두 아우르는 통합 관리 전략 (2)	2024.10.14
작업량 기반 노드 배정 설명: 공용 노드와 작업량에 기반한 개인 또는 프로젝트별 노드 배정 전략 (0)	2024.10.14
GNU Parallel: 정의, 사용법, 그리고 예시 (1)	2024.10.02

Slurm에서 Foreground 작업을 고려한 자원 예약 방법

바닐라스카이 2025. 2. 25. 09:34

2025. 2. 25. 09:34

Slurm을 사용하여 클러스터에서 작업을 스케줄링할 때, Slurm이 아닌 foreground에서 실행되는 작업이 있을 수 있습니다. 이럴 경우, Slurm이 해당 자원을 사용하지 않도록 강제로 예약하는 방법이 필요합니다. 이를 위해 Slurm의 예약용 더미 작업을 활용할 수 있습니다.

1. Slurm에서 특정 자원 예약하기

Foreground에서 실행되는 작업이 특정 CPU, 메모리, GPU 등의 자원을 사용하고 있다면, Slurm이 해당 자원을 스케줄링하지 못하도록 예약해야 합니다. 가장 간단한 방법은 Slurm의 sbatch --wrap 옵션을 이용하여 sleep 명령어로 더미 작업을 실행하는 것입니다.

sbatch --exclusive --cpus-per-task=16 --mem=32G --gres=gpu:1 --wrap="sleep 86400"

위 명령어는 다음과 같은 의미를 가집니다:

--exclusive : 해당 노드의 자원을 Slurm 내 다른 작업과 공유하지 않도록 지정
--cpus-per-task=16 : 16개의 CPU를 예약
--mem=32G : 32GB의 메모리를 예약
--gres=gpu:1 : 1개의 GPU를 예약
--wrap="sleep 86400" : 24시간(86400초) 동안 해당 자원을 점유하는 더미 작업 실행

2. 무기한으로 예약하는 방법

위 방법은 24시간 동안만 예약되므로, 더 긴 시간 동안 예약하려면 sleep 시간을 늘리거나 주기적으로 예약을 갱신하는 스크립트를 작성할 수 있습니다.

(1) 무기한 예약하는 방법 (sleep infinity 사용)

sleep infinity를 사용하면 Slurm 작업이 수동으로 종료될 때까지 계속 실행됩니다.

sbatch --exclusive --cpus-per-task=16 --mem=32G --gres=gpu:1 --wrap="sleep infinity"

이렇게 하면 Slurm 작업이 수동으로 취소되기 전까지 계속 자원을 점유하게 됩니다.

(2) Slurm 예약을 자동으로 갱신하는 스크립트

다음과 같은 스크립트를 작성하여 일정 시간마다 Slurm 예약을 갱신할 수 있습니다.

#!/bin/bash
while true; do
    sbatch --exclusive --cpus-per-task=16 --mem=32G --gres=gpu:1 --wrap="sleep 86400"
    sleep 86300  # 24시간마다 예약을 갱신
done

이 스크립트를 실행하면 Slurm이 24시간마다 새로운 예약을 자동으로 생성합니다.

(3) Crontab을 활용한 자동 예약

Crontab을 이용하여 23시간마다 예약을 갱신하는 방법도 있습니다.

crontab -e

그리고 다음 줄을 추가합니다.

0 */23 * * * sbatch --exclusive --cpus-per-task=16 --mem=32G --gres=gpu:1 --wrap="sleep 86400"

이렇게 하면 매 23시간마다 Slurm에 새로운 예약 작업이 제출됩니다.

3. 특정 노드에서만 예약하고 싶을 때

만약 특정 노드에서만 자원을 예약하고 싶다면 --nodelist 옵션을 추가하면 됩니다.

sbatch --exclusive --nodelist=node01 --cpus-per-task=16 --mem=32G --gres=gpu:1 --wrap="sleep 86400"

이 명령어는 node01에서만 자원을 예약합니다.

결론

Slurm을 사용하는 환경에서 foreground에서 실행되는 작업이 있을 경우, 위와 같은 방법으로 자원을 강제 예약할 수 있습니다. sbatch --wrap="sleep 86400" 방식은 간단하고 효과적인 방법이며, 무기한 예약이 필요하다면 sleep infinity를 활용할 수도 있습니다. 또한, cron 또는 스크립트를 이용하여 자동으로 갱신할 수도 있습니다. 이를 통해 Slurm이 불필요하게 자원을 점유하는 문제를 방지하고, 특정 작업을 안정적으로 실행할 수 있습니다.

저작자표시 비영리 변경금지 (새창열림)

'Computer Science > linux' 카테고리의 다른 글

Docker 환경에서 Kafka 설정 및 Slack Webhook 연동하기 (0)	2025.02.25
Slurm에서 GPU Resource 관리: Shard 개념 (0)	2025.02.25
작업량 기반 노드 배정과 다양한 스케러 도구 비교: 컨테이너와 HPC를 모두 아우르는 통합 관리 전략 (2)	2024.10.14
작업량 기반 노드 배정 설명: 공용 노드와 작업량에 기반한 개인 또는 프로젝트별 노드 배정 전략 (0)	2024.10.14
GNU Parallel: 정의, 사용법, 그리고 예시 (1)	2024.10.02

Ubuntu 20.04에서 최신 버전 Slurm 수동 설치 방법

바닐라스카이 2025. 2. 11. 09:21

2025. 2. 11. 09:21

1. 기존 Slurm 제거

Ubuntu 20.04의 기본 패키지 저장소에는 매우 구버전(예: Slurm 19.04)의 Slurm이 포함되어 있으므로, 최신 버전을 직접 설치해야 합니다. 먼저 기존 Slurm을 제거합니다.

sudo systemctl stop slurmctld slurmd
sudo apt-get remove --purge slurm-wlm

기존 설정 파일을 백업합니다.

sudo mv /etc/slurm-llnl /etc/slurm-llnl.bak

2. 의존성 패키지 설치

Slurm을 빌드하려면 여러 라이브러리가 필요하므로 이를 먼저 설치합니다.

sudo apt-get update
sudo apt-get install -y build-essential libssl-dev libmysqlclient-dev \
    libpam0g-dev libnuma-dev libhwloc-dev libreadline-dev \
    libncurses-dev libmunge-dev munge libmunge2 \
    libcurl4-openssl-dev libjson-c-dev man2html

3. Slurm 최신 버전 다운로드 및 빌드

최신 버전의 Slurm을 공식 웹사이트에서 다운로드하여 빌드합니다.

./configure --prefix=/usr/local/slurm
make -j$(nproc)
sudo make install

Prefix 설정 이유

기존 Slurm이 완전히 삭제되지 않았을 가능성이 있으므로, /usr/local/slurm 경로에 별도로 설치하여 충돌을 방지합니다. 또한, 향후 삭제 및 관리가 편리해집니다.

4. 설정 파일 복사 및 적용

Slurm이 실행될 때 필요한 설정 파일을 이동합니다.

sudo mkdir -p /usr/local/slurm/etc
sudo cp /etc/slurm-llnl.bak/* /usr/local/slurm/etc/

5. Slurm 데몬 실행 확인

설정이 올바른지 확인하기 위해 수동으로 실행해봅니다.

/usr/local/slurm/sbin/slurmd -D

별다른 오류 없이 실행되면, systemd 서비스를 수정하여 Slurm 데몬을 자동으로 실행하도록 설정합니다.

6. systemd 서비스 설정 수정

기존 Slurm 데몬 설정 파일을 수정하여 새로운 Slurm 실행 경로를 반영합니다.

sudo nano /lib/systemd/system/slurmd.service

ExecStart 항목을 아래와 같이 수정합니다.

ExecStart=/usr/local/slurm/sbin/slurmd

7. 환경 변수 설정

Slurm의 바이너리 및 라이브러리 경로를 모든 사용자에게 적용하기 위해 /etc/profile을 수정합니다.

echo 'export PATH=/usr/local/slurm/bin:$PATH' | sudo tee -a /etc/profile
echo 'export LD_LIBRARY_PATH=/usr/local/slurm/lib:$LD_LIBRARY_PATH' | sudo tee -a /etc/profile
source /etc/profile

8. Slurm 서비스 재시작 및 확인

설정을 적용하고 Slurm 데몬을 다시 시작합니다.

sudo systemctl daemon-reload
sudo systemctl restart slurmd
sudo systemctl restart slurmctld

이제 Slurm이 정상적으로 실행되는지 확인합니다.

sinfo
squeue

위 명령어에서 오류가 발생하지 않는다면, Slurm이 정상적으로 설치 및 동작하는 것입니다.

저작자표시 비영리 변경금지 (새창열림)

'bioinformatics' 카테고리의 다른 글

생존 분석(Survival Analysis) 개요 (0)	2025.02.04
한국에서의 DTC 유전자검사: 검사 항목, 방법, 규제 및 글로벌 차이점 (1)	2024.11.02
멀티오믹스 분석 주제와 활용할 수 있는 공공 데이터베이스 (3)	2024.10.29
NGS 데이터 분석에서 PHRED Quality Score 이해하기 (0)	2024.10.27
Argo workflow를 사용한 파이프라인 관리 (0)	2024.09.22

생존 분석(Survival Analysis) 개요

바닐라스카이 2025. 2. 4. 10:41

2025. 2. 4. 10:41

생존 분석(Survival Analysis)은 특정 사건(예: 사망, 질병 재발, 기계 고장 등)이 발생할 때까지의 시간을 분석하는 통계적 기법이다. 의료 및 바이오인포매틱스 분야에서는 환자의 생존 기간을 예측하거나 치료 효과를 비교하는 데 널리 사용된다.

1. Kaplan-Meier 생존 곡선(Kaplan-Meier Survival Curve)

Kaplan-Meier(KM) 생존 곡선은 개별 시간 지점에서의 생존 확률을 추정하는 방법이다. 사건(예: 사망)이 발생할 때마다 생존 확률을 갱신하며, 검열된 데이터(censored data)도 고려할 수 있다.

Kaplan-Meier 생존 확률 계산

생존 확률 S(t)S(t) 는 다음과 같이 계산된다:

여기서,

ti : 사건(사망)이 발생한 시간
di : 해당 시간에서 사건이 발생한 개체 수
ni : 해당 시간 직전까지 생존한 개체 수

Kaplan-Meier 곡선 해석

곡선이 급격히 떨어지는 구간은 특정 시간대에 사건 발생률이 높음을 의미한다.
생존 곡선이 평탄한 부분은 해당 시간 동안 사건 발생이 적음을 의미한다.
두 개 이상의 곡선을 비교하면, 치료 그룹 간의 생존 차이를 시각적으로 확인할 수 있다.

2. Log-rank Test: 생존 곡선 비교

두 개 이상의 생존 곡선을 비교할 때 Log-rank test를 사용한다. 이는 두 그룹 간의 전체 생존 분포가 통계적으로 유의미한 차이를 보이는지를 평가하는 검정 방법이다.

Log-rank Test 계산 방법

Log-rank test는 시간별로 기대 사건 수(EiE_i)와 실제 사건 수(OiO_i)를 비교하여 카이제곱(χ2\chi^2) 통계를 계산한다.

각 시간점에서 기대 사건 수(Expected Events, Ei) 를 계산한다

여기서,
- ni,1,ni,2 : 해당 시점에서 각각의 그룹에서 살아있는 개체 수
- di,1,di,2 : 해당 시점에서 발생한 사건 수
카이제곱 통계량(χ2)을 계산한다.

여기서 Oi는 실제 사건 발생 수, Ei는 기대 사건 수이다.
p-value를 확인하여 두 그룹 간의 생존 차이가 유의미한지 평가한다.
- p < 0.05: 두 그룹 간 생존 차이가 통계적으로 유의미함.
- p ≥ 0.05: 두 그룹 간 생존 차이가 유의하지 않음.

3. 생존 모델과 기대 생존 확률(Expected Survival Probability)

생존 분석에서는 관측된 생존 데이터(Observed)와 기대 생존 데이터(Expected)를 비교하는 경우가 많다.

모델 기반 생존 예측

딥러닝 모델(예: Cox Proportional Hazards Model, DeepSurv, Survival CNN)이 생존 확률을 예측하는 경우:

모델은 환자의 특징(임상 데이터, 영상 데이터 등)을 입력으로 받아 생존 확률을 추정한다.
모델이 예측한 생존 확률(Spred(t)S_{pred}(t))을 이용해 Kaplan-Meier 곡선과 비교할 수 있다.
모델이 그룹을 분류한 경우, 해당 그룹의 Kaplan-Meier 곡선을 다시 계산하여 Log-rank test를 수행할 수 있다.

Kaplan-Meier 곡선에서는 관측된 데이터에서 직접 생존 확률을 계산하여 Expected = Observed이다.
모델을 이용한 예측에서는 모델이 예측한 생존 확률을 Expected로 사용하고, 실제 환자의 생존 데이터와 비교한다.
Log-rank test에서 모델이 분류한 그룹의 생존 곡선을 다시 생성하고, 실제 데이터와의 차이를 검정한다.

4. 실전 예제: Kaplan-Meier 곡선 해석 및 비교

예제 데이터

시간 (개월)	사건 발생 수	생존 환자 수	생존 확률(S(t))
0	0	100	1.00
5	4	96	0.96
10	6	90	0.90
15	8	82	0.82
20	10	72	0.72

이 데이터를 사용하면 Kaplan-Meier 곡선을 생성할 수 있으며, 특정 치료 그룹 간의 생존 곡선을 비교할 수도 있다.

5. 결론

Kaplan-Meier 생존 곡선은 사건 발생률을 시간에 따라 시각화하는 강력한 도구이다.
Log-rank test를 사용하면 두 그룹 간의 생존 차이가 유의미한지 평가할 수 있다.
딥러닝 모델을 사용한 생존 예측에서는 모델이 예측한 그룹별 생존 확률을 Kaplan-Meier 곡선과 비교하여 평가할 수 있다.
실제 생존 데이터와 모델 예측을 비교할 때는 관측된 값(Observed)과 기대값(Expected)을 구분하여 해석해야 한다.

이러한 방법을 통해 생존 분석을 효과적으로 수행하고, 모델이 제공하는 생물학적 의미를 평가할 수 있다.

저작자표시 비영리 변경금지 (새창열림)

'bioinformatics' 카테고리의 다른 글

Ubuntu 20.04에서 최신 버전 Slurm 수동 설치 방법 (0)	2025.02.11
한국에서의 DTC 유전자검사: 검사 항목, 방법, 규제 및 글로벌 차이점 (1)	2024.11.02
멀티오믹스 분석 주제와 활용할 수 있는 공공 데이터베이스 (3)	2024.10.29
NGS 데이터 분석에서 PHRED Quality Score 이해하기 (0)	2024.10.27
Argo workflow를 사용한 파이프라인 관리 (0)	2024.09.22

PREV 이전 1 2 3 4 ···40 NEXT 다음

Be great

전체 글

Docker 환경에서 Kafka 설정 및 Slack Webhook 연동하기

Kafka란 무엇인가?

Docker 환경에서 Kafka 설정하기

1. Docker Compose로 Kafka와 Zookeeper 설정

docker-compose.yml 예시

실행 방법:

2. Kafka Receiver 예시 스크립트 (Python)

kafka_receiver.py

설명:

실행 방법:

Kafka 시스템이 주로 사용되는 상황

1. 실시간 로그 수집 및 분석

2. 데이터 파이프라인 및 ETL

3. 이벤트 기반 시스템

결론

'Computer Science > linux' 카테고리의 다른 글

Slurm에서 GPU Resource 관리: Shard 개념

1. 왜 GPU를 Shard로 나누어야 하는가?

Shard 사용의 장점

2. Shard 설정 확인하기

3. Shard를 사용하기 위한 Slurm 설정

4. Shard를 활용한 작업 제출

5. Shard를 활용한 효율적인 GPU 관리

6. Shard 사용 시 고려할 점

결론

'Computer Science > linux' 카테고리의 다른 글

Slurm에서 Foreground 작업을 고려한 자원 예약 방법

1. Slurm에서 특정 자원 예약하기

2. 무기한으로 예약하는 방법

(1) 무기한 예약하는 방법 (sleep infinity 사용)

(2) Slurm 예약을 자동으로 갱신하는 스크립트

(3) Crontab을 활용한 자동 예약

3. 특정 노드에서만 예약하고 싶을 때

결론

'Computer Science > linux' 카테고리의 다른 글

Ubuntu 20.04에서 최신 버전 Slurm 수동 설치 방법

1. 기존 Slurm 제거

2. 의존성 패키지 설치

3. Slurm 최신 버전 다운로드 및 빌드

Prefix 설정 이유

4. 설정 파일 복사 및 적용

5. Slurm 데몬 실행 확인

6. systemd 서비스 설정 수정

7. 환경 변수 설정

8. Slurm 서비스 재시작 및 확인

'bioinformatics' 카테고리의 다른 글

생존 분석(Survival Analysis) 개요

1. Kaplan-Meier 생존 곡선(Kaplan-Meier Survival Curve)

Kaplan-Meier 생존 확률 계산

Kaplan-Meier 곡선 해석

2. Log-rank Test: 생존 곡선 비교

Log-rank Test 계산 방법

3. 생존 모델과 기대 생존 확률(Expected Survival Probability)

모델 기반 생존 예측

4. 실전 예제: Kaplan-Meier 곡선 해석 및 비교

예제 데이터

5. 결론

'bioinformatics' 카테고리의 다른 글

+ Recent posts

티스토리툴바