SLURM 이란
SLURM(Simplified Linux Utility for Resource Management)은 대규모 병렬 컴퓨팅 환경에서 작업 스케줄링과 리소스 관리를 위한 오픈 소스 클러스터 관리 시스템입니다. SLURM은 슈퍼컴퓨터와 대규모 클러스터에서 사용되며, 사용자가 제출한 작업을 효율적으로 스케줄링하고 자원을 배분하는 역할을 합니다. 주요 기능으로는 작업 큐잉, 우선순위 스케줄링, 자원 할당, 작업 모니터링 등이 있습니다.
SLURM 설치 방법
여기서는 SLURM을 설치하고 설정하는 절차를 단계별로 설명합니다.
설치를 위한 절차
1. 컨트롤 서버와 노드 서버를 결정
먼저, SLURM 클러스터에서 컨트롤 서버와 노드 서버를 결정합니다. 컨트롤 서버는 SLURM의 중앙 관리 노드로, 작업 스케줄링과 자원 관리를 담당합니다. 노드 서버는 실제로 작업이 실행되는 컴퓨팅 노드입니다.
2. MUNGE 설치 및 설정
MUNGE(Munge Uid 'N' Gid Emporium)는 SLURM에서 인증을 처리하는 데 사용됩니다. 모든 컨트롤 서버와 노드 서버에 MUNGE를 설치하고 설정합니다.
2.1. MUNGE 설치
모든 서버에서 MUNGE를 설치합니다.
sudo apt install -y munge libmunge-dev
2.2. MUNGE 키 생성 및 배포
컨트롤 서버에서 MUNGE 키를 생성하고, 모든 노드 서버로 배포합니다.
# 컨트롤 서버에서 MUNGE 키 생성
sudo /usr/sbin/create-munge-key
# MUNGE 키 파일을 모든 노드 서버로 복사
sudo scp /etc/munge/munge.key user@node-server:/etc/munge/
2.3. MUNGE 키 파일 권한 설정
각 노드 서버에서 MUNGE 키 파일의 권한을 설정합니다.
sudo chown munge:munge /etc/munge/munge.key
sudo chmod 400 /etc/munge/munge.key
2.4. MUNGE 데몬 시작 및 활성화
모든 서버에서 MUNGE 데몬을 시작하고 부팅 시 자동으로 시작되도록 설정합니다.
sudo systemctl enable munge
sudo systemctl start munge
3. SLURM 설치
3.1. 컨트롤 서버에 SLURM 설치
컨트롤 서버에서 SLURM 컨트롤 데몬(slurmctld)을 설치합니다.
sudo apt install -y slurm-wlm
3.2. 노드 서버에 SLURM 설치
모든 노드 서버에서 SLURM 데몬(slurmd)을 설치합니다. 컨트롤 서버에서도 작업을 실행하려면 SLURM 데몬도 함께 설치합니다.
sudo apt install -y slurmd
4. slurm.conf 설정
SLURM의 주요 설정 파일인 slurm.conf를 작성합니다. 이 파일은 클러스터의 구성과 동작을 정의합니다.
# slurm.conf file generated by configurator.html.
# Put this file on all nodes of your cluster.
# SLURM 컨트롤러 노드의 호스트 이름
ControlMachine=controller
# 인증 방법 설정
AuthType=auth/munge
# SLURM 데몬이 사용할 포트 설정
SlurmdPort=6818 SlurmctldPort=6817
# 상태 정보 저장 위치 설정
StateSaveLocation=/var/spool/slurm-llnl/state
SlurmdSpoolDir=/var/spool/slurmd
# 프로세스 추적 방법 설정
ProctrackType=proctrack/cgroup
# 노드가 서비스로 돌아가는 방식을 제어
ReturnToService=1
# 스케줄링 메커니즘 설정
SchedulerType=sched/backfill
# SLURM 데몬의 로그 파일 위치 설정
SlurmdLogFile=/var/log/slurmd.log
SlurmctldLogFile=/var/log/slurmctld.log
# SLURM 데몬의 PID 파일 위치 설정
SlurmctldPidFile=/run/slurm/slurmctld.pid
SlurmdPidFile=/run/slurm/slurmd.pid
# 작업 자격 증명에 사용할 키 설정
JobCredentialPrivateKey=/var/spool/slurm-llnl/cred_priv.pem
JobCredentialPublicCertificate=/var/spool/slurm-llnl/cred_pub.pem
# SLURM 데몬의 시간 초과 값 설정
SlurmdTimeout=300
SlurmctldTimeout=300
# 노드 선택 메커니즘 설정
SelectType=select/cons_tres
SelectTypeParameters=CR_Core_Memory
# 작업 관리 플러그인 설정
TaskPlugin=task/affinity
# 클러스터 이름 설정
ClusterName=my_cluster
# 클러스터의 노드 설정
NodeName=node[1-4] CPUs=16 RealMemory=64000 State=UNKNOWN
# 클러스터의 파티션 설정
PartitionName=debug Nodes=node[1-4] Default=YES MaxTime=INFINITE State=UP
5. cgroup.conf 설정 (GPU 사용 시)
GPU 자원을 관리하려면 cgroup.conf 파일을 설정해야 합니다.
예제: cgroup.conf
CgroupAutomount=yes
CgroupReleaseAgentDir="/etc/slurm-llnl/cgroup"
ConstrainCores=yes
ConstrainRAMSpace=yes
ConstrainDevices=yes
AllowedDevicesFile="/etc/slurm-llnl/cgroup_allowed_devices_file.conf"
예제: cgroup_allowed_devices_file.conf
/dev/nvidiactl
/dev/nvidia-uvm
/dev/nvidia0
/dev/nvidia1 ...
6. 설정 파일 배포
작성한 slurm.conf와 cgroup.conf 파일을 모든 노드 서버로 배포합니다.
scp /etc/slurm-llnl/slurm.conf user@node-server:/etc/slurm-llnl/
scp /etc/slurm-llnl/cgroup.conf user@node-server:/etc/slurm-llnl/
scp /etc/slurm-llnl/cgroup_allowed_devices_file.conf user@node-server:/etc/slurm-llnl/
요약
이 포스트에서는 SLURM 설치 및 설정 절차를 다루었습니다. 다음은 간단한 요약입니다:
- 컨트롤 서버와 노드 서버를 결정.
- 모든 서버에 MUNGE 설치 및 설정.
- 컨트롤 서버에 slurmctld 설치, 노드 서버에 slurmd 설치.
- slurm.conf 설정 파일 작성.
- GPU 사용 시 cgroup.conf 설정 파일 작성.
- 설정 파일을 모든 서버에 배포.
이 단계를 통해 SLURM 클러스터를 구축하고 관리할 수 있습니다. SLURM을 통해 대규모 병렬 컴퓨팅 환경에서 효율적으로 작업을 스케줄링하고 자원을 관리할 수 있습니다.
주의할 점.
1. munge나 slurm을 실행할 때 로그 파일의 디렉토리가 생성되어 있지 않으면 에러가 날 수 있습니다.
2. 클러스터 노드의 CPU, Memory 등을 설정하기 위해서 $lscpu와 $free -m 명령어를 사용하여 노드의 자원 상태를 파악할 수 있습니다.
3. 설정 파일(slurm.conf, cgroup.conf, munge.key) 등이 노드 서버로 복사 된 이후에 서비스를 재시작하여야 합니다.
'Computer Science > linux' 카테고리의 다른 글
Dockerfile 작성하기 (1) | 2024.09.15 |
---|---|
Docker 사용하기 (0) | 2024.09.15 |
사용자 계정 관리 및 조직의 구조화 툴 (LDAP) (0) | 2024.05.17 |
Docker와 MariaDB연결하기 (0) | 2022.08.24 |
centos 8에 slurm 설치하기 (0) | 2022.05.11 |