GPU 서버 통합

< 이전: 노드 부트스트랩 | 목차 | 다음: 워크로드 배치 전략 >

지원 버전: EKS 1.31+, nodeadm 0.1+ 마지막 업데이트: 2026년 2월 21일

이 문서에서는 온프레미스 GPU 서버를 EKS Hybrid Nodes에 통합하는 방법을 다룹니다.

NVIDIA GPU Operator 배포

GPU Operator는 Kubernetes 클러스터에서 NVIDIA GPU를 관리하기 위한 모든 구성 요소를 자동으로 배포합니다.

# NVIDIA GPU Operator Helm 저장소 추가
helm repo add nvidia https://helm.ngc.nvidia.com/nvidia
helm repo update

# GPU Operator 설치
helm install gpu-operator nvidia/gpu-operator \
  --namespace gpu-operator \
  --create-namespace \
  --set driver.enabled=false \
  --set toolkit.enabled=true \
  --set devicePlugin.enabled=true \
  --set migManager.enabled=false \
  --set dcgmExporter.enabled=true

참고: 온프레미스 노드에 이미 NVIDIA 드라이버가 설치되어 있으므로 driver.enabled=false로 설정합니다.

H100/H200 서버 통합

Device Plugin 구성 확인

GPU 리소스 검증

Dynamic Resource Allocation (DRA)

Kubernetes 1.31+에서는 DRA를 통해 더 유연한 GPU 리소스 관리가 가능합니다.

DeviceClass 정의

참고: Kubernetes 1.31의 resource.k8s.io/v1alpha3에서 ResourceClassDeviceClass로 대체되었습니다.

ResourceClaimTemplate 정의

DRA를 사용하는 Pod 정의

DRA 모니터링 메트릭


< 이전: 노드 부트스트랩 | 목차 | 다음: 워크로드 배치 전략 >

마지막 업데이트