GPU 서버 통합
NVIDIA GPU Operator 배포
# NVIDIA GPU Operator Helm 저장소 추가
helm repo add nvidia https://helm.ngc.nvidia.com/nvidia
helm repo update
# GPU Operator 설치
helm install gpu-operator nvidia/gpu-operator \
--namespace gpu-operator \
--create-namespace \
--set driver.enabled=false \
--set toolkit.enabled=true \
--set devicePlugin.enabled=true \
--set migManager.enabled=false \
--set dcgmExporter.enabled=trueH100/H200 서버 통합
Device Plugin 구성 확인
GPU 리소스 검증
Dynamic Resource Allocation (DRA)
DeviceClass 정의
ResourceClaimTemplate 정의
DRA를 사용하는 Pod 정의
DRA 모니터링 메트릭
마지막 업데이트