AI 인프라스트럭처

지원 버전: Kubernetes 1.31, 1.32, 1.33 마지막 업데이트: 2026년 2월 25일

이 가이드에서는 Amazon EKS에서 AI/ML 인프라를 구축하는 방법을 다룹니다. JARK 스택, 동적 리소스 할당(DRA), AI 에이전트 개발을 위한 프로덕션 플랫폼을 포함합니다.

AI/ML 인프라 아키텍처 개요

EKS 기반 AI/ML 인프라는 관심사를 분리하고 각 레이어의 독립적인 확장을 가능하게 하는 계층형 아키텍처를 따릅니다.

spinner

레이어별 역할:

레이어
구성 요소
목적

워크로드

훈련, 추론, 노트북, 파이프라인, 에이전트

사용자 대면 ML 애플리케이션

플랫폼

Ray, KServe, Kubeflow, MLflow, 벡터 DB

ML 전용 오케스트레이션 및 도구

컴퓨팅

GPU/Neuron/CPU NodePools, 스팟 인스턴스

하드웨어 가속 및 비용 최적화

기반

EKS, Karpenter, 스토리지, 네트워킹

기반 인프라


JARK 스택: 완전한 AI/ML 개발 환경

JARK 스택(JupyterHub + Argo Workflows + Ray + Karpenter)은 EKS에서 완전하고 프로덕션 준비된 AI/ML 개발 환경을 제공합니다.

JARK 스택 아키텍처

spinner

JARK 스택 구성 요소

1. JupyterHub - 대화형 개발 환경

JupyterHub는 GPU 지원 노트북 프로필을 갖춘 다중 사용자 대화형 개발 환경을 제공합니다.

GPU 프로필이 포함된 JupyterHub 구성:

JupyterHub Helm 설치:

2. Argo Workflows - ML 파이프라인 오케스트레이션

Argo Workflows는 DAG 기반 워크플로우를 통해 복잡한 ML 파이프라인 오케스트레이션을 가능하게 합니다.

ML 훈련 파이프라인 예시:

3. Ray (KubeRay) - 분산 컴퓨팅

Ray는 훈련, 튜닝, 서빙을 포함한 ML 워크로드를 위한 통합 분산 컴퓨팅을 제공합니다.

RayCluster 구성:

4. Karpenter - 지능형 노드 프로비저닝

Karpenter는 GPU 및 Neuron 지원을 통해 빠르고 비용 효율적인 노드 프로비저닝을 제공합니다.

GPU 및 Neuron NodePools:


GPU를 위한 동적 리소스 할당(DRA)

동적 리소스 할당(DRA)은 기존 디바이스 플러그인으로는 달성할 수 없는 GPU 리소스에 대한 세밀한 제어를 제공하는 Kubernetes의 차세대 GPU 스케줄링 접근 방식입니다.

DRA vs 기존 GPU 스케줄링

spinner

DRA를 사용한 GPU 공유 전략

DRA는 다양한 사용 사례에 대해 여러 GPU 공유 전략을 지원합니다:

전략
사용 사례
GPU 활용률
격리
지연 시간

Exclusive

훈련, HPC

100% 전용

완전

최저

MIG

멀티테넌트 추론

하드웨어 파티션

강함

낮음

Time-Slicing

개발, 테스트

시간 공유

약함

가변

MPS

병렬 소규모 워크로드

CUDA 컨텍스트 공유

중간

중간

GPU 공유를 위한 DRA ResourceClaim:

DRA 지원이 포함된 NVIDIA GPU Operator

DRA는 완전한 지원을 위해 NVIDIA GPU Operator v25.3.0 이상이 필요합니다.

멀티 GPU 훈련 워크로드의 경우, 토폴로지 인식 스케줄링은 NVLink로 연결된 GPU가 함께 할당되도록 보장합니다.

P6e-GB200 UltraServer 지원

NVIDIA GB200 NVL72(P6e 인스턴스)는 72개의 상호 연결된 GPU로 구성된 고유한 아키텍처로 인해 적절한 리소스 관리를 위해 DRA가 필요합니다.


EKS 기반 Agents 플랫폼

EKS 기반 Agents 플랫폼은 소스 제어, 관찰 가능성, 벡터 스토리지, 도구 검색을 위한 통합 도구와 함께 AI 에이전트를 구축하고 배포하기 위한 인프라를 제공합니다.

Agents 플랫폼 아키텍처

AI 에이전트 배포 예시


AI/ML용 스토리지 솔루션

공유 모델 스토리지를 위한 Amazon EFS

고처리량 훈련을 위한 FSx for Lustre


AI 워크로드를 위한 네트워킹

멀티 노드 훈련을 위한 Elastic Fabric Adapter(EFA)

EFA는 분산 훈련에 필수적인 고대역폭, 저지연 네트워킹을 제공합니다.


모니터링 및 관찰 가능성

Prometheus 및 Grafana 스택

GPU 활용률 알림


모범 사례 요약

인프라 모범 사례

카테고리
권장 사항
근거

컴퓨팅

GPU 유형별로 별도 NodePool과 함께 Karpenter 사용

빠른 프로비저닝, 비용 최적화

스토리지

공유 데이터는 EFS, 훈련에는 FSx Lustre

I/O 패턴과 워크로드 요구사항 일치

네트워킹

멀티 노드 훈련에 EFA 활성화

NCCL용 400+ Gbps 대역폭

스케줄링

Kubernetes 1.31+에서 GPU 공유에 DRA 사용

세밀한 GPU 할당

모니터링

모든 GPU 노드에 DCGM exporter 배포

GPU 전용 메트릭 및 알림

비용 최적화 전략

  1. 스팟 인스턴스: 체크포인팅이 있는 장애 허용 훈련에 스팟 사용

  2. 적정 크기 조정: GPU 유형을 워크로드에 맞춤(개발은 T4, 프로덕션 훈련은 A100)

  3. 통합: Karpenter의 통합 기능으로 GPU 워크로드 빈 패킹

  4. 타임슬라이싱: DRA로 추론 워크로드에 GPU 공유

  5. Neuron 인스턴스: 추론에 inf2/trn1 고려(최대 50% 비용 절감)

보안 고려사항

  1. 네트워크 격리: GPU 노드용 전용 서브넷 사용

  2. IAM 역할: S3/시크릿 액세스에 최소 권한 IRSA 구현

  3. 암호화: EBS, EFS, S3에 암호화 활성화

  4. 시크릿 관리: API 키에 External Secrets Operator 사용

  5. 컨테이너 보안: GPU 컨테이너 이미지의 취약점 스캔


참고 자료


퀴즈: AI 인프라 퀴즈로 지식을 테스트해보세요.

마지막 업데이트