AI/ML 모범 사례

지원 버전: Kubernetes 1.31, 1.32, 1.33 마지막 업데이트: 2026년 2월 25일

이 가이드는 Amazon EKS에서 AI/ML 워크로드를 실행하기 위한 종합적인 모범 사례를 다룹니다. 벤치마킹, 컨테이너 최적화, GPU 선택, 네트워킹, 스토리지, 관측성, 비용 최적화, 보안에 대해 알아봅니다.

개요

Kubernetes에서 AI/ML 워크로드를 효율적으로 실행하려면 여러 차원에서 신중한 고려가 필요합니다:

spinner

LLM 추론 벤치마킹

벤치마킹은 LLM 추론 서비스의 성능 특성을 이해하는 데 필수적입니다. 적절한 벤치마킹을 통해 스케일링, 리소스 할당, 최적화에 대한 정보에 입각한 결정을 내릴 수 있습니다.

핵심 성능 지표

LLM 추론 성능을 평가하기 위한 핵심 지표를 이해하는 것이 중요합니다:

spinner
지표
설명
공식
목표 범위

TTFT

요청부터 첫 토큰 생성까지의 시간

t_first_token - t_request

대화형 앱에서 < 500ms

ITL

연속 토큰 간 평균 시간

(t_last_token - t_first_token) / (n_tokens - 1)

부드러운 스트리밍을 위해 < 50ms

TPS

요청당 초당 생성 토큰 수

n_tokens / total_generation_time

좋은 UX를 위해 > 20 TPS

E2E 지연 시간

요청부터 완료까지 총 시간

t_complete - t_request

출력 길이에 따라 다름

처리량

초당 처리되는 요청 수

total_requests / time_window

지연 시간 SLO 내에서 최대화

벤치마킹 도구

inference-perf 도구

AI on EKS의 inference-perf 도구는 포괄적인 벤치마킹 기능을 제공합니다:

다양한 테스트 시나리오 구성:

NVIDIA GenAI-Perf 도구

상세한 GPU 수준 메트릭을 위해 NVIDIA의 GenAI-Perf를 사용합니다:

테스트 시나리오

시나리오
목적
구성
주요 관찰 지표

기준선

단일 요청 성능 확립

동시성=1, 100 요청

TTFT, ITL, E2E 지연 시간

포화

처리량 한계 찾기

지연 시간 저하까지 동시성 증가

처리량 vs 지연 시간 곡선

프로덕션 시뮬레이션

실제 성능 검증

가변 프롬프트, 현실적 동시성

P50/P95/P99 지연 시간

실제 데이터셋

실제 대화 패턴 테스트

ShareGPT 또는 도메인 특화 데이터

토큰 분포 분석

긴 컨텍스트

컨텍스트 윈도우 처리 테스트

4K-128K 토큰 프롬프트

메모리 사용량, TTFT 스케일링

버스트 트래픽

오토스케일링 응답 테스트

10에서 100 동시성으로 스파이크

스케일업 시간, 오류율

벤치마킹용 Kubernetes Job

결과 해석

성능 가이드라인:

  • TTFT P95 > 1s: 프리필 최적화 또는 배치 크기 조정 고려

  • ITL P95 > 100ms: GPU 메모리 압력 확인, 더 작은 배치 크기 고려

  • 높은 동시성에서 처리량 감소: GPU 메모리 또는 컴퓨팅 병목

  • 지연 시간의 높은 변동성: 노이지 네이버 또는 열 스로틀링 확인

컨테이너 시작 최적화

AI/ML 컨테이너는 큰 이미지 크기와 모델 로딩 요구 사항으로 인해 고유한 콜드 스타트 문제에 직면합니다.

콜드 스타트 타임라인 분석

spinner

이미지 크기 분석

일반적인 AI/ML 컨테이너 이미지 구성:

구성 요소
크기 범위
최적화 가능성

기본 OS (Ubuntu/Debian)

100-500MB

slim/distroless 사용

CUDA 런타임

2-4GB

runtime 전용 이미지 사용

Python + 의존성

1-3GB

멀티 스테이지 빌드

ML 프레임워크 (PyTorch/TensorFlow)

2-5GB

최적화된 빌드 사용

모델 가중치

5-100GB+

이미지에서 분리

총계

10-115GB

목표: 5-10GB

전략 1: 모델 아티팩트 분리

모델 가중치를 컨테이너 이미지에서 분리합니다:

전략 2: 멀티 스테이지 빌드

최소 런타임 이미지를 위한 Dockerfile 최적화:

이미지 크기 비교:

접근 방식
이미지 크기
풀 시간 (1Gbps)

단순 (모든 것을 하나의 이미지에)

45GB

~6분

멀티 스테이지 빌드

12GB

~1.5분

멀티 스테이지 + 외부 모델

5GB

~40초

전략 3: containerd Snapshotter

지연 풀링을 위한 SOCI (Seekable OCI) snapshotter 사용:

이미지에 대한 SOCI 인덱스 생성:

전략 4: Bottlerocket에서 이미지 프리페칭

이미지 프리페칭을 위한 Bottlerocket 구성:

프리페칭이 포함된 Karpenter NodePool:

콜드 스타트 최적화 요약

기법
시작 시간 단축
구현 난이도

모델 분리

50-70%

중간

멀티 스테이지 빌드

30-50%

낮음

SOCI snapshotter

60-80%

중간

이미지 프리페칭

70-90%

낮음

통합 접근 방식

80-95%

높음

GPU 인스턴스 선택 가이드

올바른 GPU 인스턴스 유형 선택은 비용 효율적인 AI/ML 워크로드에 중요합니다.

GPU 인스턴스 비교

인스턴스 패밀리
GPU 유형
GPU 메모리
GPU 수
vCPU
메모리
네트워크
사용 사례
비용 등급

G5

NVIDIA A10G

24GB

1-8

4-192

16-768GB

최대 100 Gbps

추론, 파인튜닝

$$

G5g

NVIDIA T4G

16GB

1-2

4-64

8-256GB

최대 25 Gbps

비용 효율적 추론

$

G6

NVIDIA L4

24GB

1-8

4-192

16-768GB

최대 100 Gbps

추론, 비디오

$$

G6e

NVIDIA L40S

48GB

1-8

8-384

32-1536GB

최대 100 Gbps

대규모 모델 추론

$$$

P4d

NVIDIA A100

40GB

8

96

1152GB

400 Gbps EFA

대규모 훈련

$$$$

P4de

NVIDIA A100

80GB

8

96

1152GB

400 Gbps EFA

LLM 훈련

$$$$

P5

NVIDIA H100

80GB

8

192

2048GB

3200 Gbps EFA

최첨단 모델 훈련

$$$$$

P5e

NVIDIA H200

141GB

8

192

2048GB

3200 Gbps EFA

최대 규모 모델

$$$$$

Trn1

AWS Trainium

32GB

1-16

8-128

32-512GB

최대 800 Gbps

훈련 (최적화)

$$$

Inf2

AWS Inferentia2

32GB

1-12

4-96

16-384GB

최대 100 Gbps

추론 (최적화)

$$

워크로드 기반 선택 가이드

인스턴스 선택 결정 트리

네트워킹 모범 사례

고성능 네트워킹은 분산 AI/ML 워크로드에 필수적입니다.

분산 훈련을 위한 EFA 설정

Elastic Fabric Adapter (EFA)는 멀티 노드 훈련에 필수적인 저지연, 고대역폭 네트워킹을 제공합니다:

NCCL 구성

EFA를 위한 NVIDIA Collective Communication Library (NCCL) 최적화:

배치 그룹

최적의 네트워크 성능을 위한 배치 그룹 구성:

GPU 트래픽을 위한 보안 그룹 규칙

추론 엔드포인트용 네트워크 정책

스토리지 모범 사례

올바른 스토리지 솔루션 선택은 AI/ML 워크로드 성능에 큰 영향을 미칩니다.

스토리지 선택 가이드

스토리지 유형
처리량
지연 시간
용량
사용 사례
비용

인스턴스 스토어

최대 7.5 GB/s

< 1ms

최대 7.6TB

스크래치 공간, 체크포인트

포함

EBS gp3

최대 1 GB/s

1-2ms

최대 16TB

부팅, 소규모 데이터셋

$

EBS io2

최대 4 GB/s

< 1ms

최대 64TB

높은 IOPS 요구 사항

$$$

EFS

버스팅/프로비저닝

2-5ms

무제한

공유 모델, 데이터셋

$$

FSx Lustre

최대 1+ TB/s

< 1ms

페타바이트

대규모 훈련 데이터셋

$$$

S3

사실상 무제한

50-100ms

무제한

모델 아티팩트, 아카이브

$

각 스토리지 유형 사용 시기

모델 캐싱 전략

훈련을 위한 체크포인트 관리

FSx for Lustre 설정

AI/ML 관측성

포괄적인 관측성은 대규모 AI/ML 워크로드 운영에 필수적입니다.

NVIDIA DCGM Exporter 설정

GPU 메트릭을 위한 DCGM exporter 배포:

GPU 메트릭 수집

모니터링할 주요 GPU 메트릭:

주요 GPU 메트릭 참조

메트릭
설명
알림 임계값

DCGM_FI_DEV_GPU_UTIL

GPU 컴퓨팅 사용률 %

> 95% 지속

DCGM_FI_DEV_MEM_COPY_UTIL

메모리 복사 사용률 %

> 90% 지속

DCGM_FI_DEV_FB_USED

사용된 프레임 버퍼 메모리 (바이트)

> 전체의 95%

DCGM_FI_DEV_GPU_TEMP

GPU 온도 (섭씨)

> 80C 경고, > 90C 심각

DCGM_FI_DEV_POWER_USAGE

전력 소비 (와트)

TDP 한계 근접

DCGM_FI_DEV_SM_CLOCK

SM 클럭 주파수 (MHz)

스로틀링 감지

DCGM_FI_DEV_XID_ERRORS

XID 오류 횟수

모든 증가

DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL

NVLink 대역폭

예상 미만

모델 서빙 메트릭

Grafana 대시보드 구성

비용 최적화

비용 최적화 전략을 구현하면 AI/ML 인프라 비용을 크게 줄일 수 있습니다.

추론을 위한 스팟 인스턴스

Karpenter 통합 정책

적정 크기 조정 권장 사항

비용 비교 및 Savings Plans

전략
일반적인 절감
구현 복잡도
적합한 용도

스팟 인스턴스

60-90%

중간

상태 비저장 추론

Savings Plans (1년)

30-40%

낮음

기준선 용량

Savings Plans (3년)

50-60%

낮음

안정적인 워크로드

Reserved Instances

40-70%

중간

예측 가능한 사용량

Karpenter 통합

20-40%

낮음

가변적인 워크로드

GPU 공유 (MIG/MPS)

30-50%

높음

소규모 모델

적정 크기 조정

20-50%

중간

과다 프로비저닝된 경우

보안 고려 사항

민감한 데이터나 귀중한 모델을 다루는 AI/ML 워크로드를 배포할 때 보안은 매우 중요합니다.

모델 액세스 제어

API 키를 위한 시크릿 관리

추론 엔드포인트를 위한 네트워크 정책

모델 액세스 감사 로깅

참고 자료


퀴즈: AI/ML 모범 사례 퀴즈로 이해도를 테스트해 보세요.

마지막 업데이트