AI/ML 모범 사례
개요
LLM 추론 벤치마킹
핵심 성능 지표
지표
설명
공식
목표 범위
벤치마킹 도구
inference-perf 도구
NVIDIA GenAI-Perf 도구
테스트 시나리오
시나리오
목적
구성
주요 관찰 지표
벤치마킹용 Kubernetes Job
결과 해석
컨테이너 시작 최적화
콜드 스타트 타임라인 분석
이미지 크기 분석
구성 요소
크기 범위
최적화 가능성
전략 1: 모델 아티팩트 분리
전략 2: 멀티 스테이지 빌드
접근 방식
이미지 크기
풀 시간 (1Gbps)
전략 3: containerd Snapshotter
전략 4: Bottlerocket에서 이미지 프리페칭
콜드 스타트 최적화 요약
기법
시작 시간 단축
구현 난이도
GPU 인스턴스 선택 가이드
GPU 인스턴스 비교
인스턴스 패밀리
GPU 유형
GPU 메모리
GPU 수
vCPU
메모리
네트워크
사용 사례
비용 등급
워크로드 기반 선택 가이드
인스턴스 선택 결정 트리
네트워킹 모범 사례
분산 훈련을 위한 EFA 설정
NCCL 구성
배치 그룹
GPU 트래픽을 위한 보안 그룹 규칙
추론 엔드포인트용 네트워크 정책
스토리지 모범 사례
스토리지 선택 가이드
스토리지 유형
처리량
지연 시간
용량
사용 사례
비용
각 스토리지 유형 사용 시기
모델 캐싱 전략
훈련을 위한 체크포인트 관리
FSx for Lustre 설정
AI/ML 관측성
NVIDIA DCGM Exporter 설정
GPU 메트릭 수집
주요 GPU 메트릭 참조
메트릭
설명
알림 임계값
모델 서빙 메트릭
Grafana 대시보드 구성
비용 최적화
추론을 위한 스팟 인스턴스
Karpenter 통합 정책
적정 크기 조정 권장 사항
비용 비교 및 Savings Plans
전략
일반적인 절감
구현 복잡도
적합한 용도
보안 고려 사항
모델 액세스 제어
API 키를 위한 시크릿 관리
추론 엔드포인트를 위한 네트워크 정책
모델 액세스 감사 로깅
참고 자료
마지막 업데이트