모델 트레이닝
훈련 파이프라인 개요
분산 훈련 전략
병렬화 전략 비교
전략
적합한 경우
메모리 효율성
통신 오버헤드
구현 복잡도
적절한 전략 선택
Slinky를 통한 EKS에서의 Slurm
Slinky 아키텍처
Slinky 컴포넌트
컴포넌트
설명
Kubernetes 리소스
Slinky CRD
ArgoCD를 사용한 Slinky 배포
GPU 오토 스케일링을 위한 Karpenter NodePool
Slurm에 작업 제출하기
NVIDIA GPU에서의 훈련
멀티노드 훈련을 위한 NCCL 구성
EFA 네트워킹 구성
EKS에서의 NVIDIA BioNeMo
AWS Trainium/Neuron에서의 훈련
Neuron SDK 컴포넌트
컴포넌트
설명
목적
지원되는 프레임워크 및 모델
Trainium에서의 Llama 3 LoRA 파인튜닝
NeuronX Distributed를 사용한 Trainium에서의 BERT-Large 훈련
Trainium 노드 구성
훈련 인프라 컴포넌트
분산 훈련을 위한 KubeRay와 RayTrain
전통적인 HPC 워크로드를 위한 MPI Operator
Gang 스케줄링을 위한 Volcano 스케줄러
대화형 훈련 개발을 위한 JupyterHub
훈련을 위한 스토리지
FSx for Lustre 구성
공유 모델 스토리지를 위한 Amazon EFS
체크포인트 관리
훈련 최적화 팁
혼합 정밀도 훈련
그래디언트 누적
Flash Attention 구성
학습률 스케줄링 모범 사례
DeepSpeed ZeRO 구성
모범 사례 요약
카테고리
모범 사례
이점
참고 자료
퀴즈
마지막 업데이트