추론 프레임워크
추론 프레임워크 생태계
프레임워크 선택 가이드
사용 사례
권장 프레임워크
이유
NVIDIA NIM
NIM 아키텍처
사전 요구 사항
Karpenter를 사용한 NIM 배포
NIM 배포 매니페스트
OpenAI 호환 API 사용
NIM 성능 메트릭
메트릭
설명
목표값
GenAI-Perf 벤치마킹
NVIDIA Dynamo
Dynamo 아키텍처
핵심 개념
Dynamo 배포
AIBrix
AIBrix 구성 요소
AIBrix 배포
AIBrix LoRA 관리
Ray Serve 통합
KubeRay Operator 설치
vLLM과 Ray Serve 배포
AWS Neuron과 Inferentia2
Neuron SDK 개요
지원 인스턴스 유형
인스턴스 유형
Neuron 코어
메모리
사용 사례
Neuron Device Plugin 설치
Inferentia2를 위한 Karpenter NodePool
Neuron에서의 vLLM 배포
프레임워크 비교
기능 비교 매트릭스
기능
NIM
Dynamo
AIBrix
vLLM
Ray+vLLM
Triton
성능 비교 (Llama 3.1 70B, 8x A100)
프레임워크
TTFT (P99)
ITL (P99)
처리량 (tok/s)
최대 동시성
비용 비교 (월간, 일 100만 요청)
프레임워크
인스턴스 유형
수량
월간 비용
1K 요청당 비용
모범 사례
프레임워크 선택 가이드라인
프로덕션 배포 체크리스트
참고 자료
퀴즈
마지막 업데이트