Agentic AI 플랫폼
1. Agentic AI 플랫폼 개요
Agentic AI란?
Kubernetes가 필요한 이유
요구사항
Kubernetes 솔루션
네 가지 핵심 기술 과제
2. GPU 인프라 구성
GPU 인스턴스 유형 비교
인스턴스
GPU
GPU 메모리
사용 사례
시간당 비용 (On-Demand)
Multi-Instance GPU (MIG) 구성
MIG 프로파일 (A100 80GB 기준)
프로파일
GPU 메모리
SM 수
사용 사례
NVIDIA GPU Operator 배포
MIG 파티션 구성
Time-Slicing 구성
MIG vs Time-Slicing 비교
특성
MIG
Time-Slicing
Karpenter NodePool 구성
3. 모델 서빙 (vLLM)
vLLM 아키텍처
vLLM Deployment 구성
성능 최적화 설정
Tensor Parallelism
KV Cache 관리
Prefix Caching
Chunked Prefill
모델 서빙 패턴
단일 모델 Pod
llm-d를 활용한 분리 서빙
4. 추론 게이트웨이 (Inference Gateway)
Gateway API 기반 AI 워크로드 라우팅
Kgateway + InferencePool 아키텍처
InferencePool CRD
LiteLLM 통합 게이트웨이
LiteLLM 사용 예시
5. RAG 데이터 레이어
Milvus 벡터 데이터베이스
Milvus Operator 배포
컬렉션 스키마 설계
인덱스 유형 비교
인덱스 유형
특성
메모리 사용
검색 속도
사용 사례
문서 수집 파이프라인
청킹 전략 구현
RAG 워크플로우
6. AI 에이전트 배포 (Kagent)
Kagent 개요
Agent CRD 정의
LangGraph 워크플로우 오케스트레이션
멀티 에이전트 협업 패턴
Supervisor 패턴
7. 모니터링과 운영
Langfuse GenAI 관측성
Langfuse 통합 코드
GPU 모니터링 (DCGM)
주요 GPU 메트릭
메트릭
설명
임계값
비용 최적화 전략
1. 프롬프트 캐싱
2. 계층형 모델 선택
3. 배치 처리
4. Spot 인스턴스 활용
8. 평가와 품질 관리
Ragas 프레임워크
자동화된 평가 파이프라인
A/B 테스팅
9. 핵심 기술 스택 요약
기술
목적
핵심 기능
10. 다음 단계
실습 퀴즈
관련 문서
참고 자료
마지막 업데이트