Agentic AI 플랫폼

지원 버전: EKS 1.31+, vLLM 0.6+, Karpenter 1.0+ 마지막 업데이트: 2026년 2월 23일

Agentic AI는 단순한 질의응답을 넘어 자율적으로 계획을 세우고, 도구를 사용하며, 반복적으로 목표를 달성하는 AI 시스템입니다. 이 장에서는 EKS에서 프로덕션 수준의 Agentic AI 플랫폼을 구축하는 방법을 알아보겠습니다.

1. Agentic AI 플랫폼 개요

Agentic AI란?

Agentic AI는 다음과 같은 특성을 가진 자율적 AI 시스템입니다:

spinner
  1. 자율적 계획 수립: 복잡한 작업을 하위 작업으로 분해하고 실행 순서를 결정합니다.

  2. 도구 기반 실행: 외부 API, 데이터베이스, 코드 실행기 등 다양한 도구를 활용합니다.

  3. 반복적 개선: 실행 결과를 평가하고 필요시 계획을 수정합니다.

  4. 상태 관리: 장기 실행 작업에서 상태와 메모리를 유지합니다.

Kubernetes가 필요한 이유

Agentic AI 플랫폼에서 Kubernetes는 다음과 같은 핵심 기능을 제공합니다:

요구사항
Kubernetes 솔루션

GPU 오케스트레이션

Device Plugin, GPU Operator, MIG

자동 스케일링

HPA, VPA, Karpenter

멀티 테넌트 격리

Namespace, NetworkPolicy, ResourceQuota

고가용성

ReplicaSet, PodDisruptionBudget

서비스 메시

Istio, Gateway API

비용 최적화

Spot 인스턴스, 노드 통합

네 가지 핵심 기술 과제

Agentic AI 플랫폼 구축 시 해결해야 할 핵심 과제:

spinner

2. GPU 인프라 구성

GPU 인스턴스 유형 비교

AWS에서 제공하는 주요 GPU 인스턴스 유형:

인스턴스
GPU
GPU 메모리
사용 사례
시간당 비용 (On-Demand)

p5.48xlarge

8x H100

640GB

대규모 훈련, 초대형 모델 추론

~$98.32

p4d.24xlarge

8x A100

320GB

분산 훈련, 70B+ 모델 추론

~$32.77

g5.xlarge

1x A10G

24GB

중소형 모델 추론

~$1.01

g5.48xlarge

8x A10G

192GB

다중 모델 서빙

~$16.29

g6.xlarge

1x L4

24GB

비용 효율적 추론

~$0.80

g6.48xlarge

8x L4

192GB

대규모 추론 클러스터

~$13.35

inf2.xlarge

1x Inferentia2

32GB

AWS 최적화 추론

~$0.76

Multi-Instance GPU (MIG) 구성

NVIDIA A100/H100 GPU는 MIG를 통해 물리적으로 분할하여 여러 워크로드를 격리할 수 있습니다.

MIG 프로파일 (A100 80GB 기준)

프로파일
GPU 메모리
SM 수
사용 사례

1g.10gb

10GB

14

소형 모델 추론, 개발

2g.20gb

20GB

28

7B 모델 추론

3g.40gb

40GB

42

13B 모델 추론

4g.40gb

40GB

56

대용량 배치 추론

7g.80gb

80GB

98

70B 모델, 훈련

NVIDIA GPU Operator 배포

MIG 파티션 구성

Time-Slicing 구성

MIG를 지원하지 않는 GPU(A10G, L4 등)에서는 Time-Slicing으로 GPU를 공유할 수 있습니다.

MIG vs Time-Slicing 비교

특성
MIG
Time-Slicing

격리 수준

하드웨어 격리 (메모리, SM)

소프트웨어 격리 (시간 분할)

지원 GPU

A100, H100

모든 NVIDIA GPU

메모리 보장

보장됨

공유 (경합 가능)

오버헤드

낮음

컨텍스트 스위칭 오버헤드

유연성

재구성 필요

동적 조정 가능

사용 사례

프로덕션, 멀티테넌트

개발, 배치 처리

Karpenter NodePool 구성


3. 모델 서빙 (vLLM)

vLLM 아키텍처

vLLM은 다음과 같은 핵심 기술로 고성능 LLM 추론을 제공합니다:

spinner

vLLM Deployment 구성

성능 최적화 설정

Tensor Parallelism

대규모 모델을 여러 GPU에 분산:

KV Cache 관리

Prefix Caching

반복되는 시스템 프롬프트에 대한 캐싱:

Chunked Prefill

긴 컨텍스트 처리 최적화:

모델 서빙 패턴

단일 모델 Pod

llm-d를 활용한 분리 서빙

Prefill과 Decode를 분리하여 최적화:


4. 추론 게이트웨이 (Inference Gateway)

Gateway API 기반 AI 워크로드 라우팅

Kubernetes Gateway API를 확장하여 AI 추론 워크로드를 효율적으로 라우팅합니다.

Kgateway + InferencePool 아키텍처

spinner

InferencePool CRD

LiteLLM 통합 게이트웨이

LiteLLM은 다양한 LLM 프로바이더를 단일 API로 통합합니다.

LiteLLM 사용 예시


5. RAG 데이터 레이어

Milvus 벡터 데이터베이스

Milvus는 대규모 벡터 검색을 위한 오픈소스 데이터베이스입니다.

Milvus Operator 배포

컬렉션 스키마 설계

인덱스 유형 비교

인덱스 유형
특성
메모리 사용
검색 속도
사용 사례

FLAT

정확한 검색

높음

느림

소규모, 정확도 우선

IVF_FLAT

클러스터 기반

중간

빠름

일반적인 사용

HNSW

그래프 기반

높음

매우 빠름

대규모, 속도 우선

GPU_IVF_FLAT

GPU 가속

중간

매우 빠름

초대규모, GPU 사용

SCANN

양자화 기반

낮음

빠름

메모리 제한 환경

문서 수집 파이프라인

청킹 전략 구현

RAG 워크플로우


6. AI 에이전트 배포 (Kagent)

Kagent 개요

Kagent는 Kubernetes 네이티브 AI 에이전트 라이프사이클 관리 도구입니다.

spinner

Agent CRD 정의

LangGraph 워크플로우 오케스트레이션

LangGraph를 사용하여 복잡한 AI 워크플로우를 구현합니다.

멀티 에이전트 협업 패턴

Supervisor 패턴


7. 모니터링과 운영

Langfuse GenAI 관측성

Langfuse는 LLM 애플리케이션을 위한 관측성 플랫폼입니다.

Langfuse 통합 코드

GPU 모니터링 (DCGM)

주요 GPU 메트릭

메트릭
설명
임계값

DCGM_FI_DEV_GPU_UTIL

GPU 사용률

> 80% 정상

DCGM_FI_DEV_MEM_COPY_UTIL

메모리 대역폭 사용률

> 70% 주의

DCGM_FI_DEV_FB_USED

프레임버퍼 사용량

< 95% 권장

DCGM_FI_DEV_GPU_TEMP

GPU 온도

< 85C 권장

DCGM_FI_DEV_POWER_USAGE

전력 사용량

TDP의 90% 이하

DCGM_FI_DEV_SM_CLOCK

SM 클럭 속도

기본값 유지

비용 최적화 전략

1. 프롬프트 캐싱

2. 계층형 모델 선택

3. 배치 처리

4. Spot 인스턴스 활용


8. 평가와 품질 관리

Ragas 프레임워크

Ragas는 RAG 시스템의 품질을 평가하는 프레임워크입니다.

자동화된 평가 파이프라인

A/B 테스팅


9. 핵심 기술 스택 요약

기술
목적
핵심 기능

Kagent

AI 에이전트 라이프사이클

CRD 기반 에이전트 관리, 자동 스케일링

Kgateway

추론 게이트웨이

InferencePool, Prefix-aware 라우팅

Milvus

벡터 데이터베이스

대규모 벡터 검색, GPU 가속 인덱싱

Ragas

RAG 평가

충실성, 관련성, 정확도 메트릭

LiteLLM

LLM 통합 게이트웨이

프로바이더 추상화, 폴백, 비용 추적

LangGraph

워크플로우 오케스트레이션

상태 관리, 조건 분기, 에러 처리

Langfuse

GenAI 관측성

요청 추적, 비용 분석, 피드백 수집

vLLM

고성능 추론

PagedAttention, 연속 배치, Prefix 캐싱

Karpenter

노드 프로비저닝

GPU 노드 자동 스케일링, Spot 관리

DCGM

GPU 모니터링

사용률, 온도, 전력 메트릭


10. 다음 단계

실습 퀴즈

Agentic AI 플랫폼에 대한 이해도를 확인하려면 다음 퀴즈를 풀어보세요:

관련 문서

참고 자료

마지막 업데이트