Agentic AI 플랫폼 퀴즈

이 퀴즈는 Amazon EKS에서 Agentic AI 플랫폼을 구축하기 위한 GPU 관리(MIG/Time-Slicing), vLLM 추론 서버, Inference Gateway, RAG(검색 증강 생성), Kagent, LangGraph, Langfuse 관측성에 대한 이해를 테스트합니다.

퀴즈 개요

  • GPU 리소스 관리 (MIG, Time-Slicing)

  • vLLM 추론 서버 배포 및 최적화

  • Kubernetes Gateway API 및 Inference Gateway

  • RAG 아키텍처 및 구현

  • Kagent (Kubernetes AI Agent)

  • LangGraph 워크플로우 오케스트레이션

  • Langfuse를 통한 LLM 관측성

객관식 문제

1. vLLM의 PagedAttention 기술이 해결하는 주요 문제는 무엇인가요?

A. 모델 학습 속도 향상 B. GPU 메모리 단편화로 인한 비효율적인 메모리 사용 C. 네트워크 지연 시간 감소 D. 모델 파라미터 압축

chevron-right정답 보기hashtag

정답: B. GPU 메모리 단편화로 인한 비효율적인 메모리 사용

설명: vLLM의 PagedAttention은 KV(Key-Value) 캐시를 페이지 단위로 관리하여 GPU 메모리 단편화 문제를 해결합니다. 이를 통해 동일한 GPU 메모리에서 2-4배 더 많은 요청을 동시에 처리할 수 있습니다.

PagedAttention 작동 원리:

  • KV 캐시를 고정 크기 블록(페이지)으로 분할

  • 비연속적인 메모리 공간 활용 가능

  • 동적 메모리 할당/해제로 단편화 방지

# vLLM 배포 예시
apiVersion: apps/v1
kind: Deployment
metadata:
  name: vllm-server
spec:
  template:
    spec:
      containers:
      - name: vllm
        image: vllm/vllm-openai:latest
        args:
          - "--model"
          - "meta-llama/Llama-2-7b-chat-hf"
          - "--tensor-parallel-size"
          - "1"
          - "--gpu-memory-utilization"
          - "0.9"  # 90% GPU 메모리 활용
        resources:
          limits:
            nvidia.com/gpu: 1

PagedAttention 이점:

  • 메모리 효율성 2-4배 향상

  • 처리량(Throughput) 2-4배 증가

  • 더 긴 컨텍스트 길이 지원

2. Inference Gateway의 주요 역할로 올바르지 않은 것은?

A. 다중 LLM 백엔드로의 트래픽 라우팅 B. 요청 속도 제한(Rate Limiting) C. 모델 학습(Training) 작업 관리 D. 로드 밸런싱 및 페일오버

chevron-right정답 보기hashtag

정답: C. 모델 학습(Training) 작업 관리

설명: Inference Gateway는 추론(Inference) 요청의 라우팅, 로드 밸런싱, 속도 제한 등을 담당합니다. 모델 학습은 별도의 시스템(예: Kubeflow, Ray)에서 관리합니다.

Inference Gateway 핵심 기능:

  • 다중 모델 백엔드 라우팅

  • 요청 속도 제한 및 쿼터 관리

  • A/B 테스팅 및 카나리 배포

  • 인증/인가 처리

  • 메트릭 수집 및 모니터링

3. RAG(Retrieval-Augmented Generation) 아키텍처에서 Vector Database의 역할은?

A. LLM 모델 가중치 저장 B. 문서 임베딩 벡터 저장 및 유사도 검색 C. 사용자 인증 정보 관리 D. API 요청 로깅

chevron-right정답 보기hashtag

정답: B. 문서 임베딩 벡터 저장 및 유사도 검색

설명: Vector Database는 문서를 임베딩 모델로 변환한 벡터를 저장하고, 쿼리 벡터와 유사한 문서를 빠르게 검색합니다. 이를 통해 LLM이 관련 컨텍스트를 참조하여 더 정확한 응답을 생성합니다.

RAG 파이프라인:

주요 Vector Database:

  • Qdrant, Milvus, Pinecone

  • PostgreSQL + pgvector

  • Elasticsearch (Dense Vector)

4. LangGraph의 주요 특징으로 올바른 것은?

A. 단순 선형 체인만 지원 B. 상태 기반 그래프 워크플로우와 순환(Cycle) 지원 C. 단일 LLM만 사용 가능 D. 메모리 기능 미지원

chevron-right정답 보기hashtag

정답: B. 상태 기반 그래프 워크플로우와 순환(Cycle) 지원

설명: LangGraph는 LangChain 기반의 그래프 워크플로우 프레임워크로, 복잡한 AI 에이전트 로직을 상태 기반 그래프로 구현할 수 있습니다. 순환(Cycle)을 지원하여 반복적인 의사결정 루프를 구현할 수 있습니다.

LangGraph 핵심 개념:

  • StateGraph: 상태를 관리하는 그래프 구조

  • Node: 개별 처리 단계 (LLM 호출, 도구 실행 등)

  • Edge: 노드 간 전이 조건

  • Cycle: 조건부 반복 (예: 자기 반성 루프)

5. Langfuse에서 추적하는 주요 메트릭이 아닌 것은?

A. 토큰 사용량 B. 응답 지연 시간(Latency) C. GPU 온도 D. LLM 호출 비용

chevron-right정답 보기hashtag

정답: C. GPU 온도

설명: Langfuse는 LLM 애플리케이션의 관측성(Observability) 도구로, 토큰 사용량, 지연 시간, 비용 등 LLM 특화 메트릭을 추적합니다. GPU 온도는 인프라 레벨 메트릭으로 DCGM이나 Prometheus에서 수집합니다.

Langfuse 주요 기능:

  • Trace 기반 LLM 호출 추적

  • 토큰 사용량 및 비용 분석

  • 프롬프트 버전 관리

  • 사용자 피드백 수집

  • 품질 평가(Evaluation)

6. Kagent의 주요 목적은 무엇인가요?

A. Kubernetes 클러스터 모니터링 B. AI 에이전트가 Kubernetes API와 상호작용하여 클러스터 관리 자동화 C. 컨테이너 이미지 빌드 D. 네트워크 정책 관리

chevron-right정답 보기hashtag

정답: B. AI 에이전트가 Kubernetes API와 상호작용하여 클러스터 관리 자동화

설명: Kagent는 AI 에이전트가 Kubernetes 클러스터를 이해하고 관리할 수 있게 해주는 프레임워크입니다. 자연어 명령을 Kubernetes API 호출로 변환하고, 클러스터 상태를 분석하여 자동화된 운영을 가능하게 합니다.

Kagent 기능:

  • 자연어 기반 클러스터 관리

  • kubectl 명령어 자동 생성 및 실행

  • 트러블슈팅 자동화

  • 리소스 최적화 권장

7. GPU Time-Slicing과 MIG를 함께 사용할 때의 이점은?

A. 단순히 GPU 수가 두 배로 증가 B. MIG 파티션 내에서 추가적인 Time-Slicing으로 더 세밀한 리소스 분할 C. 메모리 용량이 자동으로 확장 D. 네트워크 대역폭 증가

chevron-right정답 보기hashtag

정답: B. MIG 파티션 내에서 추가적인 Time-Slicing으로 더 세밀한 리소스 분할

설명: MIG로 물리적으로 격리된 GPU 인스턴스를 생성한 후, 각 MIG 인스턴스 내에서 Time-Slicing을 적용하면 더 많은 워크로드를 수용할 수 있습니다.

MIG + Time-Slicing 조합:

이점:

  • MIG의 메모리 격리 + Time-Slicing의 유연성

  • 더 많은 소형 추론 워크로드 수용

  • QoS 보장과 활용률 향상의 균형

8. vLLM의 Continuous Batching이 제공하는 이점은?

A. 배치 크기가 고정됨 B. 새로운 요청이 기존 배치에 동적으로 추가되어 GPU 활용률 향상 C. 단일 요청만 처리 D. CPU에서만 실행됨

chevron-right정답 보기hashtag

정답: B. 새로운 요청이 기존 배치에 동적으로 추가되어 GPU 활용률 향상

설명: Continuous Batching(연속 배칭)은 기존의 정적 배칭과 달리, 진행 중인 배치에 새로운 요청을 동적으로 추가하고 완료된 요청은 즉시 제거합니다. 이를 통해 GPU 활용률을 극대화합니다.

정적 배칭 vs 연속 배칭:

이점:

  • GPU 유휴 시간 최소화

  • 평균 응답 시간 감소

  • 처리량 2-4배 향상

9. RAG 시스템에서 Chunk Size를 결정할 때 고려해야 할 요소가 아닌 것은?

A. 임베딩 모델의 최대 토큰 수 B. LLM의 컨텍스트 윈도우 크기 C. GPU 온도 임계값 D. 문서의 의미적 단위(문단, 섹션)

chevron-right정답 보기hashtag

정답: C. GPU 온도 임계값

설명: Chunk Size는 문서를 분할하는 크기로, 임베딩 모델의 토큰 제한, LLM 컨텍스트 크기, 문서의 의미적 구조를 고려해야 합니다. GPU 온도는 인프라 관련 사항으로 Chunk Size와 관련이 없습니다.

Chunk Size 결정 요소:

  1. 임베딩 모델 제한: 보통 512-8192 토큰

  2. LLM 컨텍스트: 검색된 청크들 + 질문 + 응답이 컨텍스트 내에 들어와야 함

  3. 의미적 완결성: 청크가 의미 있는 정보를 담아야 함

  4. 검색 정확도: 너무 크면 노이즈, 너무 작으면 컨텍스트 부족

권장 Chunk Size:

  • 일반 문서: 500-1000 토큰

  • 기술 문서: 1000-2000 토큰

  • 코드: 함수/클래스 단위

10. EKS에서 vLLM을 오토스케일링할 때 가장 적합한 메트릭은?

A. CPU 사용률 B. 메모리 사용률 C. GPU 사용률 또는 요청 큐 길이 D. 네트워크 트래픽

chevron-right정답 보기hashtag

정답: C. GPU 사용률 또는 요청 큐 길이

설명: LLM 추론은 GPU 집약적 작업이므로 GPU 사용률이나 vLLM의 요청 큐 길이(대기 중인 요청 수)를 기준으로 스케일링하는 것이 가장 효과적입니다.

vLLM 주요 메트릭:

  • vllm_num_requests_running: 현재 처리 중인 요청

  • vllm_num_requests_waiting: 대기 중인 요청

  • vllm_gpu_cache_usage_perc: KV 캐시 사용률

단답형 문제

1. vLLM에서 KV Cache의 역할은 무엇인가요?

chevron-right정답 보기hashtag

정답: 이전에 생성된 토큰의 Key-Value 텐서를 저장하여 새 토큰 생성 시 재계산을 방지하고 추론 속도를 향상시킵니다.

설명: Transformer 모델에서 새 토큰을 생성할 때마다 이전 모든 토큰에 대한 Attention을 계산해야 합니다. KV Cache는 이미 계산된 Key-Value를 저장하여 중복 계산을 방지합니다.

vLLM의 PagedAttention: KV Cache를 페이지 단위로 관리하여 메모리 단편화 방지

2. Langfuse에서 "Trace"와 "Span"의 관계를 설명하세요.

chevron-right정답 보기hashtag

정답:

  • Trace: 하나의 완전한 LLM 작업 흐름 (예: 사용자 질문부터 최종 응답까지)

  • Span: Trace 내의 개별 작업 단위 (예: LLM 호출, 도구 실행, 검색)

Trace는 여러 Span을 포함하는 최상위 컨테이너입니다.

chevron-right정답 보기hashtag

정답: 키워드 기반 검색(BM25 등)과 벡터 유사도 검색(Dense Retrieval)을 결합하여 검색 품질을 향상시키는 방법입니다.

Hybrid Search 장점:

  • 키워드 검색: 정확한 용어 매칭에 강함

  • 벡터 검색: 의미적 유사성에 강함

  • 결합: 두 가지 장점 활용

4. LangGraph에서 "Checkpoint"의 역할은 무엇인가요?

chevron-right정답 보기hashtag

정답: 그래프 실행 중간 상태를 저장하여 워크플로우 중단/재개, 시간 여행(time-travel) 디버깅, 장기 실행 에이전트의 상태 관리를 가능하게 합니다.

Checkpoint 활용:

Checkpoint 사용 사례:

  • 장기 실행 에이전트의 상태 저장

  • 사용자별 대화 컨텍스트 유지

  • 디버깅: 특정 시점으로 돌아가 재실행

  • 장애 복구: 중단된 워크플로우 재개

5. vLLM의 --tensor-parallel-size 옵션의 의미는 무엇인가요?

chevron-right정답 보기hashtag

정답: 모델을 여러 GPU에 분할하여 병렬로 추론을 실행하는 텐서 병렬화 수준을 지정합니다. 큰 모델을 단일 GPU 메모리에 로드할 수 없을 때 사용합니다.

Tensor Parallelism:

요구사항:

  • NVLink 또는 고속 GPU 인터커넥트 권장

  • GPU 수는 2의 거듭제곱 권장 (1, 2, 4, 8)

  • 모든 GPU가 동일한 유형이어야 함

실습 문제

1. vLLM을 EKS에 배포하는 Deployment YAML을 작성하세요.

  • 모델: meta-llama/Llama-2-7b-chat-hf

  • GPU: 1개 (nvidia.com/gpu)

  • 메모리 활용률: 90%

  • OpenAI 호환 API 엔드포인트 노출

chevron-right정답 보기hashtag

테스트 명령어:

2. Langfuse를 Kubernetes에 배포하고 Python 애플리케이션에서 LLM 호출을 추적하는 코드를 작성하세요.

chevron-right정답 보기hashtag

3. LangGraph를 사용하여 RAG 기반 Q&A 에이전트의 워크플로우 그래프를 구현하세요.

  • 노드: retrieve(검색), grade(관련성 평가), generate(응답 생성), rewrite(쿼리 재작성)

  • 관련 문서가 없으면 쿼리를 재작성하여 다시 검색

chevron-right정답 보기hashtag

그래프 시각화:

심화 문제

1. 금융 회사에서 실시간 고객 상담 AI 에이전트를 구축하려고 합니다. vLLM, RAG, LangGraph, Langfuse를 통합한 프로덕션 레벨의 아키텍처를 설계하세요. 고가용성, 응답 품질 모니터링, 비용 최적화 전략을 포함해야 합니다.

chevron-right정답 보기hashtag

금융 고객 상담 AI 에이전트 아키텍처

1. 전체 아키텍처:

2. 고가용성 vLLM 배포:

3. LangGraph 에이전트 워크플로우:

4. 응답 품질 모니터링 (Langfuse):

5. 비용 최적화:

비용 절감 예상:

  • Spot 인스턴스: 온디맨드 대비 60-70% 절감

  • 시간대별 스케일링: 야간 비용 50% 절감

  • 모델 양자화: 동일 성능에서 GPU 50% 절감

  • 캐싱 레이어: 반복 쿼리 처리 비용 30% 절감

2. AI 스타트업에서 다양한 LLM 모델(GPT-4, Claude, Llama, Mistral)을 통합 관리하는 멀티 모델 추론 플랫폼을 EKS에 구축하려고 합니다. Inference Gateway, 모델 라우팅, A/B 테스팅, 비용 최적화 전략을 포함한 플랫폼을 설계하세요.

chevron-right정답 보기hashtag

멀티 모델 추론 플랫폼 설계

1. 아키텍처 개요:

2. Inference Gateway 구성 (Kong):

3. 스마트 모델 라우터:

4. A/B 테스팅 구성:

5. 비용 최적화 전략:

6. 통합 모니터링:

비용 최적화 결과 예상:

  • 스마트 라우팅으로 30-50% 비용 절감

  • 캐스케이드 전략으로 품질 유지하며 20% 추가 절감

  • Self-hosted 모델 활용으로 API 비용 80% 절감

  • A/B 테스팅으로 최적 모델 조합 발견

마지막 업데이트