Part 2: Observability 스택

난이도: 고급 (Advanced) 예상 소요 시간: 90분 마지막 업데이트: 2026년 2월 23일

학습 목표

  • 메트릭, 로그, 트레이스 3대 축 Observability 스택 구축

  • OpenTelemetry Collector 중앙 파이프라인 구성

  • 다중 백엔드 fan-out 아키텍처 구현

아키텍처 개요

spinner

Step 2.1: OpenTelemetry Collector 배포

OTel Collector 아키텍처

배포 모드
역할
위치

DaemonSet (Agent)

노드별 텔레메트리 수집

Service Cluster

Deployment (Gateway)

중앙 집중식 처리 및 export

Managed Cluster

Step 2.1.1: OTel Operator 설치

# Managed Cluster로 전환
kubectl config use-context managed

# cert-manager 설치 (OTel Operator 의존성)
kubectl apply -f https://github.com/cert-manager/cert-manager/releases/download/v1.14.4/cert-manager.yaml

# cert-manager Ready 대기
kubectl wait --for=condition=Available deployment/cert-manager -n cert-manager --timeout=300s
kubectl wait --for=condition=Available deployment/cert-manager-webhook -n cert-manager --timeout=300s

# OTel Operator 설치
kubectl apply -f https://github.com/open-telemetry/opentelemetry-operator/releases/latest/download/opentelemetry-operator.yaml

# Operator Ready 대기
kubectl wait --for=condition=Available deployment/opentelemetry-operator-controller-manager -n opentelemetry-operator-system --timeout=300s

Step 2.1.2: OTel Collector Gateway 배포 (Managed Cluster)

Step 2.1.3: OTel Collector Agent 배포 (Service Cluster)


Step 2.2: Metrics 스택 배포

2.2.1 kube-prometheus-stack (Prometheus + Alertmanager + Grafana)

2.2.2 VictoriaMetrics

2.2.3 Mimir

2.2.4 CloudWatch Metrics (ADOT)


Step 2.3: Logging 스택 배포

2.3.1 Loki (SimpleScalable mode)

2.3.2 ClickHouse

2.3.3 OpenSearch (FluentBit)

2.3.4 CloudWatch Logs (FluentBit)


Step 2.4: Tracing 스택 배포

2.4.1 Tempo

2.4.2 X-Ray (OTel Collector Exporter)

X-Ray는 OTel Collector Gateway 설정에 이미 포함되어 있습니다. 추가 IRSA 설정만 진행합니다.


Step 2.5: Visualization 구성

2.5.1 Grafana Datasource Provisioning

2.5.2 Amazon Managed Grafana 설정

2.5.3 Exemplar 설정


Step 2.6: Alerting 기본 구성

2.6.1 Alertmanager + SNS Receiver

2.6.2 Grafana OnCall 설치

2.6.3 CloudWatch Alarms


검증 (Verification)

Observability 스택 상태 확인

Grafana Explore 테스트

확인 항목
Datasource
테스트 쿼리

Metrics

Prometheus

up

Metrics

AMP

up{cluster="obs-managed-cluster"}

Logs

Loki

{namespace="monitoring"}

Traces

Tempo

Service 선택 후 Search

예상 결과

컴포넌트
Pod 수
상태

OTel Gateway

2

Running

Prometheus

2

Running

Alertmanager

2

Running

Grafana

2

Running

Loki (read)

2

Running

Loki (write)

3

Running

Tempo

1

Running

VictoriaMetrics

6+

Running

Mimir

10+

Running

ClickHouse

1

Running

FluentBit

DaemonSet

Running


참조 문서


다음 단계

Observability 스택 배포가 완료되었습니다. Part 3: MSA 배포 및 카나리로 진행하여 애플리케이션을 배포하고 텔레메트리 수집을 확인합니다.

마지막 업데이트