관측성 최적화 가이드
목차
1. 관측성 3대 축 개요
1.1 로깅, 메트릭, 트레이싱의 관계
1.2 각 축의 역할과 선택 기준
축
주요 역할
질문 유형
데이터 볼륨
비용 특성
1.3 EKS 관측성 아키텍처 전체 그림
2. 로깅 솔루션 비교
2.1 로그 저장소 비교
기준
CloudWatch Logs
OpenSearch
Loki
ClickHouse
2.2 로그 에이전트 비교
기준
Fluent Bit
Fluentd
Vector
2.3 EKS에서 Fluent Bit + Loki 구성 예제
3. 메트릭 수집 및 저장
3.1 메트릭 저장소 비교
기준
Prometheus
VictoriaMetrics
AMP (Amazon Managed Prometheus)
3.2 Cardinality 관리 전략
3.3 Recording Rules로 쿼리 성능 개선
3.4 장기 저장 전략
4. 분산 트레이싱
4.1 OpenTelemetry 개요 및 아키텍처
4.2 트레이싱 백엔드 비교
기준
Grafana Tempo
Jaeger
AWS X-Ray
4.3 샘플링 전략
4.4 EKS에서 OTel Collector DaemonSet 구성
5. eBPF 기반 No-Code 모니터링
5.1 왜 eBPF 모니터링인가
특성
전통적 계측
eBPF 계측
5.2 Coroot: 자동 서비스 맵 및 지연 시간 분석
5.3 Pixie (현재 New Relic): Kubernetes 특화 관측성
5.4 Cilium Hubble: 네트워크 흐름 관찰
5.5 Kepler: 에너지 소비 모니터링
6. 비용 모니터링
6.1 KubeCost / OpenCost 설치 및 구성
6.2 네임스페이스/팀별 비용 할당
6.3 CloudWatch 비용 최적화
6.4 로그/메트릭 저장 비용 절감 전략
전략
적용 대상
예상 절감
7. 통합 관측성 대시보드
7.1 Grafana 기반 통합 대시보드 구성
7.2 로그 -> 메트릭 -> 트레이스 연계 (Exemplars)
7.3 알림 전략: 경고 피로 방지
7.4 SLO/SLI 기반 모니터링
8. 운영 과제와 해결 방법
8.1 로그/메트릭 저장 비용 폭증 대응
문제 상황
원인
해결 방법
8.2 EKS Auto Mode 노드 모니터링
8.3 도구 간 데이터 상관관계 분석
8.4 대규모 클러스터에서 모니터링 시스템 성능 유지
8.5 고가용성 관측성 스택 구성
9. 모범 사례와 다음 단계
9.1 단계별 도입 전략
단계
구성 요소
소요 기간
비용
운영 복잡도
9.2 비용 대비 효과 분석
도구 조합
월 예상 비용 (100노드)
기능 커버리지
ROI
9.3 체크리스트
9.4 관련 문서 및 퀴즈
참고 자료
마지막 업데이트