CloudWatch Metrics

마지막 업데이트: 2026년 2월 20일

목차

소개

Amazon CloudWatch는 AWS의 네이티브 모니터링 및 관측성 서비스입니다. EKS 환경에서 CloudWatch를 사용하면 별도의 모니터링 인프라 없이 AWS 서비스들과 통합된 메트릭 수집, 알림, 대시보드 기능을 활용할 수 있습니다.

주요 특징

특징
설명

완전 관리형

인프라 관리 불필요

AWS 네이티브 통합

EC2, EKS, RDS 등 자동 연동

Container Insights

컨테이너/파드 수준 모니터링

이상 탐지

ML 기반 자동 이상 탐지

Metric Math

수학 표현식으로 메트릭 계산

통합 대시보드

로그, 메트릭, 트레이스 통합

글로벌 가용성

모든 AWS 리전 지원

CloudWatch vs 오픈소스 솔루션

spinner
항목
CloudWatch
Prometheus/VM

운영 오버헤드

없음

있음

비용 모델

사용량 기반

인프라 기반

확장성

자동

수동 설정

쿼리 언어

Metric Math

PromQL/MetricsQL

멀티클라우드

AWS 전용

클라우드 중립

커스터마이징

제한적

완전 자유

Container Insights 개요

Container Insights는 EKS 클러스터의 컨테이너화된 워크로드를 모니터링하기 위한 CloudWatch 기능입니다.

아키텍처

spinner

수집되는 메트릭

클러스터 수준:

  • cluster_node_count - 노드 수

  • cluster_failed_node_count - 실패한 노드 수

  • cluster_cpu_utilization - CPU 사용률

  • cluster_memory_utilization - 메모리 사용률

노드 수준:

  • node_cpu_utilization - 노드 CPU 사용률

  • node_memory_utilization - 노드 메모리 사용률

  • node_network_total_bytes - 네트워크 총 바이트

  • node_filesystem_utilization - 파일시스템 사용률

파드/컨테이너 수준:

  • pod_cpu_utilization - 파드 CPU 사용률

  • pod_memory_utilization - 파드 메모리 사용률

  • pod_network_rx_bytes - 수신 네트워크 바이트

  • pod_network_tx_bytes - 송신 네트워크 바이트

  • container_cpu_utilization - 컨테이너 CPU 사용률

  • container_memory_utilization - 컨테이너 메모리 사용률

Container Insights 활성화

CloudWatch Agent 구성

IRSA 설정

DaemonSet 배포

Enhanced Container Insights

Enhanced Container Insights는 추가 메트릭과 더 세분화된 모니터링을 제공합니다.

추가 메트릭:

  • pod_cpu_reserved_capacity - 예약된 CPU 용량

  • pod_memory_reserved_capacity - 예약된 메모리 용량

  • node_cpu_reserved_capacity - 노드 예약 CPU

  • node_memory_reserved_capacity - 노드 예약 메모리

  • GPU 메트릭 (NVIDIA GPU 사용 시)

커스텀 메트릭 수집

CloudWatch Agent로 Prometheus 메트릭 수집

CloudWatch Agent는 Prometheus 형식의 메트릭을 수집하여 CloudWatch로 전송할 수 있습니다.

AWS Distro for OpenTelemetry (ADOT)

ADOT를 사용하면 Prometheus 메트릭을 CloudWatch로 전송할 수 있습니다.

SDK를 통한 커스텀 메트릭 전송

Metric Math 및 이상 탐지

Metric Math

Metric Math를 사용하면 여러 메트릭을 수학적으로 조합할 수 있습니다.

주요 Metric Math 함수:

실용적인 예시:

이상 탐지 (Anomaly Detection)

CloudWatch Anomaly Detection은 ML 기반으로 비정상적인 메트릭 패턴을 자동으로 감지합니다.

Terraform으로 이상 탐지 설정

대시보드 생성

CloudFormation으로 대시보드 생성

Terraform으로 대시보드 생성

알림 설정

기본 알림 규칙

Terraform 알림 설정

비용 최적화

CloudWatch 비용 구조

항목
비용 (ap-northeast-2)

커스텀 메트릭

$0.30/메트릭/월 (처음 10,000개)

GetMetricData API

$0.01/1,000 메트릭 요청

대시보드

$3.00/대시보드/월 (처음 3개 무료)

로그 수집

$0.76/GB

로그 저장

$0.0314/GB/월

알림

무료 (처음 10개), $0.10/알림/월

비용 최적화 전략

spinner

1. 메트릭 수집 최적화

2. 로그 보존 정책

3. Infrequent Access 로그 클래스 활용

비용 모니터링

모범 사례

1. 네임스페이스 전략

2. 차원 설계

3. 알림 설계

문제 해결

일반적인 문제

1. 메트릭이 표시되지 않음

2. 높은 비용

3. 알림이 트리거되지 않음

디버깅 명령어

참고 자료

퀴즈

이 장에서 배운 내용을 테스트하려면 CloudWatch Metrics 퀴즈를 풀어보세요.

마지막 업데이트