Observability 알림 설정

지원 버전: Prometheus 2.50+, Alertmanager 0.27+, kube-prometheus-stack 50+ 마지막 업데이트: 2026년 2월 23일

< 이전: 스케일링 전략 | 목차 | 다음: 관측성 분석 >


목차


알림 아키텍처

알림 흐름 개요

Kubernetes 환경에서 효과적인 알림 시스템은 운영 가시성과 신속한 장애 대응의 핵심입니다. Prometheus와 Alertmanager를 기반으로 한 알림 아키텍처는 다음과 같은 흐름으로 동작합니다.

알림 아키텍처

Alert Severity 레벨

알림 심각도(Severity)는 운영 팀의 대응 우선순위를 결정합니다.

Severity
설명
대응 시간
알림 채널

critical

서비스 중단 또는 데이터 손실 위험

즉시 (5분 이내)

PagerDuty, Phone

warning

성능 저하 또는 잠재적 문제

업무 시간 내

Slack, Email

info

정보성 알림, 모니터링 목적

주간 리뷰

Email, Dashboard

알림 라이프사이클

알림 라이프사이클
  • Inactive: 알림 조건이 충족되지 않은 상태

  • Pending: 알림 조건이 충족되었지만 for 기간이 경과하지 않은 상태

  • Firing: 알림이 발생하여 Alertmanager로 전송된 상태

  • Resolved: 알림 조건이 해소되어 종료된 상태

PrometheusRule CRD 개요

PrometheusRule은 Prometheus Operator에서 관리하는 Custom Resource로, 알림 및 레코딩 규칙을 선언적으로 정의합니다.


네트워크 알림

네트워크 문제는 클러스터 통신과 서비스 가용성에 직접적인 영향을 미칩니다. 다음은 핵심 네트워크 메트릭에 대한 알림 규칙입니다.

패킷 드롭 감지

네트워크 인터페이스에서 패킷 드롭이 발생하면 네트워크 혼잡, 하드웨어 문제, 또는 버퍼 오버플로우를 의미할 수 있습니다.

대역폭 포화 감지

네트워크 대역폭 포화는 서비스 지연과 타임아웃의 주요 원인입니다.

VPC CNI 및 ENI 알림

Amazon EKS 환경에서 VPC CNI 플러그인 관련 문제를 감지합니다.

DNS 해석 오류 알림

CoreDNS 오류는 클러스터 내 서비스 디스커버리에 직접적인 영향을 미칩니다.

네트워크 정책 거부 추적

NetworkPolicy로 인한 트래픽 거부를 모니터링합니다.

전체 네트워크 알림 규칙


CPU 알림

CPU 관련 문제는 애플리케이션 성능에 직접적인 영향을 미칩니다. 특히 CPU 스로틀링은 컨테이너 리소스 제한으로 인한 성능 저하의 주요 원인입니다.

CPU 스로틀링 감지

컨테이너가 CPU 리소스 제한에 도달하면 CFS(Completely Fair Scheduler)에 의해 스로틀링됩니다.

노드 CPU 압박 알림

노드 수준의 CPU 사용량 모니터링입니다.

컨테이너 CPU 사용량 대비 요청 비율

시스템 프로세스 CPU 사용량

kubelet, containerd 등 시스템 컴포넌트의 CPU 사용량을 모니터링합니다.

전체 CPU 알림 규칙


디스크 알림

디스크 공간 부족과 I/O 성능 문제는 애플리케이션 장애의 주요 원인입니다. 특히 PersistentVolume 사용량과 inode 고갈을 사전에 감지해야 합니다.

EBS 볼륨 포화 알림

Inode 고갈 알림

파일 시스템의 inode 고갈은 새 파일 생성을 불가능하게 만듭니다.

노드 디스크 압박 알림

Ephemeral Storage 알림

전체 디스크 알림 규칙


Auto Mode 노드 종료 알림

EKS Auto Mode에서 Karpenter가 관리하는 노드의 lifecycle 이벤트를 모니터링합니다. 예상치 못한 노드 종료나 Spot 인터럽션을 신속하게 감지해야 합니다.

Karpenter 노드 종료 알림

Spot 인터럽션 알림

예상치 못한 노드 종료 감지

노드 NotReady 감지

파드 축출 추적

NodePool 용량 알림

전체 Auto Mode 알림 규칙


Alertmanager 설정

Alertmanager는 Prometheus에서 발생한 알림을 수신하여 중복 제거, 그룹화, 라우팅을 수행하고 적절한 채널로 전달합니다.

전체 Alertmanager 설정

Slack 메시지 템플릿

Silence 및 Mute 설정

특정 유지보수 기간 동안 알림을 일시적으로 억제할 수 있습니다.

알림 그룹화 전략

효과적인 알림 그룹화는 알림 피로를 줄이고 운영 효율성을 높입니다.


참고 자료


관련 문서


< 이전: 스케일링 전략 | 목차 | 다음: 관측성 분석 >

마지막 업데이트