모듈 2 개요

도전 과제

항목
내용

과제

인시던트 대응 자동화

시나리오

대량 이미지 처리 실패로 5XX 오류 발생

접근 방식

Lambda와 SQS 큐 간 IAM 정책 거부 도입

결과

CloudWatch Investigations가 IAM 권한 오구성 자동 식별

학습 내용

  • CloudWatch Investigations 활성화 및 구성

  • AI 기반 근본 원인 분석 수행

  • Investigation Groups를 통한 리소스 범위 관리

  • 인시던트 보고서 자동 생성

아키텍처

모듈 2 CloudWatch Investigations 아키텍처

CloudWatch Investigations 기능

기능
설명

자동화된 분석

로그, 메트릭, 트레이스 및 이벤트 전반에 걸친 AI 기반 상관 분석

지능형 근본 원인 식별

머신 러닝 + AWS 서비스 전문성

가이드된 해결

문제 해결을 위한 구체적이고 실행 가능한 단계

통합 워크플로우

기존 모니터링과의 원활한 통합

단계
기존 방식
AI Investigation

데이터 수집

수동으로 메트릭/로그 검색

자동 수집 (관련 신호 탐지)

상관관계 분석

경험 기반 추론

AI 기반 패턴 분석

근본 원인

시행착오로 파악

가설 자동 생성

문서화

수동 리포트 작성

인시던트 리포트 자동 생성

워크플로우 (~20분)

단계
작업

1

CloudWatch Investigations 구성

2

실패 트리거 및 조사 시작

3

근본 원인 분석

4

문제 해결 및 인시던트 보고서

마지막 업데이트