단계 3: 근본 원인 분석

조사 콘솔 탐색

조사 콘솔을 처음 열면 다음과 같은 화면이 표시됩니다:

조사 피드

이것은 문제를 분류하고 조사하기 위한 메인 콘솔입니다.

에이전트 큐

오른쪽 상단의 Agent queue 버튼을 클릭하여 에이전트 큐를 엽니다:

에이전트 큐

에이전트가 문제와 관련하여 조사하고 있는 리소스 목록과 수행할 계획된 작업을 포함합니다. 브라우저를 사용하여 이전 화면으로 돌아갑니다.

주요 발견 사항 (Key Findings)

텔레메트리 검토 중 발견된 모든 이상 항목입니다. 각 주요 발견 사항은 순차적으로 나열되며 운영자는 삭제하거나 피드백을 제공하고, 관찰 내용을 검토할 수 있습니다:

Key Findings

각 발견 사항의 상세 관찰 내용:

Key Findings 관찰

가설 확인

AI가 수집한 데이터를 기반으로 근본 원인 가설을 생성합니다:

가설 버튼

가설 상세

가설 간 전환이 가능합니다:

가설 전환

가설 추론

이 가설을 도출한 지원 데이터를 확인합니다. 수락 또는 거부할 수 있습니다:

가설 추론

근본 원인 예시

제안된 조치

문제 해결을 위한 구체적인 작업:

가설 제안
가설 조치 보기

개념 분석: AI 분석 프로세스

Investigation 처리 파이프라인

AI 분석의 핵심 단계

단계
설명
이 시나리오에서

1. 텔레메트리 수집

관련 메트릭, 로그, 트레이스 수집

ALB 5XX, Lambda 로그, CloudTrail

2. 이상 감지

정상 범위를 벗어난 패턴 식별

5XX 오류 급증, SQS 전송 0

3. 상관 분석

시간축 기준으로 이벤트 연결

5XX 증가 시점 = IAM 변경 시점

4. 가설 생성

근본 원인 후보 도출

"IAM 권한 오구성"

5. 증거 평가

각 가설의 지지 증거 강도 평가

CloudTrail AccessDenied 로그

6. 제안 생성

문제 해결을 위한 구체적 조치

IAM 정책에 sqs:SendMessage 추가

가설 평가 기준

AI는 다음 기준으로 가설의 신뢰도를 평가합니다:

기준
설명

시간 상관성

이상 발생 시점과 변경 이벤트의 시간 일치도

인과 관계

원인(IAM 변경)과 결과(5XX 오류)의 논리적 연결

증거 일관성

여러 텔레메트리 소스에서의 일관된 증거

영향 범위

가설이 관찰된 모든 증상을 설명하는지 여부

이 시나리오의 근본 원인 분석 경로

circle-info

핵심 포인트: CloudWatch Investigations의 AI는 단일 메트릭이 아닌 다중 텔레메트리 상관 분석을 수행합니다. ALB 메트릭만으로는 원인을 알 수 없지만, Lambda 로그 + CloudTrail + SQS 메트릭을 시간축으로 연결하면 IAM 권한 문제라는 근본 원인이 도출됩니다.

마지막 업데이트