단계 3: 근본 원인 분석

조사 콘솔 탐색

조사 콘솔을 처음 열면 다음과 같은 화면이 표시됩니다:

이것은 문제를 분류하고 조사하기 위한 메인 콘솔입니다.

에이전트 큐

오른쪽 상단의 Agent queue 버튼을 클릭하여 에이전트 큐를 엽니다:

에이전트가 문제와 관련하여 조사하고 있는 리소스 목록과 수행할 계획된 작업을 포함합니다. 브라우저를 사용하여 이전 화면으로 돌아갑니다.

주요 발견 사항 (Key Findings)

텔레메트리 검토 중 발견된 모든 이상 항목입니다. 각 주요 발견 사항은 순차적으로 나열되며 운영자는 삭제하거나 피드백을 제공하고, 관찰 내용을 검토할 수 있습니다:

각 발견 사항의 상세 관찰 내용:

가설 확인

AI가 수집한 데이터를 기반으로 근본 원인 가설을 생성합니다:

가설 상세

가설 간 전환이 가능합니다:

가설 추론

이 가설을 도출한 지원 데이터를 확인합니다. 수락 또는 거부할 수 있습니다:

근본 원인 예시

The root cause is an IAM permission misconfiguration where the
batch-processing-stack-BatchProcessingLambdaRole lacks sqs:sendmessage
permissions on the batch-processing-stack-batch-processing-queue.
This caused AccessDenied errors when the Lambda function attempted
SQS SendMessageBatch operations.

제안된 조치

문제 해결을 위한 구체적인 작업:

개념 분석: AI 분석 프로세스

Investigation 처리 파이프라인

AI 분석의 핵심 단계

단계

설명

이 시나리오에서

1. 텔레메트리 수집

관련 메트릭, 로그, 트레이스 수집

ALB 5XX, Lambda 로그, CloudTrail

2. 이상 감지

정상 범위를 벗어난 패턴 식별

5XX 오류 급증, SQS 전송 0

3. 상관 분석

시간축 기준으로 이벤트 연결

5XX 증가 시점 = IAM 변경 시점

4. 가설 생성

근본 원인 후보 도출

"IAM 권한 오구성"

5. 증거 평가

각 가설의 지지 증거 강도 평가

CloudTrail AccessDenied 로그

6. 제안 생성

문제 해결을 위한 구체적 조치

IAM 정책에 sqs:SendMessage 추가

가설 평가 기준

AI는 다음 기준으로 가설의 신뢰도를 평가합니다:

기준

설명

시간 상관성

이상 발생 시점과 변경 이벤트의 시간 일치도

인과 관계

원인(IAM 변경)과 결과(5XX 오류)의 논리적 연결

증거 일관성

여러 텔레메트리 소스에서의 일관된 증거

영향 범위

가설이 관찰된 모든 증상을 설명하는지 여부

이 시나리오의 근본 원인 분석 경로

관찰: ALB 5XX 오류 급증
  ↓ CloudWatch Logs 분석
발견: Lambda에서 AccessDenied 예외
  ↓ CloudTrail 이벤트 조회
발견: sqs:SendMessageBatch AccessDenied
  ↓ IAM 정책 변경 이력 확인
결론: BatchProcessingLambdaRole에 sqs:SendMessage
      권한이 Deny 정책으로 차단됨
  ↓ 제안
조치: IAM 정책에서 Deny 규칙 제거

핵심 포인트: CloudWatch Investigations의 AI는 단일 메트릭이 아닌 다중 텔레메트리 상관 분석을 수행합니다. ALB 메트릭만으로는 원인을 알 수 없지만, Lambda 로그 + CloudTrail + SQS 메트릭을 시간축으로 연결하면 IAM 권한 문제라는 근본 원인이 도출됩니다.

이전단계 2: 실패 트리거 및 조사 시작 다음단계 4: 문제 해결 및 인시던트 보고서

마지막 업데이트 16일 전

hashtag조사 콘솔 탐색

hashtag에이전트 큐

hashtag주요 발견 사항 (Key Findings)

hashtag가설 확인

hashtag가설 상세

hashtag가설 추론

hashtag근본 원인 예시

hashtag제안된 조치

hashtag개념 분석: AI 분석 프로세스

hashtagInvestigation 처리 파이프라인

hashtagAI 분석의 핵심 단계

hashtag가설 평가 기준

hashtag이 시나리오의 근본 원인 분석 경로