EKS 복원력과 고가용성
목차
복원력 개요와 성숙도 모델
복원력의 정의
4단계 성숙도 모델
Level
이름
장애 범위
복구 시간
핵심 기술
Level 1: 기본 복원력 (Pod-level)
Liveness/Readiness/Startup Probes
Resource Limits 설정
기본 PodDisruptionBudget
Multi-AZ 전략 (Level 2)
Pod Topology Spread Constraints
Hard Constraint (강제 분산)
Soft Constraint (선호 분산)
Hard와 Soft 결합
파라미터
설명
Karpenter Multi-AZ Node Provisioning
NodePool 설정
Spot과 On-Demand 혼합 전략
ARC Zonal Shift
Zonal Autoshift 구성
수동 Zonal Shift 실행
스토리지 고려사항
WaitForFirstConsumer StorageClass
EFS for Cross-AZ Access
Istio Locality-Aware Routing
Cell-Based Architecture (Level 3)
Cell의 정의
Cell 파티셔닝 전략
전략
설명
장점
단점
Namespace 기반 Cell 구현
Cluster 기반 Cell 구현
Shuffle Sharding
Multi-Cluster/Multi-Region (Level 4)
아키텍처 패턴 비교
패턴
RTO
RPO
비용
복잡성
사용 사례
Global Accelerator 구성
ArgoCD ApplicationSet for Multi-Cluster Deployment
Cluster Generator
Git Directory Generator
Matrix Generator (클러스터 x 환경)
Istio Multi-Primary Federation
애플리케이션 복원력 패턴
PodDisruptionBudgets
minAvailable 방식
maxUnavailable 방식
비율 기반 PDB
Graceful Shutdown
Circuit Breaker via Istio
Retry/Timeout 정책
카오스 엔지니어링
AWS Fault Injection Service (FIS)
Pod 삭제 실험
AZ 장애 시뮬레이션
네트워크 지연 실험
Litmus Chaos (CNCF Incubating)
Litmus 설치
Pod 삭제 ChaosExperiment
Node Termination Experiment
DNS Chaos Experiment
Chaos Mesh
Chaos Mesh 설치
Network Partition
I/O Chaos
Time Manipulation
Game Day Framework
단계
활동
산출물
구현 체크리스트
Level 1: 기본 복원력 체크리스트
Level 2: Multi-AZ 체크리스트
Level 3: Cell-Based 체크리스트
Level 4: Multi-Region 체크리스트
비용 고려사항
항목
비용 영향
절감 전략
다음 단계
관련 문서
추가 학습 리소스
핵심 요약
마지막 업데이트