Failure 클래스 셋, 응답 셋
Claude API failure가 permanent(4xx — 너 버그, retry X), transient(5xx, 529 — backoff와 retry), rate-limited(429 — retry-after대로 retry)로 떨어져. SDK가 예산까지 auto-retry; 그 너머는 너 결정.
Upstream outage엔 circuit breaker
Claude API degraded일 때 즉시 retry는 상황 더 나쁘게. N 연속 failure 후 open, cool-down 동안 open 유지, 그다음 half-open으로 recovery 테스트하는 circuit breaker가 service amplifying outage 방지. Fallback(Haiku, Bedrock의 Sonnet, queued retry)와 페어.
cwkPippa는 일일 약 4시간 degraded와 살아
실세계 Claude availability 높지만 완벽 X. cwkPippa 메모리 룰 — 일일 ~4시간 degraded 정상. Fallback chain(Codex → Claude → Gemini)이 v1 must-have, v2 nice-to-have X. 프로덕션 디자인이 upstream fail 가정; 질문은 얼마나 우아하게.
원칙: Retry는 unreliability 안 고쳐. Circuit breaker와 fallback path가 unreliability 고쳐. Retry는 transient blip 고쳐.