쿼터는 티어별·org별 예산
Anthropic Console org 마다 레이트리밋이 분당 요청 수(RPM), 분당 입력 토큰(ITPM), 분당 출력 토큰(OTPM)으로, 각 모델별로 따로 잡혀. 새 org는 낮은 사용량 티어에서 시작하고 지출·계정 이력 따라 올라가. 현재 티어를 아는 건 capacity 플래닝의 일부지 출시일 깜짝쇼 아니야.
Bedrock·Vertex는 모양이 달라
Bedrock은 AWS 계정·리전마다 쿼터, AWS support로 올림. Vertex는 GCP 프로젝트마다 쿼터, GCP support로 올림. 직접 API 용량 계산이 두 클라우드에 그대로 옮겨가지 않아 — throughput 약속하기 전에 클라우드 콘솔에서 다시 확인.
429 떨어졌을 때
레이트리밋 걸리면 429 Too Many Requests에 retry-after 헤더가 같이 떨어져. SDK가 디폴트 재시도 예산까지 자동으로 따라줘. 그 이상은 코드 책임 — 백오프, 큐, drop, degrade 중 하나, 트래픽이 강제로 고르게 하기 전에 미리 골라.
원칙: Capacity는 프로덕트 기능이야. 쿼터 티어랑 리전 지연을 아키텍처 입력으로 다뤄, 배포일 깜짝쇼 말고.