숫자 움직이고; 구조 stable
Pricing 변화; rate limit 변화; category 안 변해. 각 provider 갖춰: input 토큰, output 토큰, cached input 토큰, image 토큰, audio 토큰, reasoning 토큰 — 각자 자기 청구서. Rate limit이 RPM (requests per minute), TPM (tokens per minute), 모델당 concurrency cap으로 존재.
Cost intuition (quote 전 라이브 숫자 체크)
- Top-tier (Opus / GPT-5.5 / Gemini 2.5 Pro)가 input에 output보다 약 5–15× cheaper, reasoning 토큰 별도 billed.
- Mid-tier (Sonnet / GPT-5.5-mini / Gemini Flash)가 비슷한 throughput에 top-tier보다 보통 3–10× cheaper.
- Cached input이 normal input의 5–25%.
- Open-source per-call이 amortized compute; 청구서가 utilization에서, per-token rate 아니라.
Rate limit trap
- Burst pattern이 TPM 다 쓰기 전에 RPM limit hit. Traffic smooth.
- Long-context call이 throughput 제시하는 것보다 빨리 TPM budget 먹어.
- 일부 provider가 top-tier 모델을 tier-up requirement 뒤에 gate.