가장 큰 lever 한 개
Pro 가 출력 토큰당 Flash-Lite 보다 ~22.5x 비싸. 너 트래픽 대부분 Pro 필요 X. 일상 작업을 Flash-Lite 로, default 작업을 Flash 로, 진짜 필요할 때만 Pro 로 보내는 smart router 가 보통 production 청구서 70–90% 줄여.
Routing 입력
결정이 다음 기반:
- Reasoning 필요? Multi-step logic, code, math → Pro.
- Context 크기? > 200K 토큰 → Pro (Pro 만 long context 잘 핸들; Flash 와 Flash-Lite 가 quality drop hit).
- Tool 사용? 복잡한 multi-tool agentic loop → Pro. 단순 single-tool 호출 → Flash.
- Latency? Sub-500ms 요구사항 → Flash-Lite (가장 작고, 가장 빠른 TTFT).
- Volume? High-volume 단순 작업 → Flash-Lite.
실제 숫자
| 전략 | 상대 비용 | 언제 |
|---|---|---|
| 항상 Pro | 1.0x | 최대 quality, 비용 ceiling 없음 |
| Smart routing | ~0.3x | 대부분 production 앱 |
| Flash-Lite 만 | ~0.04x | High-volume 단순 작업 |
| Caching 활성화 | cached 호출당 ~0.1x | 반복 context (PDF Q&A) |
| Batch API (offline) | 0.5x | Async pipeline |