비용은 시스템 속성, 모델 속성 X
같은 모델이 Provider A vs Provider B vs 너 TGI 박스에서 와일드하게 다른 비용 특성. 네 axis:
- $/1M input tokens, $/1M output tokens — 프로바이더 + 모델-tier 설정.
- Cold start — managed 프로바이더가 zero 로 scale. 첫 요청: 5-30초. 그다음: ms.
- Concurrency — 초당, 분당, 일당 rate limit. Free tier 면 모두랑 공유; paid plan 면 isolated; self-host 면 uncapped.
- Latency — provider region, 네트워크 거리, 모델 크기, batch contention.
재시도, backoff, idempotency
인퍼런스 콜은 idempotent 아님 — sampling 으로 같은 입력이 다른 출력. 그래서: 무작정 재시도 X. 429 면 jitter + exponential backoff. 5xx 면 같은 입력으로 한 번 재시도. 429 외 4xx 면 loud fail. tenacity 라이브러리가 정책 3 줄로 처리.