출력 토큰이 입력 토큰보다 비싸
Gemini 도 다른 모든 메이저 LLM provider 처럼 비대칭 과금 — 출력 토큰이 입력 토큰보다 대략 4–8x 비싸. 생성은 autoregressive — 출력 토큰 하나당 forward pass 한 번씩 도니까 500 토큰 답변 만드는 게 500 토큰 prompt 읽는 것보다 500x 더 무거워. 이 숫자 머리에 박으면 비용 직관이 현실이랑 일치해.
Gemini 2.5 가격 (1M 토큰 당, 2026 년 중반 기준)
| 모델 | 입력 ≤ 200K | 입력 > 200K | 출력 ≤ 200K | 출력 > 200K | cached 입력 |
|---|---|---|---|---|---|
| 2.5 Pro | $1.25 | $2.50 | $10.00 | $15.00 | $0.125 |
| 2.5 Flash | $0.30 | $0.30 | $2.50 | $2.50 | $0.03 |
| 2.5 Flash-Lite | $0.10 | $0.10 | $0.40 | $0.40 | — |
이 표에서 두 가지 봐. 첫째, Pro 는 200K 토큰 경계에서 입력 단가가 두 배가 돼. 평균 request 가 195K 근처에서 왔다 갔다 하면 PDF 한 개 더 들어오는 순간 청구서가 2x. 둘째, Flash-Lite 는 출력 토큰당 Pro 보다 대략 22.5x 싸. 트래픽 70% 를 Pro 에서 빼는 게 너가 가진 가장 큰 비용 lever 야.
Free tier, batch API, caching
창의력 아니라 mechanical 하게 청구서 줄이는 도구 셋:
- Free tier: 모델당 5–15 RPM, 100–1,000 RPD, 250K TPM 공유. prototype 충분, production 절대 부족. EU/UK/CH 제외.
- Batch API: sub-minute 응답 필요 없는 offline job 에 list 가격 50% 할인 (번역, embedding backfill, 요약 파이프라인).
- Context caching: 캐시된 content 의 입력 토큰 단가 ~90% 감소. 100K 토큰 doc 한 번 캐시 결제하고, 같은 doc 에 질문 여러 개 던지면 dollar 가 cents 로.