토큰 경제학과 가격

출력 토큰이 입력 토큰보다 비싸

Gemini 도 다른 모든 메이저 LLM provider 처럼 비대칭 과금 — 출력 토큰이 입력 토큰보다 대략 4–8x 비싸. 생성은 autoregressive — 출력 토큰 하나당 forward pass 한 번씩 도니까 500 토큰 답변 만드는 게 500 토큰 prompt 읽는 것보다 500x 더 무거워. 이 숫자 머리에 박으면 비용 직관이 현실이랑 일치해.

Gemini 2.5 가격 (1M 토큰 당, 2026 년 중반 기준)

모델	입력 ≤ 200K	입력 > 200K	출력 ≤ 200K	출력 > 200K	cached 입력
2.5 Pro	$1.25	$2.50	$10.00	$15.00	$0.125
2.5 Flash	$0.30	$0.30	$2.50	$2.50	$0.03
2.5 Flash-Lite	$0.10	$0.10	$0.40	$0.40	—

이 표에서 두 가지 봐. 첫째, Pro 는 200K 토큰 경계에서 입력 단가가 두 배가 돼. 평균 request 가 195K 근처에서 왔다 갔다 하면 PDF 한 개 더 들어오는 순간 청구서가 2x. 둘째, Flash-Lite 는 출력 토큰당 Pro 보다 대략 22.5x 싸. 트래픽 70% 를 Pro 에서 빼는 게 너가 가진 가장 큰 비용 lever 야.

Free tier, batch API, caching

창의력 아니라 mechanical 하게 청구서 줄이는 도구 셋:

Free tier: 모델당 5–15 RPM, 100–1,000 RPD, 250K TPM 공유. prototype 충분, production 절대 부족. EU/UK/CH 제외.
Batch API: sub-minute 응답 필요 없는 offline job 에 list 가격 50% 할인 (번역, embedding backfill, 요약 파이프라인).
Context caching: 캐시된 content 의 입력 토큰 단가 ~90% 감소. 100K 토큰 doc 한 번 캐시 결제하고, 같은 doc 에 질문 여러 개 던지면 dollar 가 cents 로.

Code

호출당 비용 estimator·python

PRICES = {
    'gemini-2.5-pro':        {'in': 1.25, 'out': 10.00, 'in_long': 2.50, 'out_long': 15.00},
    'gemini-2.5-flash':      {'in': 0.30, 'out':  2.50, 'in_long': 0.30, 'out_long':  2.50},
    'gemini-2.5-flash-lite': {'in': 0.10, 'out':  0.40, 'in_long': 0.10, 'out_long':  0.40},
}

def estimate_cost_usd(model: str, prompt_tokens: int, completion_tokens: int) -> float:
    p = PRICES[model]
    in_rate  = p['in_long']  if prompt_tokens     > 200_000 else p['in']
    out_rate = p['out_long'] if completion_tokens > 200_000 else p['out']
    return (prompt_tokens / 1e6) * in_rate + (completion_tokens / 1e6) * out_rate

# Flash 에 50K doc + 1K 질문 + 800 답변:
# (51_000/1e6 * 0.30) + (800/1e6 * 2.50) = $0.0173

Batch API: 50% off, 비동기 반환·python

from google import genai
client = genai.Client()

# batch job 제출 (offline, 분~시간 후 반환)
job = client.batches.create(
    model='gemini-2.5-flash',
    requests=[
        {'contents': 'Summarize: ' + doc} for doc in big_doc_pile
    ],
)
# job.state 가 DONE 될 때까지 polling; 결과는 job.results.
# sync 호출의 절반 가격. 비대화형 파이프라인이면 무조건 가치 있어.

Exercise

본인이 잘 아는 workload 잡아 — 직장, 사이드 프로젝트, 학교 과제. 추정해: (a) 하루 Gemini 호출 몇 회, (b) 평균 prompt/response 토큰 수, (c) 위 공식으로 Pro/Flash/Flash-Lite 별 일일 비용. 그 다음 어느 모델이 옳은지 고르고 한 문장으로 이유. 사람들이 보통 Pro 필요성을 과대평가해.