모든 주요 LLM API는 토큰당 과금하고, input/output 토큰당 비용이 달라. 이거 임의가 아니야 — 공급자가 써야 하는 컴퓨트를 직접 따라가.
| 모델 (2026년 중반 가격) | 입력 ($/1M) | 출력 ($/1M) |
|---|---|---|
| GPT-4o | $2.50 | $10.00 |
| Gemini 2.5 Pro | $1.25 | $10.00 |
| Claude 3.7 Sonnet | $3.00 | $15.00 |
| Gemini 2.5 Flash | $0.30 | $2.50 |
왜 output이 input보다 4-10배 비싸냐
input 토큰은 prefill 단계에서 병렬로 처리돼 — 전체 prompt 위에서 큰 matmul 하나. output 토큰은 순차로 생산되고, 토큰 하나당 모든 layer를 통과하는 풀 forward pass + 점점 커지는 컨텍스트 attend. 토큰당 컴퓨트는 비슷한데, 공유 하드웨어에서 토큰당 throughput은 한 자릿수 차이가 나. 그 격차가 가격에 반영된 거야.
본인 앱에 대한 함의: 긴 컨텍스트가 긴 생성보다 싸. "검색된 문서 잔뜩 넣고 짧은 답 생성"하는 RAG 스타일은 가격 유리하고, "짧은 prompt 넣고 5,000토큰 에세이 생성"은 비싼 shape. feature 설계 시 이 비대칭을 이해하면 어떤 전략이 경제적인지 바뀌어.