숫자가 case 만든다
Caching 논리는 실제 워크플로 산수 하면 즉시 명백. 50K-token codebase review가 8K-token feedback 만드는 게 illustrative Sonnet pricing($3/M input, $15/M output, $0.30/M cached input)에서 본다.
세 시나리오
시나리오 A — single shot: 50K input × $3/M + 8K output × $15/M = $0.27.
시나리오 B — 10 follow-up turn, no caching: history 매 turn 자라 (~50K → ~100K), input 지배 → ~$3.50 input + ~$1.20 output = ~$4.70.
시나리오 C — 10 follow-up turn, caching: 안정적 prefix(~45K) cached, fresh input ~5K per turn → ~$0.40 input + ~$1.20 output = ~$1.60. 같은 대화, 3배 저렴.
Caching 가장 빨리 payback되는 곳
큰 stable prefix(rules + tool schemas + corpus), 많은 short follow-up turn, short variable tail 워크플로. Coding agent, customer-support bot, long research chat이 canonical 승리. Single-shot one-off prompt는 거의 이득 X.