Context caching — 90% 할인
같은 긴 context (PDF, 코드베이스, transcript) 에 질문 여러 개 던질 거면 context 한 번 결제로 cache, 그 다음 각 질문은 토큰당 비용 ~10%. Flash 의 실제 숫자: 일반 입력 $0.30/M → cached 입력 $0.03/M.
Cache 가능 최소 크기
- Flash: 1,024 토큰 최소.
- Pro: 4,096 토큰 최소.
최소 미만이면 caching 이 no-op — full 입력 단가 결제.
TTL 설정 가능
Default 는 1 시간. ttl='300s' (또는 어떤 duration string) 로 세팅. Cache 가 토큰-시간 당 billing 이라 큰 context 의 긴 TTL 이 그 자체로 비용. 실제 재사용 window 에 TTL 매칭.
한 호출 넘어서 사는 파일에 File API
Multimodal lesson 의 같은 File API. 파일 48 시간 persist, 그 window 동안 multiple cache 또는 generation 호출에 attach 가능.