Breakpoint 넷, 현명하게
요청당 cache_control: ephemeral breakpoint 4개까지. 클래식 분리 — (1) 시스템 프롬프트 persona/policy, (2) tools 리스트, (3) static 문서(이 세션엔 안 변하는 RAG 컨텍스트), (4) 초기 대화 history. 각 breakpoint가 다음에 가장 자주 변하는 거 자르는 곳.
TTL과 5분 윈도우
Ephemeral cache 디폴트 TTL 5분. 호출이 bursty면 충분. 호출 sparse면 read보다 write 더 자주 — caching 도움 주장 전 측정.
순서가 사람들 생각보다 중요
Cache가 안정 prefix 보상. Assistant 마지막 응답이 같은 길이지만 살짝 reorder된 텍스트면 cache hit 잃음. 프롬프트 구성을 deterministic으로 다뤄 — 같은 input이면 same byte-for-byte prefix out.
원칙: 안정 prefix cache. 프롬프트 앞을 의도적으로 boring하게. Cache hit을 usage telemetry로 verify, 믿음 X.