같은 idea, 다른 손잡이
OpenAI prompt caching은 적합 prompt에 자동, usage에 cached_tokens 노출. Anthropic은 명시적 cache_control breakpoint 사용, cache_creation_input_tokens와 cache_read_input_tokens 보고. Gemini는 implicit/explicit context caching 자체 token threshold + TTL behavior.
Portable idea, provider-specific 구현
Portable idea는 stable prefix 재사용. Provider-specific 구현 변함. 앱은 idea 중심으로 설계, adapter layer를 provider에 adapt. 한 provider caching mechanism hardcode하는 앱은 두 번째 추가하면 매우 awkward.
Abstraction을 정직하게
Provider detail 다 숨기지 마. Telemetry는 어느 provider, model, cache mode, cached token count 썼는지 기록. 차이 존재; 없는 척하면 최악의 버그 생성 — provider A엔 작동, B엔 silently 실패.