OpenAI 는 character 단위가 아니라 token 단위로 과금해. 영어 평균 ~4 char/token, 한국어/일본어는 더 hot 하게 — 1000-character 한글 프롬프트가 600+ token 나올 수 있어 (영어 감각으로 어림한 길이의 약 2배).
실전 함의
Multi-lingual 앱은 같은 동작이 언어별로 cost 가 크게 달라져. 언어별로 budget 잡거나, prompt caching 으로 system-prompt 부분을 amortize 하는 게 답이야. tiktoken 으로 미리 측정해 — 'eyeball 로 짧아 보이는데 왜 비싸지?' 디버깅에 쓰이는 토큰이 더 비쌈.
Vision 토큰은 측정 아니라 계산
Image input 토큰은 image 의 dimension 과 detail level 에서 도출돼. detail='low' 는 flat 85 token, detail='high' 는 32×32 patch grid — image 가 클수록 토큰이 폭증. 채팅 history 에 high-detail vision 끼어 있으면 cost 가 빠르게 터져.
Prefix 캐시 챙겨
OpenAI prompt caching 은 cached prefix 토큰 (≥1024 토큰) 에 50% 할인을 줘. Stable system 지시 + few-shot 을 앞에 두고 가변 user input 을 뒤에 둬. 그러면 캐시 히트가 prefix 내내 살아.