같은 의미, 매우 다른 비용
CJK 언어 — 한국어, 일본어, 중국어 — 는 동일 의미 콘텐츠에 영어보다 token 2-3배 더 든다. 이유는 평범해 — 대부분 BPE tokenizer가 영어 위주 corpus에서 학습됐어서, CJK 글자는 더 공격적으로 fragment된다. 한글 syllable 하나가 2-4 token으로 쪼개질 수 있어.
이중언어 product에선 그 비대칭성이 긴 session에서 누적된다 — 한국어 사용자가 같은 대화 길이에 대해 사실상 2-3배 API 청구서를 낸다. 미리 budget 잡거나 tokenizer-aware pricing model 쓰거나. 없는 척하는 게 흔한 비싼 실수야.
Code도 비싸다
source code는 prose보다 dense해. tokenizer가 같은 identifier를 두 번 거의 못 봐서. handleAuthenticationCallback 같은 함수명은 4-6 token으로 쪼개지고 호출되는 모든 자리에서 반복돼. 길고 서술적인 변수명은 모든 reference site에서 budget을 태운다.
실전 전략
cost 중요하면 모형에 보내는 코드는 짧고 흔한 변수명 선호 — userId가 theCurrentlyAuthenticatedUserIdentifier보다 효율적으로 tokenize. bulk upload 전엔 불필요한 whitespace, trailing comment 제거. CJK는 원본 + 짧은 영어 summary 보내기, 양쪽 풀버전 두 번 보내기보다 나아.