Tokenizer의 함정: 한국어와 코드

같은 의미, 매우 다른 비용

CJK 언어 — 한국어, 일본어, 중국어 — 는 동일 의미 콘텐츠에 영어보다 token 2-3배 더 든다. 이유는 평범해 — 대부분 BPE tokenizer가 영어 위주 corpus에서 학습됐어서, CJK 글자는 더 공격적으로 fragment된다. 한글 syllable 하나가 2-4 token으로 쪼개질 수 있어.

이중언어 product에선 그 비대칭성이 긴 session에서 누적된다 — 한국어 사용자가 같은 대화 길이에 대해 사실상 2-3배 API 청구서를 낸다. 미리 budget 잡거나 tokenizer-aware pricing model 쓰거나. 없는 척하는 게 흔한 비싼 실수야.

Code도 비싸다

source code는 prose보다 dense해. tokenizer가 같은 identifier를 두 번 거의 못 봐서. handleAuthenticationCallback 같은 함수명은 4-6 token으로 쪼개지고 호출되는 모든 자리에서 반복돼. 길고 서술적인 변수명은 모든 reference site에서 budget을 태운다.

실전 전략

cost 중요하면 모형에 보내는 코드는 짧고 흔한 변수명 선호 — userId가 theCurrentlyAuthenticatedUserIdentifier보다 효율적으로 tokenize. bulk upload 전엔 불필요한 whitespace, trailing comment 제거. CJK는 원본 + 짧은 영어 summary 보내기, 양쪽 풀버전 두 번 보내기보다 나아.

CJK 함정: 영어 비율 가정해 token budget 잡고 그대로 한국어 워크플로 돌리면, visible length의 1/3쯤에서 한도 친다. 명시적으로 plan해.

Code

CJK vs English 측정·python

from tiktoken import encoding_for_model
enc = encoding_for_model("gpt-5")

en = "The model reads fragments."
ko = "모델은 조각으로 읽는다."

print(f"EN chars={len(en)} tokens={len(enc.encode(en))}")
print(f"KO chars={len(ko)} tokens={len(enc.encode(ko))}")
# KO often shows ~2-3x tokens per character vs EN.

identifier 비용 예시·python

import tiktoken
enc = tiktoken.encoding_for_model("gpt-5")
short = "userId"
long = "theCurrentlyAuthenticatedUserIdentifier"
for name in [short, long]:
    print(name, "->", len(enc.encode(name)), "tokens")

Tokenizer의 함정: 한국어와 코드

같은 의미, 매우 다른 비용

Code도 비싸다

실전 전략

Code

External links

Exercise

Progress

댓글 0