모형은 조각으로 읽는다
Token은 단어, 단어 일부, 구두점, 공백, Unicode 조각 중 뭐든 될 수 있어. tokenizer는 인간 직관이 아니라 학습 데이터 빈도 기준으로 최적화돼. 영어 prose, code, JSON, 한글, URL, stack trace가 token을 다르게 — 가끔은 한 자릿수 차이로 — 쓰는 이유야.
BPE 60초 정리
대부분 modern LLM은 byte-pair encoding(BPE) variant 써. 레시피: 1) 256개 single-byte로 vocab 시작. 2) 학습 corpus에서 가장 자주 인접한 pair 찾음. 3) 그 pair를 하나로 merge해 vocab에 추가. 4) target vocab 크기(보통 50K-200K)까지 반복. 결과: 자주 나오는 영어 phrase는 single token, 희귀한 용어/non-Latin script는 fragment.
눈대중 그만
budget이 중요할 땐 provider tokenizer 써. 한 paragraph는 추정 OK. 200K-token working session은 추정 NOT OK — 30% 빗나가다가 청구서나 truncation으로 깨달아.
Token cost는 empirical이야. 작업 크기가 의미 있으면 세고, 측정이 확인하기 전엔 추정은 추정일 뿐이라고 다뤄.