글자 split 의 문제
영어 1200 글자 청크는 대략 240 토큰. 같은 1200 글자 한국어는 700 토큰일 수 있고. 같은 1200 글자 Python 소스는 400 일 수 있어. 임베딩 모델이 신경쓰는 건 토큰 budget — 글자 카운팅은 언어 / 콘텐츠 타입에 따라 조용히 misbehave.
토큰-aware split
모델 tokenizer 로 split 해. 흔한 두 패턴:
- 재귀 splitter 에 tokenizer 감싸기 — 문단/문장 단위로 split, 토큰 카운트 체크, 필요하면 더 split.
- 토큰 직접 슬라이싱 — 전체 문서 인코딩, 토큰 리스트 슬라이스, 각 슬라이스 디코딩.
두 번째가 빠른데 단어 중간에서 잘려서 못생김. 프로덕션은 대부분 첫 번째.