Collator 의 역할
Data collator 가 토크나이즈 example 리스트 (ragged length) 를 단일 batch tensor (uniform shape) 로. 표준 셋:
DataCollatorWithPadding—input_ids를 batch 의 longest 까지 pad.DataCollatorForLanguageModeling— MLM (masked) 또는 CLM (causal) pre-training 용.mlm=True가 토큰 random mask.DataCollatorForSeq2Seq— encoder-decoder 모델용 encoder + decoder side independent pad.DataCollatorForCompletionOnlyLM(trl) — prompt 부분 mask, loss 가 assistant response 에만 흐름.
SFT 에 collator 가 중요한 이유
completion-only collator 없이 챗 데이터 학습하면 모델이 user prompt 도 predict 학습. gradient 낭비 + 챗 동작 종종 degrade. completion-only collator 가 instruction tuning 의 right default.