SFTTrainer 가 instruction tuning 의 right Trainer
trl.SFTTrainer 가 chat-format 데이터 위해 Trainer 를 편리하게 wrap:
messages컬럼 데이터셋 직접 받음.- 토크나이저의 chat template 자동 적용.
response_template주면DataCollatorForCompletionOnlyLM디폴트 셋업.- 인자 두 개 추가하면 PEFT (LoRA / QLoRA) 와 plug.
데이터셋 포맷
둘 중 하나 동작:
- Conversational: 각 행이
messages: [{"role":"user","content":...}, {"role":"assistant","content":...}]. - Single-turn text: 각 행이 이미 포맷된 prompt + response 담은
text컬럼.
Conversational 이 모던 디폴트. Trainer 가 모델 chat template 적용; string 손으로 포맷 X.