TRL 이 alignment 툴킷
trl (Transformer Reinforcement Learning) 이 canonical Python 라이브러리: SFT (이미 다룸), DPO (Direct Preference Optimization), PPO (RLHF 위한 Proximal Policy Optimization), KTO, IPO, ORPO, GRPO, 다른 preference / RL 메서드. 2026 alignment 의 dominant 디폴트가 DPO — reward-model + PPO 루프 skip, preference pair 에 직접 학습.
30 초의 DPO
DPO 가 (prompt, chosen, rejected) 페어 받음. 목적이 closed-form bound 사용해 chosen 확률을 rejected 대비 증가, RL 없이 RLHF mirror. 학습이 다른 loss 의 SFT 처럼 보임; 빠른 수렴; 별도 reward 모델 X.