2025~2026의 네 가지 메서드
OpenAI는 파인튜닝 메서드 4가지 제공. SFT가 일꾼; DPO랑 RFT는 특수; vision FT는 이미지용.
| 모델 | SFT | DPO | Vision FT | RFT |
|---|---|---|---|---|
| gpt-4.1 (2025-04-14) | ✅ | ✅ | — | — |
| gpt-4.1-mini (2025-04-14) | ✅ | ✅ | — | — |
| gpt-4.1-nano (2025-04-14) | ✅ | ✅ | — | — |
| gpt-4o (2024-08-06) | ✅ | ✅ | ✅ | — |
| gpt-4o-mini (2024-07-18) | ✅ | ✅ | — | — |
| o4-mini (2025-04-16) | — | — | — | ✅ |
| gpt-3.5-turbo | ✅ | — | — | — |
SFT = Supervised Fine-Tuning, 기본값. DPO = Direct Preference Optimization, preferred/rejected 쌍으로 학습. RFT = Reinforcement Fine-Tuning, 채점 rubric 사용(reasoning 모델). Vision FT = 학습 예제에 이미지 포함.
가격 (1M 토큰당, 2025~2026)
| 모델 | 학습 | 추론 (in / out) |
|---|---|---|
| gpt-4.1-mini | $0.80 | $0.80 / $3.20 |
| gpt-4o-mini | $3.00 | $0.30 / $1.20 |
| gpt-4o | $25.00 | $3.75 / $15.00 |
| o4-mini (RFT) | $100/hr | $4.00 / $16.00 |
대부분 프로젝트에 최고 가성비: gpt-4.1-mini. gpt-4o-mini보다 학습 싸고 베이스 더 강함. gpt-4o는 vision FT 필요할 때만, o4-mini는 reasoning RFT 필요할 때만.