같은 학습 루프, 다른 데이터
안을 들여다보면, 파인튜닝은 gradient 기반 최적화야 — 모델 사전학습할 때 쓴 것과 정확히 같은 과정 — 네 데이터에 훨씬 적은 step만 돌리는 거야.
- Forward pass: 학습 예제가 모델을 통과해서 예측(다음 토큰 분포)을 만들어.
- Loss: 예측이 원하는 출력과 비교돼. Cross-entropy가 표준.
- Backward pass: gradient 계산 — 각 파라미터가 에러에 얼마나 기여했는지.
- Update: 옵티마이저(보통 AdamW)가 loss 줄이려고 각 파라미터를 살짝 nudge.
- Repeat: 수백~수천 예제, 몇 epoch.
Transfer learning이 마법의 정체
사전학습된 모델은 이미 언어, 기본 추론, 방대한 세상 지식을 알아. 파인튜닝은 그 지식을 네 도메인으로 transfer해. 영어를 가르치는 게 아니라, 네 영어를 가르치는 거야.
그래서 파인튜닝이 trillion 토큰 대신 수백~수천 예제로 작동하는 거야. 기초는 이미 있어; 표현만 조정하는 거야. 가장 깔끔한 비유: 사전학습은 의대, 파인튜닝은 심장학 펠로우십. 해부학 다시 안 배워.
변화가 사는 곳
Full 파인튜닝은 모든 파라미터를 업데이트해. PEFT 기법(LoRA, QLoRA, DoRA — Track 4)은 추가된 작은 subset만 업데이트, 보통 파라미터의 0.1~1%야. 이게 컴퓨트 비용도 줄이고 동시에 베이스 모델의 일반 능력이 덮어쓰여지지 않게 보호해.