건강한 학습
- Training loss가 꾸준히 감소.
- Validation loss가 감소한 다음 plateau.
- 두 곡선이 비교적 가까이 머물러.
Overfitting 신호
- Training loss는 계속 감소.
- Validation loss가 오르기 시작.
- 모델이 패턴 학습 대신 학습 데이터 암기.
해결: epoch 줄여, dropout 늘려, 다양한 학습 데이터 추가, rank(r) 줄여, early stopping 활성화.
Underfitting 신호
- 두 loss 다 높고 일찍 plateau.
- 모델이 충분히 학습 안 했어.
해결: epoch 늘려, learning rate 올려, rank(r) 늘려, 학습 데이터 더, 데이터 품질 체크.
Epoch vs step
1 epoch = 학습 데이터 1회 통과. 1,000예제 + batch 8 → 1 epoch = 125 step. 작은 데이터셋(< 1,000): 3~5 epoch. 큰 데이터셋(> 10,000): 1~2 epoch면 충분한 경우 많음.