항상 log 해야 할 metric
최소: step 당 training loss, epoch 당 validation loss, epoch 당 validation accuracy (또는 task 적절 metric), step 당 learning rate. 이 4 개로 거의 모든 거 디버깅 가능.
추천 추가: step 당 gradient norm (exploding gradient 잡음), per-class accuracy (imbalance 잡음), example/sec throughput (data-loading regression 잡음).
팁: Metric 그려. Log file 의 숫자는 forensic, 그림은 diagnostic. One-off 면 Jupyter cell 의
matplotlib OK, 진지한 일이면 W&B 또는 TensorBoard.Epoch average vs running average
Training loss 는 smoothed running average 로 그리는 게 좋음 — single-step loss 는 너무 noisy. 0.99 * old + 0.01 * new 가 fine default. Validation loss 는 epoch 당 한 번이고 raw 값 그려.
Accuracy 만 믿지 마
Accuracy 는 imbalance, calibration, edge-case failure 숨김. 항상 봐: classification 에 class 당 precision/recall, regression 에 MAE/RMSE/quantile error, generation 에 BLEU/ROUGE/exact-match, validation set 의 confusion matrix epoch 당.
원칙: 한 숫자만 보면 다른 모든 숫자에 놀람. Model 이 'accuracy 에서 fine 해 보이는데' 소수 class 에서 깨진 첫 순간이 팀과의 신뢰 한 주 비용.