큰 teacher model 의 *softmax 분포* 를 student model 이 모방하게 학습 — ground truth label 만 보다 더 풍부한 신호. student 가 작아도 teacher 의 *모르는 것까지* (어떤 클래스끼리 헷갈렸는지 — dark knowledge) 배움.
구현: teacher.predict 로 soft label 받고, student 의 loss 를 (CE with hard label) + (KL divergence with soft label) 로. temperature 도 한 hyperparameter — 클수록 soft 분포 더 평탄.