Loss 매칭이 흔한 첫 버그. binary 분류 → BinaryCrossentropy + sigmoid. multi-class one-hot label → CategoricalCrossentropy + softmax. multi-class integer label → SparseCategoricalCrossentropy + softmax. regression → MSE / MAE / Huber.
activation 과 loss 의 짝 — 같이 가야 해. softmax + categorical_crossentropy 가 표준 짝. 둘이 안 맞으면 학습 안 되거나 NaN. from_logits=True 옵션 쓰면 softmax 빼고 logits 받아 numerical 안정.