Production에서 interpretability가 중요한 이유
"고양이"라고 99% 확신하는 CNN이 어느 픽셀을 봤는지 모르면 쓸모없어. Grad-CAM (Gradient-weighted Class Activation Mapping)은 특정 클래스 예측에 가장 영향 준 이미지 영역을 보여주는 heatmap 만들어.
기법: 선택한 클래스의 logit을 마지막 convolutional layer의 feature map에 대해 gradient 계산. 그 gradient를 spatial 차원으로 평균 → 채널별 중요도 weight. 각 feature map에 weight 곱해서 합산 → 결과는 2D heatmap, 원본 이미지 크기로 upsample.
이게 "model이 고양이에 과신함" 디버깅 방법 — 사실 고양이 아니라 모서리의 워터마크를 보고 있다는 걸 발견. 의료 영상 감사, 콘텐츠 검열 설명, dataset 감사에도 같은 기법.