줄이는 두 이유
Compression: signal 캐리하는 component만 유지하면 많은 모델이 빨라짐. Visualization: 사람은 200D가 아니라 2D scatter plot 읽음. 진짜 필요한 일에 따라 기법 골라.
큰 셋
- PCA — linear, 빠름, deterministic. compression과 preprocessing step에 탁월.
- UMAP — non-linear, local과 global 구조 합리적으로 보존. 오늘날 visualization의 go-to.
- t-SNE — non-linear, 아름다운 local 구조, global distance에 대해 오해 가능. 오래되었지만 cluster inspection에 여전히 유용.
cardinal 실수
UMAP이나 t-SNE coordinate를 downstream 모델 feature로 쓰지 마. visualization 위해 설계됨, stable representation 아님. PCA는 OK, UMAP/t-SNE는 X.