clustering이 뭘 위해 쓰이나
Clustering이 어떤 거리 아래 비슷해 보이는 example을 group. 잘 쓰면 customer segment, anomaly 후보, downstream model을 위한 compact feature 생성. 잘못 쓰면 비즈니스가 신경 안 쓰는 것에 맞는 예쁜 chart 생성.
세 직관의 세 알고리즘
- K-Means — 비슷한 크기의 K개 convex blob 가정. 빠르고 수백만 row scale.
- DBSCAN / HDBSCAN — density-based, 임의 모양 발견, noise 처리, "unclustered" row를 그대로 둠.
- Agglomerative — bottom-up hierarchy. interpretability 중요한 작은 dataset에 좋음.
K 고르기 (또는 K가 자기 고르게)
K-Means엔 inertia vs K(elbow)와 silhouette score plot, elbow 굽는 K 고름. HDBSCAN엔 비즈니스에 중요할 만한 것에 따라 min_cluster_size 설정("진짜 segment는 최소 200 customer"). cluster는 항상 example inspection으로 검증, score만 믿지 마.