Embedding은 768-12,288 차원에 살아. 사람은 3차원에 살고. 그 격차를 메우려고 투영해 — t-SNE랑 UMAP이 고차원 점을 local neighborhood 구조 보존하면서 2D/3D 플롯으로 압축하는 표준 도구 둘.
잘 학습된 embedding 시각화에서 보일 것: 동의어 단어들의 빽빽한 클러스터, 다른 품사들의 별개 섬, 일관된 방향(성별, 시제, 격식 수준) 따라 부드러운 gradient. 잘못 학습됐거나 편향된 embedding에서 보일 것: 학습 데이터 편향이 드러나는 클러스터, 의미적으로 다른 개념을 뭉뚱그리는 영역, 학습에 안 나온 희소 outlier.
이게 뭐에 쓰이나
Embedding 시각화는 그냥 예쁜 그림이 아니야 — 디버깅 도구야. fine-tune된 classifier가 두 카테고리를 헷갈리면 그 embedding centroid 플롯해. 겹치거나 너무 붙어 있으면 분류 head 도달 전에 입력 표현이 이미 병목. RAG retrieval에도 같은 논리 — 관련 문서랑 무관 문서가 같은 동네 끝나면 retriever가 구별 못 하고, downstream LLM의 어떤 영리함도 그걸 못 고쳐.