word2vec(Mikolov et al., 2013)의 그 유명한 결과는 embedding이 임의의 코드가 아니라 구조화된 의미를 인코딩한다는 가장 깔끔한 존재 증명이야. 학습된 embedding 공간에서 "king" 벡터에서 "man" 빼고 "woman" 더하면, 가장 가까운 게 "queen" 벡터.
직관: embedding 공간 안에 어떤 방향들은 일관된 의미 관계와 대응돼. "king"에서 "man"을 빼면 royalty + 남성성을 인코딩하는 벡터가 분리. "woman"을 더하면 남성성 성분이 여성성으로 교체. 결과가 "queen" 근처에 도착.
다른 고전 예시: Paris − France + Italy ≈ Rome; walking − walk + swim ≈ swimming; good − bad + evil ≈ malevolent. 완벽하진 않아 — 일부 관계 부분집합에 대해 근사적으로 성립할 뿐이고, 모던 Transformer embedding(lookup 뿐 아니라 컨텍스트까지 포함)은 단순 단어 단위 analogy가 시사하는 것보다 훨씬 풍부한 구조를 잡아.