Representation 이 실제로 뭔가
Representation 은 입력에 대해 task 에 중요한 것만 담은 vector 야. 좋은 word embedding space 에서는 man 과 king 이 가까이 있어 — network 가 royal term 들이 cluster 한다는 걸 배웠으니까. Vision encoder 에서 같은 강아지의 다른 각도 사진 두 장이 가까이 있어 — pixel-level identity 가 아니라 강아지 다움 을 배웠으니까.
Representation 은 modern AI 의 load-bearing idea 야. 강한 encoder — 이미지면 CLIP, 텍스트면 sentence-transformer, 오디오면 음성 모델 — 가 있으면 downstream task (classification, retrieval, clustering, recommendation) 는 위에 작은 head 만 올려서 풀 수 있어. 어려운 일은 representation 자체를 학습하는 거였지.
왜 이게 비용 효율적인가
Backbone pretrain 은 비싸 — 가장 큰 모델은 수백만 달러. 근데 한 번 만들어지면 새 task 의 marginal cost 는 작아: 라벨링된 예시 수천 개 모으고, backbone 을 freeze (또는 살짝 fine-tune) 하고, 위에 작은 classifier train. 두 명짜리 팀이 일주일 만에 쓸만한 이미지 분류기 ship 하는 방식이야.
Representation 은 training data 를 반영해
한 인종의 사진으로 face encoder 를 train 하면, 그 인종이 representation 의 중심에 가고 다른 인종은 가장자리로 밀려나. 2020 년 영어 뉴스로 pretrain 된 text encoder 는 2025 년 Reddit slang 에서 더 약하고, 한국어에서는 훨씬 더 약해. Encoder 가 뭐로 학습됐는지 아는 게 그걸 잘 쓰는 일의 일부야.