embedding이 주는 것
Embedding이 복잡한 객체(문장, image, product, user session)를 요약하는 fixed-length 숫자 vector. embed 후, 고전 ML 모델이 위에 올라탐 — retrieval은 kNN, classification은 logistic regression, tabular fusion은 lightgbm. embedding이 unstructured input을 tabular feature로 바꿔.
embedding이 어디서 오나
- Pretrained model — sentence-transformer, OpenAI text-embedding-3, image encoder(CLIP).
- Fine-tuned model — pretrained base에서 시작, 도메인에 fine-tune.
- Self-trained — 자체 데이터에 autoencoder나 contrastive 모델 train.
production 디시플린
Embedding은 model artifact. feature schema에 모델 version, tokenizer version, embedding dimension 핀. silent embedding-model upgrade가 최악의 drift, downstream 모든 게 여전히 동작하지만 미묘하게 다른 의미를 가지기 때문.