2026년 임베딩 모델 고르기

shortlist

2026년 시장은 실용적으로 4 bucket 으로 줄어들어. privacy / latency / 예산 제약 맞는 bucket 에서 골라 — leaderboard 점수만 보고 고르지 마.

1. 호스티드, 최상위 (closed)

OpenAI text-embedding-3-large — 3072 차원, 영어/코드 강함, 다국어도 무난
Voyage AI voyage-3-large — 기본 1024 차원, 도메인 특화 MTEB 태스크에서 자주 1등
Cohere embed-english-v3 / embed-multilingual-v3 — 1024 차원, input-type hint (query vs document) 지원

2. 로컬, 최상급

BGE-M3 — 1024 차원, 다국어, dense + sparse + multi-vector 한 모델로 다 됨. cwkPippa 가 Ollama 로 이걸 돌려.
BGE-large-en-v1.5 — 1024 차원, 영어 전용, 매우 강함
Nomic Embed Text v2 — 768 차원, Apache 라이센스, CPU 로 돔

3. 로컬, 작고 빠름

BGE-small-en-v1.5 — 384 차원, ~30MB, 엣지 친화적
all-MiniLM-L6-v2 — 384 차원, sentence-transformer 클래식 베이스라인

4. 특화

jina-embeddings-v3 — 긴 컨텍스트 (8K 토큰) 문서 단위 임베딩용
VoyageCode-2 / Jina-code-v2 — 코드 특화 fine-tune

MTEB 점수보다 이기는 결정 룰

privacy 또는 air-gapped → 로컬만. API 호출 금지, 결정 끝.
다국어 유저 → BGE-M3 또는 Voyage multilingual. 영어 전용 모델은 한/일/아랍어에서 확 떨어져.
긴 문서 (1000 토큰 초과) → Jina v3 또는 청킹 전략. 안 그러면 문서 앞부분이 dominate.
코드 검색 → 코드 fine-tune 모델. 범용 모델은 API 모양 쿼리를 놓쳐.

Code

OpenAI 최상위 임베딩 한번 써봐·python

from openai import OpenAI
client = OpenAI()

resp = client.embeddings.create(
    model='text-embedding-3-large',
    input=['How do I cancel my subscription?'],
)
vec = resp.data[0].embedding
print(len(vec))   # 3072

Ollama 로 BGE-M3 로컬 실행·python

import requests

resp = requests.post(
    'http://localhost:11434/api/embeddings',
    json={'model': 'bge-m3', 'prompt': 'How do I cancel my subscription?'},
)
vec = resp.json()['embedding']
print(len(vec))   # 1024

2026년 임베딩 모델 고르기

shortlist

1. 호스티드, 최상위 (closed)

2. 로컬, 최상급

3. 로컬, 작고 빠름

4. 특화

MTEB 점수보다 이기는 결정 룰

Code

External links

Exercise

Progress

댓글 0