2-stage retrieval
벡터 검색과 BM25 는 bi-encoder — query 와 각 document 를 독립적으로 인코딩 후 결과 비교. 빠른데 모델이 query 와 document 같이 본 적 없어.
Cross-encoder 는 query 와 candidate document 받고 transformer 로 같이 통과. pairwise context 반영하는 single relevance score 생성. 훨씬 정확, 훨씬 느림 (precompute 불가) — 그래서 표준 아키텍처:
- Stage 1 — 빠른 retriever (vector + BM25) 가 top-50 candidate 반환.
- Stage 2 — cross-encoder 가 그 50 을 re-rank 해서 진짜 top-5 찾음.
알아둘 만한 오픈소스 cross-encoder
- BGE-reranker-v2-m3 — 다국어, 2026 초 오픈소스 패키지의 best
- cross-encoder/ms-marco-MiniLM-L-6-v2 — 작은 영어, CPU 에서 작동
- jina-reranker-v2-base-multilingual — 빠르고 다국어, 매우 작음