vector similarity는 relevance가 아니야
Embedding 기반 retrieval은 cosine similarity로 rank하는데, relevance와 correlate되지만 같은 건 아니야. vector search의 top-K는 흔히 vibe로는 비슷한데 살짝 다른 질문에 답하는 chunk 포함. Reranker가 각 candidate를 더 비싼 모델로 실제 query랑 score해서 fix해.
2-stage 패턴
- Retrieve — 싸고 broad. vector + BM25 hybrid에서 top-50.
- Rerank — 비싸고 narrow. cross-encoder나 LLM으로 50개 각각 query에 score.
- Pack — top-N reranked chunk를 synthesis 모델에 feed.
reranking이 비용 값할 때
- Recall이 precision보다 중요 (legal, medical, support — 답 set에 맞는 chunk 있어야).
- Query가 짧고 모호 (single keyword, partial phrase).
- Corpus에 near-duplicate 있음 (reranker가 disambiguate 도와).
skip하는 때
- Latency budget 빡빡 (200ms 못 더해).
- Retrieval이 이미 top-3에서 95% 정확.
- Cost가 dominate, 정확도 acceptable.