순수 벡터 검색이 일부 query 를 지는 이유
임베딩은 의미에는 강한데 토큰 에는 평범. 'ERR_CONNECTION_REFUSED' 라는 정확한 에러 코드 들어있는 청크를 그 개념을 paraphrase 한 청크보다 reliably 위에 ranking 못 함. 제품 이름, SKU, 버전 번호, 희귀 기술 용어는 표면 형태에 살아 — BM25 (1994년 vintage probabilistic 키워드 scorer) 가 빌드된 자리.
BM25 가 실제로 하는 것
각 query term 마다 BM25 가 문서를 term frequency (occurrence 많을수록 높음), inverse document frequency (희귀 term 이 더 카운트), length normalization 으로 score. 결과는 정확 매칭 사랑 + verbosity 처벌 + 의미 무시하는 ranking. 벡터 검색의 정반대 failure mode.
가장 싼 하이브리드
- 벡터 검색 → top-N candidate.
- BM25 → top-N candidate.
- id 머지, union 추출, fusion score 또는 cross-encoder 로 re-rank.
두 retriever, 한 머지 step. 그것만으로 vector-only retrieval 을 factoid query 에서 10–20% 자주 이김.