eval set 이 빌드할 가장 가치 있는 artifact
모든 retrieval 개선은 측정 전까진 추측. 진짜 유저 반영하는 query-document pair 50–200 개 labeled eval set 빌드. 각 query 마다 'definitely relevant' 한 document id 나열. 그 작은 set 이 모든 미래 튜닝 power.
알아둘 만한 4 metric
- Hit rate @ k — top-k 에 relevant doc 있는 query 의 비율. 읽기 쉬움.
- MRR (Mean Reciprocal Rank) — 첫 relevant 의 1 / position. '맞는 답이 얼마나 위에 떨어졌나' 캡처.
- nDCG @ k — graded relevance + position 고려. 업계 표준.
- Recall @ k — 실제 retrieve 한 relevant doc 의 비율. RAG 에서 LLM 이 다 필요할 때 critical.
모든 변경마다 eval 실행
retrieval 을 코드처럼 다뤄: 모든 tweak (청크 크기, 모델, RRF k, reranker) 가 번호 매긴 eval run. metric 시간순 plot. 'small change' 가 recall tank 하는 날, chart 가 유저보다 먼저 잡음.