retrieval 이 generator 한테 빚지는 것
RAG 는 retrieval 이 generator 와 명확한 contract 유지할 때 작동: 여기 청크들, 여기 각각의 source, 여기 confidence 신호. 셋 중 하나라도 빠지면 LLM 이 hallucinate 하거나 인용 거부.
모든 retrieval 결과가 가져야 할 세 신호
- Text — 임베딩한 그대로의 청크 콘텐츠.
- Source — 파일 경로, URL, 문서 id, 청크 index. generator (그리고 유저) 가 traceback 가능하게 하는 모든 거.
- Score — similarity 또는 rerank score 로 prompt 도달 전 low-confidence hit drop.
최소 viable RAG 루프
question -> embed -> retrieve top-k -> filter by score -> stuff into prompt -> generate -> render with citations
나머지 (query rewriting, multi-query, reranking, summarization) 는 다 optimization. 먼저 루프 돌게 하기; eval set 이 깨졌다고 말하는 거 optimize.