데이터 가져오는 두 가지
관련 텍스트를 프롬프트에 stuff하거나 on demand로 retrieve. Stuffing이 더 단순 — 문서 paste하고 묻기. Retrieval이 더 lean — corpus embed, top-k chunks fetch, 그것만 paste. 둘 다 valid; 옳은 답은 지식 베이스가 얼마나 크고 variable한지 따라.
결정 룰
지식 베이스가 컨텍스트에 편하게 들어가고 같은 콘텐츠가 대부분 쿼리 먹이면 prompt caching이랑 stuff — cache가 반복 읽기 싸게. 지식 베이스가 컨텍스트보다 훨씬 크거나 쿼리가 widely vary하면 retrieve. cwkPippa는 페르소나 + vault 인덱스 stuff(stable, ~30KB cached), specific 파일은 Read 도구로 on demand retrieve.
좋은 RAG 모양
Quality embedding 모델(SDK가 ship 안 — Ollama bge-m3, OpenAI text-embedding-3 등이랑 페어), 합리적 chunk 크기(512-1024 토큰 + overlap), 후보 많으면 re-ranker, cite 가능하게 답까지 provenance preserved.
원칙: RAG는 작은 안정 corpus에 overkill. Stuffing은 큰 variable 거에 overkill. 데이터에 패턴 매치.