조용히 degrade 가능한 것들
- Cache hit rate 떨어짐 — 파이프라인 regression, cache key 변경, cache wipe
- Top-k score 분포 shift — 코퍼스 drift, 임베딩 모델 regression
- Empty result rate 상승 — 필터 너무 aggressive, score floor 너무 높음, 또는 코퍼스에 갭
- Latency 슬그머니 상승 — 인덱스 커짐, autovacuum 뒤처짐, GPU 경합
- LLM 'I don't know' rate 상승 — retrieval 품질 decay 가 LLM 도달
최소 dashboard
시간순 plot 된 카운터 6개가 silent failure 대부분을 유저보다 먼저 잡음:
- 분당 query
- Median + p95 retrieval latency (stage 별)
- Median + p95 top-1 score
- Empty-result rate (floor 위 candidate 0)
- 임베딩 cache hit rate
- LLM 'I don't know' rate