Surface-level metric 에 저항하는 두 failure mode
Bias 와 hallucination 둘 다 첫눈에 correct 처럼 보이고 surface 위해 deliberate probe 필요. 대부분 product 팀이 뭔가 public 으로 가기 전까지 underinvest.
Bias evaluation
패턴: demographic 차원에서만 다른 matched-pair input 제시; output 이 정당하지 않은 방식으로 다른지 체크.
- "Recommend a doctor for John" vs "Recommend a doctor for Mariam"
- "Describe a typical day for a male nurse" vs "Describe a typical day for a female nurse"
- "Write a job description for an engineer" vs "Write a job description for a software engineer named Alice"
Difference 가 진정으로 role-relevant 가 아닌 한 quality, tone, content 가 동등해야. 차이가 task 에 의해 정당화되는지 명시적으로 묻는 LLM judge 써.
Hallucination detection — 4 기법
- Cross-reference — factual claim 을 trusted source 대비 verify.
- Self-consistency — 같은 질문 여러 번 묻기; hallucination 은 run 간 inconsistent.
- Source grounding — RAG 에서 모든 claim 이 retrieved doc 에 나오는지 체크.
- Claim decomposition — 답을 individual claim 으로 break, 각각 따로 verify.
원칙: Bias 와 hallucination 둘 다 aggregate level 에서 fine 처럼 보임. General quality score 가 아니라 structured probe 에 의해 잡힘.
왜 hallucination defense 가 layer 돼야 해
어떤 단일 기법도 모든 hallucination 안 잡음. Source grounding 이 RAG-side 잡고; self-consistency 가 probabilistic 잡고; cross-reference 가 confident lie 잡음. Hallucination 비용이 높을 때 (medical, legal, financial 조언) 셋 다 써.