프롬프트 right여도 output 틀릴 수 있어
모델이 successfully attacked, rare failure 나타냄, 또는 그냥 너의 정책 위반 콘텐츠 produce. Output filtering이 프롬프트가 안 잡은 걸 catch하는 layer.
scan할 패턴
- Sensitive data — email, phone number, SSN, credit card, internal API endpoint.
- exfiltrate 가능한 embedded resource URL (image src, link href).
- UI가 render하고 user가 trust할 markdown / HTML 구조.
- Profanity, hate speech, 너의 context에 policy-restricted topic.
- Prompt-injection marker ("ignore previous instructions," 예상 못 한 곳의 tool-call syntax).
어떻게 enforce
- user 도달 전 raw output에 regex / classifier.
- HTML/markdown sanitizer가 dangerous 구조 strip.
- high-risk content에 second-pass LLM judge.
- severity에 따라 block, redact, alert.