2026 attack frontier
Direct injection (user가 adversarial instruction 타이핑)은 잘 알려져. Production의 더 큰 문제는 indirect injection: tool이 wider world 콘텐츠 (search 결과, customer email, webpage) return, 그 콘텐츠가 instruction 담아. user가 안 타이핑; 데이터가 carry.
나타나는 곳
- User-uploaded doc에 RAG (PDF metadata 안 hidden instruction).
- Email read하는 agent (subject line이 action redirect 시도).
- Web-browsing agent (page에 "if you are an AI, do X").
- Code-reading agent (repo의 README comment가 모델에 act).
indirect 전용 defense
- 프롬프트 wrapping에서 tool output을 untrusted로 tag.
- 가능하면 tool output에서 imperative strip (rare, brittle).
- 새 untrusted source의 데이터에 consequential action 전 confirmation require.
- high-stakes claim에 cross-source corroboration.