Single layer는 부족해
work하는 defense는 stack돼. 각각이 일부 attack catch; 어느 것도 다 catch 안 함. 함께 cost 올리고 surface 줄여.
Layer stack
- 프롬프트의 trust boundary — explicit untrusted-content tag, data section 안 imperative refusal.
- Privilege scoping — 모델이 필요한 tool만 가짐; 다른 거 reachable X.
- Input filtering — 알려진 malicious 패턴 strip이나 detect; high-risk input classify해서 다르게 route.
- Output filtering — 모델 output에서 sensitive data leak, embedded URL, attack indicator scan.
- Verifier loop — 어떤 structured action ("send email")이든 execute 전 business rule 기준으로 verify.
- Audit trail — 모든 input, output, tool call을 produce한 prompt version이랑 같이 log.
Layer cost
각 layer가 latency, complexity, false positive 비용. 다 어디나 추가 X — blast radius에 layer match. Summarization endpoint가 refund-issuing 거보다 less defense 필요.