Attacker 전에 break하는 팀
Red teaming은 다른 누구가 하기 전에 너의 시스템 attack하는 practice. LLM app에 의미: 너의 프롬프트, tool, 데이터 흐름 가지고 — misbehave하게 만들려고 시도. 발견한 attack이 regression test 돼.
Attack할 것
- User message에 direct injection.
- 너가 통제하는 doc / tool 결과에 indirect injection.
- Roleplay framing으로 persona / role override.
- Tool argument manipulation으로 privilege escalation.
- embedded URL / image로 output exfiltration.
- Tool argument confusion으로 cross-user data leakage.
지속적으로 어떻게
- Checklist로 시작; discover하면서 expand.
- 발견된 issue 마다 eval test case.
- 모든 prompt나 model update에 suite 돌려.
- 가능하면 red-teamer 회전; 한 사람은 빨리 blind-spot.
공개 자원
Anthropic의 HackerOne 프로그램, OpenAI의 red-teaming network, academic adversarial-prompt repo가 starter pattern set 줘. 다시 invent X.