새벽 2시 page
뭔가 wrong: output 더 나빠짐, cost spike, injection succeed, tool이 wrong action fire. AI system용 incident response가 classical SRE 빌리고 3개 추가: prompt provenance, model attribution, trace forensic.
처음 10분
- Affected prompt version과 model을 metric tag에서 식별.
- Version flag rollback (flag 존재하지, 맞지?).
- Metric tag count로 rollback이 traffic serve하는지 confirm.
- Forensic용 log와 trace snapshot.
- Communicate: status page나 internal channel.
다음 1시간
- Bad trace pull; failure mode 식별.
- Provider issue면 status page 체크하고 fallback chain activation 고려.
- Prompt regression이면 v_new vs v_old 변화 식별.
- Injection / abuse면 entry point 식별, defense layer 추가.
Post-mortem
써. Finding을 eval case로 convert. 이걸 일찍 catch했을 새 dashboard나 alert 추가. Model 비난 X; guardrail / eval / canary 부재 비난.