erode하는 persona
turn 20쯤 너의 warm, terse한 support agent가 chatty하고 hedging하고 너무 apologize하는 assistant 됐어. 모델이 깨진 게 아니라 — user의 긴 message mirror, context에 hedging 봐서 hedging, 50 turn history 무게에 system prompt tone clause 천천히 잊고 있어.
3가지 drift mechanism
- Mirroring — 모델이 user의 tone, length, vocabulary 채택.
- Self-imitation — 한 번 hedge하면 hedging이 context에 있어서 더 hedge.
- System-prompt dilution — system 200 토큰; turn-50 history 20,000 토큰; system 상대 weight 떨어짐.
counter-drift tactic
- 주기적 re-anchor (N turn마다 한 줄 tone reminder re-inject).
- compaction으로 drifty assistant turn history에서 제거.
- explicit anti-drift 문장 추가 ("Do not adopt the user's tone").
- assistant output에 tone classifier 돌리고 drift alert.