Prompt 는 조용히 썩어
Prompt 는 코드야. 버그 있어. 밑 모델 바뀌면 drift 해. 한 use case 위해 tweak 됐는데 다른 거 깨. Prompt regression test 는 prompt 의 unit test 야.
Prompt regression suite 의 모양
각 test:
- 알려진 입력으로 production prompt 호출.
- 출력 속성 단언: '사용자 이름 포함', 'JSON 파싱 가능', '금지 문구 X 미포함', '소스 최소 하나 인용'.
- 정확한 문구 단언 안 함 (LLM 변동). 구조적 / 의미적 invariant 단언.
흔한 regression 패턴
- JSON schema — prompt 가 JSON 반환해야 함; test 가 schema 에 대해 검증.
- 금지 문구 — 명시적으로 지원하는 주제에 대해 답이 'I cannot help with that' 안 말해야 함.
- 인용 밀도 — 답이 context 에서 최소 N 소스 참조해야 함.
- 톤 / 페르소나 — 답이 합의된 음성 (피파의 sassy 읽기; 브랜드의 전문 톤) 이어야 함.
- 거부 정확성 — 진짜 주제 외 / 안전하지 않은 입력에 모델 거부해야.