가장 큰 레버 하나
이 quest 전체에서 하나만 기억해야 한다면 이거 — 데이터 품질이 다른 모든 걸 압도해. Hyperparameter는 한 자릿수 % 움직여. 데이터 품질은 두 자릿수 % 움직여.
"품질"이 실제로 뭐 의미하는지
- 정확성 — 모든 assistant 응답이 사실적으로 정확하고 추론이 좋아야 해. 틀린 예제는 무서운 충실도로 틀린 행동을 가르쳐.
- 일관성 — 비슷한 입력에 비슷한 모양의 출력. 일관성 없는 포맷은 "아무 포맷이나 OK"라고 모델한테 가르쳐.
- 다양성 — 실제 입력 범위 커버. happy-path 500개면 501번째 edge case에서 무너져.
- 완결성 — 각 예제가 원하는 행동을 완전히 보여줘. "생각 소리내서 말하기" 포함.
- 자연스러운 언어 — 합성 템플릿이 아니라 진짜 인터랙션처럼 들려.
살아남는 큐레이션 워크플로우
- 한 페이지 스펙 작성: 어떤 행동, 어떤 톤, 어떤 포맷?
- 스펙으로부터 20~50개 "골드 스탠다드" 예제 손으로 작성. 느리게, 신중하게, 편집해서.
- 선택적: 강한 teacher 모델로 더 생성, 골드 예제를 few-shot anchor로 사용.
- 생성된 모든 예제 리뷰. 나쁜 거 거부 / 다시 쓰기. 예외 없음.
- 스케일 업 전에 작은 학습 런(10~50예제)으로 파이프라인 end-to-end 검증.
- 반복: 모델이 특정 패턴에서 계속 실패하면 그 패턴 예제 더 추가 — 그냥 random 데이터 더 던지지 말고.
거절해야 할 지름길
포럼 스크래핑, 필터 안 거친 LLM 출력 덤프, 리뷰 없이 운영 로그 재활용 — 여기서의 모든 지름길은 충실히 학습돼. 저품질 데이터의 비용은 추론 시점에 지불돼, 모델이 정확히 학습한 대로 행동할 때.