목표
제품 리뷰 분석 도구용 구조화 JSON을 일관되게 출력하는 작은 모델 학습. 모델이 첫 시도에 매번 옳은 필드 가진 파싱 가능한 JSON 생성해야 해.
레시피
- 베이스 모델: Llama 3.1 8B Instruct (instruction following 잘함).
- 학습 데이터: 500~1,000 제품 리뷰랑 손으로 만든 JSON 출력 쌍, 긍정/부정/혼합/풍자/매우 짧은/매우 긴 입력 커버.
- 메서드: QLoRA, r=16, all-linear, 3 epoch.
- 기대 결과: 프롬프트만으로 ~90% vs 99%+ JSON 포맷 준수.
'Adversarial' 다이어트
견고성의 단일 최대 결정 요인 — 학습 데이터에 'adversarial' 예제 포함: 모호한 리뷰, 매우 짧은 거, 풍자 포함, 여러 감정 혼합, 예상 외 포맷. 모델은 학습 중 실제 변동을 봐야만 실제 변동에 견고해져.