결정 트리, 위에서부터
- 강한 프롬프트 베이스라인 만들었어? 안 만들었으면 먼저 그걸 해. 대표 입력 최소 50개로 측정.
- 작업이 새로운 / 외부 지식 필요해? 그래 — RAG. 여기서 멈춰.
- 일관된 행동 / 포맷 / 스타일 필요해? 아냐 — 프롬프트랑 few-shot 계속 반복. 여기서 멈춰.
- 고품질 예제 50개 이상 있어? 없으면 먼저 수집 / 합성(Track 2). 그때까지 멈춰.
- 위 다 그래? 파인튜닝. 속도면 OpenAI managed(Track 3), 컨트롤이면 오픈소스 PEFT(Track 4~5).
학습 전 평가 게이트
- 성공 지표 정의됨. 최대 3개.
- 베이스 모델을 정성껏 프롬프팅해서 테스트. 베이스라인 숫자 기록.
- Few-shot 예제로 테스트. 3~5개 예제 추가가 갭을 닫아주는 경우 많아; 그러면 파인튜닝 X.
- 갭 문서화. "베이스라인 78%, few-shot 84%, 목표 95% → 닫아야 할 11점." 이제 브리프 있어.
라이선스 현실 (2025~2026)
오픈 웨이트가 완전 무제한이라는 뜻 아냐. 출시 전에 라이선스 읽어.
| 패밀리 | 라이선스 | 실무 상업 현실 |
|---|---|---|
| Llama 3 / 4 (Meta) | Llama Community License | 700M MAU 미만 상업 사용 무료. 그 이상이면 Meta에 연락. |
| Mistral / Mixtral | Apache 2.0 | 완전 오픈. 제약 없음. |
| Gemma 2 / 3 (Google) | Gemma Terms | 관대하지만 유해 콘텐츠 정책 있음. Gemma 4는 Apache 2.0으로 이동. |
| Qwen 3 (Alibaba) | Apache 2.0 | 완전 오픈. 제약 없음. |
| Phi (Microsoft) | MIT | 완전 오픈. 제약 없음. |
그리고 물어봐: 학습 데이터가 이 용도로 라이선스 됐어? 프라이버시 이슈는? 모델이 추론 시점에 저작권 자료 재현할 수 있어? 파인튜닝이 데이터 권리를 마법처럼 세탁해주지 않아.