중요한 카테고리
세 카테고리가 중요하고 casual 글에서 자주 헷갈려.
| Type | Weights | Training code | Data | Modify, redistribute? |
|---|---|---|---|---|
| Open Source (OSI definition) | Available | Available | Available 또는 명시 | Yes, fully |
| Open Weight | Available | 보통 안 | 보통 안 | 다양 — license 확인 |
| Closed / Proprietary | Not available | Not available | Not available | API access 만 |
대부분 'open' LLM 이 open-weight
LLaMA, Mistral, Qwen, DeepSeek — 다 제한 (commercial cap, naming requirement, compliance limit, 가끔 sublicensing rule) 갖춘 custom community license 로 weights release. OSI-open-source 아님. Specific 조건 하의 open-weight.
True open-source LLM 드물어
AI2 의 OLMo 가 가장 깨끗한 예시: weights, training code, full training-data 문서 다 permissive license 하. 더 작은 research-lab release (BLOOM, Pythia) 도 자격. 대부분 production-grade LLM 안.
왜 production 에 중요
- 상용 사용 제한. Llama community license 가 700M MAU 관련 조항. 일부 research-only license 가 상용 사용 prohibit.
- Distillation 제한. 일부 license 가 모델 output 사용해 다른 모델 학습 prohibit. Synthetic-data pipeline 영향.
- Naming 과 attribution. Llama-derived 모델이 종종 name 에 "Llama" 포함해야. Minor 처럼 들리지만 branding 에 중요.
- Sublicense 조건. Fine-tune distribute 하면 downstream 에 어떤 조건 적용? 종종 original license 가 propagate 해야.
읽기 룰
상용 배포 전 actual license 파일 읽어. 마케팅의 "open-source" claim 종종 부정확. License 자체가 contract; 마케팅 언어 아냐.