Hugging Face Hub에 Push
Hub는 모델 레지스트리. LoRA adapter(작음) 또는 merged 모델(더 큼) push하고 model card로 문서화.
Ollama / llama.cpp용 GGUF 변환
파인튜닝 모델을 Ollama나 llama.cpp에서 돌리려면 GGUF 포맷 필요. 2단계: LoRA를 베이스에 merge한 다음, llama.cpp의 변환기로 HF 포맷 → GGUF.
GGUF 양자화 선택
| 포맷 | 크기 (7B) | 품질 | 속도 |
|---|---|---|---|
| Q2_K | ~2.7 GB | 낮음 | 가장 빠름 |
| Q4_K_M | ~4.1 GB | 괜찮음 | 빠름 |
| Q5_K_M | ~4.8 GB | 매우 좋음 | 중간 |
| Q6_K | ~5.5 GB | 훌륭함 | 느림 |
| Q8_0 | ~7.2 GB | 거의 무손실 | 가장 느림 |
Q4_K_M이 가장 많이 쓰는 균형점. RAM 있고 품질 원하면 Q6_K.