로컬 서빙 경로
로컬 추론(노트북, 내부 서버, air-gapped 박스)엔 Ollama + llama.cpp 스택이 옳은 선택. 둘 다 네이티브로 말하는 포맷이 GGUF.
파이프라인
- LoRA를 베이스에 merge(이전 레슨).
- llama.cpp 변환기로 HF 포맷 → GGUF.
- 타겟 메모리 예산에 맞춰 GGUF 양자화.
- Modelfile로 wrap하고 Ollama로 서빙.
~24 min · ollama, llama-cpp, gguf, local, apple-silicon
로컬 추론(노트북, 내부 서버, air-gapped 박스)엔 Ollama + llama.cpp 스택이 옳은 선택. 둘 다 네이티브로 말하는 포맷이 GGUF.
# Convert merged HF model to GGUF
cd llama.cpp
python convert_hf_to_gguf.py ../merged-model \
--outtype f16 --outfile model-f16.gguf
# Quantize (pick based on hardware)
./llama-quantize model-f16.gguf model-Q4_K_M.gguf Q4_K_M
# For Apple Silicon with plenty of RAM:
./llama-quantize model-f16.gguf model-Q6_K.gguf Q6_K# Create Modelfile
cat > Modelfile << 'EOF'
FROM ./model-Q4_K_M.gguf
TEMPLATE """<|begin_of_text|><|start_header_id|>system<|end_header_id|>
{{ .System }}<|eot_id|><|start_header_id|>user<|end_header_id|>
{{ .Prompt }}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
"""
PARAMETER temperature 0.7
PARAMETER num_ctx 4096
PARAMETER stop "<|eot_id|>"
SYSTEM "You are my fine-tuned assistant."
EOF
# Build and run
ollama create my-model -f Modelfile
ollama run my-model "Hello, how can you help me?"아직 댓글이 없어요. 첫 댓글을 남겨보세요.