C.W.K.
Stream
Lesson 01 of 05 · published

성능 튜닝

~22 min · ops, performance

Level 0Downloader
0 XP0/41 lessons0/11 achievements
0/120 XP to next level120 XP to go0% complete

의미 있는 다섯 환경변수

변수하는 일Default
OLLAMA_FLASH_ATTENTIONFlashAttention 활성화 — 보통 가장 큰 perf win 한 번off (1로 설정)
OLLAMA_KV_CACHE_TYPEKV cache 양자화 (q8_0로 절반; q4_0로 1/4)fp16
OLLAMA_NUM_PARALLEL모델당 동시 request1
OLLAMA_MAX_LOADED_MODELS동시에 메모리에 있을 수 있는 모델 수3
OLLAMA_KEEP_ALIVERequest 후 모델 로드 유지 시간5m

macOS에서 persist

macOS의 Ollama는 launchd가 띄움 — shell의 export 안 봄. launchctl setenv로 persistent env 박고 Ollama service 재시작해서 픽업.

Context window 수학

각 동시 request가 KV cache 곱셈. num_ctx=8192NUM_PARALLEL=4 = 32K 유효 KV cache. OLLAMA_KV_CACHE_TYPE=q8_0가 그거 절반. 대부분 모델 default num_ctx는 4096 — 실전엔 8192나 16384로 올려, 메모리 봐가면서.

Code

macOS에 persistent 튜닝·bash
# 다섯 knob 설정 (launchd 통해 재시작 후에도 persist)
launchctl setenv OLLAMA_FLASH_ATTENTION 1
launchctl setenv OLLAMA_KV_CACHE_TYPE q8_0
launchctl setenv OLLAMA_NUM_PARALLEL 2
launchctl setenv OLLAMA_MAX_LOADED_MODELS 3
launchctl setenv OLLAMA_KEEP_ALIVE 30m

# Ollama 재시작해서 daemon이 새 env 픽업
osascript -e 'tell application "Ollama" to quit'
open -a Ollama

# Daemon이 보는지 확인
curl -s http://localhost:11434/api/version
ps eauwx | grep -i ollama | head -1   # process listing에서 env 확인
Linux (systemd) 버전·bash
# Systemd unit 편집 — 공식 install이 여기 둠:
sudo systemctl edit ollama.service
# [Service] 아래 추가:
#   Environment="OLLAMA_FLASH_ATTENTION=1"
#   Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
#   Environment="OLLAMA_NUM_PARALLEL=2"
#   Environment="OLLAMA_MAX_LOADED_MODELS=3"
#   Environment="OLLAMA_KEEP_ALIVE=30m"

sudo systemctl daemon-reload
sudo systemctl restart ollama

External links

Exercise

머신에 다섯 env var 박아 (persistent — launchctl setenv 또는 systemd unit 편집). Ollama 재시작. 7B 모델에 같은 prompt 전후로 시간 재. Speedup 메모; <10%면 하드웨어가 이미 saturated된 거고 더 작은 quant이나 더 큰 모델로 더 이득.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.