성능 튜닝

~22 min · ops, performance

Level 0Downloader

0 XP0/41 lessons0/11 achievements

0/120 XP to next level120 XP to go0% complete

의미 있는 다섯 환경변수

변수	하는 일	Default
`OLLAMA_FLASH_ATTENTION`	FlashAttention 활성화 — 보통 가장 큰 perf win 한 번	off (`1`로 설정)
`OLLAMA_KV_CACHE_TYPE`	KV cache 양자화 (`q8_0`로 절반; `q4_0`로 1/4)	fp16
`OLLAMA_NUM_PARALLEL`	모델당 동시 request	1
`OLLAMA_MAX_LOADED_MODELS`	동시에 메모리에 있을 수 있는 모델 수	3
`OLLAMA_KEEP_ALIVE`	Request 후 모델 로드 유지 시간	`5m`

macOS에서 persist

macOS의 Ollama는 launchd가 띄움 — shell의 export 안 봄. launchctl setenv로 persistent env 박고 Ollama service 재시작해서 픽업.

Context window 수학

각 동시 request가 KV cache 곱셈. num_ctx=8192에 NUM_PARALLEL=4 = 32K 유효 KV cache. OLLAMA_KV_CACHE_TYPE=q8_0가 그거 절반. 대부분 모델 default num_ctx는 4096 — 실전엔 8192나 16384로 올려, 메모리 봐가면서.

Code

macOS에 persistent 튜닝·bash

# 다섯 knob 설정 (launchd 통해 재시작 후에도 persist)
launchctl setenv OLLAMA_FLASH_ATTENTION 1
launchctl setenv OLLAMA_KV_CACHE_TYPE q8_0
launchctl setenv OLLAMA_NUM_PARALLEL 2
launchctl setenv OLLAMA_MAX_LOADED_MODELS 3
launchctl setenv OLLAMA_KEEP_ALIVE 30m

# Ollama 재시작해서 daemon이 새 env 픽업
osascript -e 'tell application "Ollama" to quit'
open -a Ollama

# Daemon이 보는지 확인
curl -s http://localhost:11434/api/version
ps eauwx | grep -i ollama | head -1   # process listing에서 env 확인

Linux (systemd) 버전·bash

# Systemd unit 편집 — 공식 install이 여기 둠:
sudo systemctl edit ollama.service
# [Service] 아래 추가:
#   Environment="OLLAMA_FLASH_ATTENTION=1"
#   Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
#   Environment="OLLAMA_NUM_PARALLEL=2"
#   Environment="OLLAMA_MAX_LOADED_MODELS=3"
#   Environment="OLLAMA_KEEP_ALIVE=30m"

sudo systemctl daemon-reload
sudo systemctl restart ollama

External links

Exercise

머신에 다섯 env var 박아 (persistent — launchctl setenv 또는 systemd unit 편집). Ollama 재시작. 7B 모델에 같은 prompt 전후로 시간 재. Speedup 메모; <10%면 하드웨어가 이미 saturated된 거고 더 작은 quant이나 더 큰 모델로 더 이득.

Progress

Progress is local-only — sign in to sync across devices.

← 🔄 The Adapter Pattern퀴즈 · 4 questions Next →Local 벤치마크

이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

🔔 답글 알림 (로그인 필요)

로그인 — 댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.