의미 있는 다섯 환경변수
| 변수 | 하는 일 | Default |
|---|---|---|
OLLAMA_FLASH_ATTENTION | FlashAttention 활성화 — 보통 가장 큰 perf win 한 번 | off (1로 설정) |
OLLAMA_KV_CACHE_TYPE | KV cache 양자화 (q8_0로 절반; q4_0로 1/4) | fp16 |
OLLAMA_NUM_PARALLEL | 모델당 동시 request | 1 |
OLLAMA_MAX_LOADED_MODELS | 동시에 메모리에 있을 수 있는 모델 수 | 3 |
OLLAMA_KEEP_ALIVE | Request 후 모델 로드 유지 시간 | 5m |
macOS에서 persist
macOS의 Ollama는 launchd가 띄움 — shell의 export 안 봄. launchctl setenv로 persistent env 박고 Ollama service 재시작해서 픽업.
Context window 수학
각 동시 request가 KV cache 곱셈. num_ctx=8192에 NUM_PARALLEL=4 = 32K 유효 KV cache. OLLAMA_KV_CACHE_TYPE=q8_0가 그거 절반. 대부분 모델 default num_ctx는 4096 — 실전엔 8192나 16384로 올려, 메모리 봐가면서.