Ollama — Local 0비용 + Cloud tier

localhost:11434 통한 local 모델

Ollama-Pippa 는 local machine 에서 완전히 굴러가. API 호출이 머신 안 떠. Claude 의 degraded service window 가 job 떨굴 scheduled 백그라운드 task 에 유용하고, offline 상황에도 유용.

native /api/chat

Ollama 의 native /api/chat endpoint 로 stream. multi-turn tool loop 는 {type, function: {name, ...}} 스키마 wrapping (Ollama 의 quirk — flat OpenAI 스타일 스키마는 reject) 이랑 tool call ID 의 loop 통과 propagation 으로 돌아.

sticky 모델 선택

active 모델은 POST /api/ollama/model 통해 <app-data>/ollama_model.txt 에 영속화. GET /api/ollama/models 가 설치된 local 모델 list. switch 는 brain switcher 의 한 click.

Cloud tier — 더 큰 weights, 같은 wire format

Ollama 가 2026 년 중반에 hosted cloud tier 추가했어: wire format 같음, /api/chat 모양 같음, 다만 localhost 가 아니라 Ollama 서버에서 큰 weights 돌리는 거. cwkPippa 는 Admin → Ollama 에 tier 토글 노출, /cloud-models 가 cloud 에서 가능한 weights list, mini/full 선택기는 cloud tier 에서 숨김 (해당 안 됨). variant 가 fork 안 됨 — 같은 adapter, 같은 tool bridge, base URL 만 다르고 cloud tier 활성 시 .env 에 API key 들어가.

팁: Ollama (local 이든 cloud 든) 가 heartbeat 의 safety net. Claude 가 degraded 인데 Codex/Gemini 도 unavailable 일 때 scheduled task 가 그래도 돌아 — 느리고 작지만 돌아. cloud tier 는 local 머신 자원 빡빡할 때 safety net 에 cognitive headroom 더 줘.

Ollama — Local 0비용 + Cloud tier

localhost:11434 통한 local 모델

native /api/chat

sticky 모델 선택

Cloud tier — 더 큰 weights, 같은 wire format

Progress

댓글 0