Ollama는 stateless
Ollama는 request 간 기억 안 함. Session id 없고, server 쪽 history 없음. 대화 가지려면 매 turn마다 전체 message history replay. Claude Agent SDK (session당 persistent subprocess 유지)랑 비교 — 그게 예외, 룰 아냐. 대부분 LLM API가 stateless; Ollama가 일반적인 경우.
뭐 만들어?
Adapter 위에 얇은 OllamaSession 만들어서 message list 유지, 매 user/assistant turn append, 매 send마다 replay. Adapter는 존재 모름 — session은 상위 layer.
Remote Ollama
Server Mac에 OLLAMA_HOST=0.0.0.0:11434 박아서 daemon을 네트워크에 노출. 그러면 노트북이 adapter를 http://server-mac.local:11434 (또는 Tailscale IP)에 가리켜서 큰 하드웨어로 inference offload. 같은 API, 다른 base URL.
피파 fleet 패턴
피파 office Mac이 Ollama로 더 큰 70B-class 모델 로드해서 돌려. Fleet의 다른 Mac들은 무거운 inference는 office의 Tailscale IP로 Ollama adapter 가리키고, 빠른 작은 작업은 local에서 작은 모델 돌려. 선택은 호출별 — adapter의 base_url에서 설정.