01🏠Why Local AI
0/5 lessonsPrivacy, cost, latency, offline, freedom
Local-first가 cloud-only를 이기는 시점 — 그리고 그러기 위해 잃는 거. Hardware, quantization, format, 그리고 quest 나머지에서 작업할 engine ecosystem.
내 머신에서 모델 돌리고 운영하기
실용적 local AI 리터러시 빌드: Ollama, GGUF / MLX, API 표면, NDJSON streaming, tool 사용, vision, alternative server, adapter 패턴, production fallback architecture.
9 tracks · 41 lessons · ~32h · difficulty: beginner-to-advanced
Privacy, cost, latency, offline, freedom
Local-first가 cloud-only를 이기는 시점 — 그리고 그러기 위해 잃는 거. Hardware, quantization, format, 그리고 quest 나머지에서 작업할 engine ecosystem.
설치, pull, 실행, 관리
Ollama가 아무것도 안 깔린 상태에서 안정적인 HTTP API 뒤의 local 모델까지 가는 가장 단순한 옳은 경로. API 만지기 전에 CLI랑 모델 라이브러리랑 Modelfile 시스템 마스터해.
Endpoint, option, structured output
모든 adapter에서 얘기할 HTTP 표면. /api/chat은 대화에, /api/generate는 FIM에, 모델 관리 endpoint는 ops에, format 필드는 typed JSON output에.
NDJSON, SSE 아냐
Ollama는 SSE 아니라 NDJSON으로 stream. Python이랑 TypeScript에서 streaming 제대로 만들고, OpenAI-shape frontend 호환성 필요할 때 선택적 NDJSON→SSE proxy 빌드.
진짜 동작하는 function calling
OpenAI-format tool 정의, multi-turn tool loop, timeout이랑 error JSON 가진 방어적 dispatch, agentic loop bound 유지하는 production 패턴.
OCR, chart, screenshot — local에서
Vision-capable local 모델 (Llama 3.2-Vision, Gemma 3, Qwen 2.5-VL), Ollama 이미지 형식, 여러 이미지 use case, local vision이 cloud 이기는 곳.
llama.cpp, vLLM, TGI
Ollama 너머 자랐을 때 engine map. Raw GGUF용 llama.cpp server, 동시 throughput용 vLLM, HuggingFace-native production용 TGI, 안전하게 engine swap하기 위한 호환성 test harness.
Local을 cloud의 swap 가능 peer로
Narrow 인터페이스 하나, universal stream chunk 하나, 작은 모델용 mini-mode, stateless session, cloud→local fallback 가진 multi-vessel orchestrator.
튜닝, 벤치마크, 업데이트, ship
성능 env var, 벤치마크 규율, 이 quest이 의도적으로 뒤에 머무는 MLX 경계, 업데이트 위생, 작은 cloud-first / local-fallback 서비스 end-to-end ship.
아직 댓글이 없어요. 첫 댓글을 남겨보세요.