C.W.K.
Stream
Lesson 01 of 04 · published

Vision-capable local 모델

~18 min · vision, multimodal

Level 0Downloader
0 XP0/41 lessons0/11 achievements
0/120 XP to next level120 XP to go0% complete

2026의 local vision

Vision 모델은 텍스트랑 이미지 같이 받아서 이미지에 대한 질문 답해. 2026 local 풍경은 OCR, chart 읽기, screenshot 분석, 대부분 "이 이미지 설명" 작업엔 충분히 좋아. 가장 어려운 reasoning에선 frontier 품질 (GPT-4V, Claude 3.5 Sonnet vision, Gemini 3)에 아직 못 미쳐.

모델Sizes강점
Llama 3.2-Vision11B, 90B강한 일반 vision; Ollama 잘 지원
Gemma 34B / 12B / 27B크기 대비 품질 최고; 작은 하드웨어에서도 돌아감
Qwen 2.5-VL3B / 7B / 32B / 72B구조화 데이터 추출, OCR, 다언어 최강
Qwen 3.5다양Vision + tools + thinking — 가장 강한 단일 모델
LLaVA7B / 13B / 34BOG open vision 모델; 여전히 쓸만
MiniCPM-V8B작고 capable, edge deploy에 좋음
Mistral Small 3.1다양3.1부터 vision 지원

Use case별 선택

  • OCR / 구조화 추출: Qwen 2.5-VL이 가장 강한 open option.
  • 일반 "이거 설명": Gemma 3 12B/27B 또는 Llama 3.2-Vision 11B.
  • 빠듯한 메모리: Gemma 3 4B 또는 MiniCPM-V 8B.
  • Vision + tools + thinking: Qwen 3.5 (Ollama에 size별 가능해지면).

Capability 항상 확인

Vision 지원은 모델 레벨에서 binary — visual encoder 있거나 없거나. ollama show MODEL capabilities 줄이 source of truth.

Code

Vision 모델 확인하고 pull·bash
# Capability 확인 ('vision' capabilities에서 찾아)
ollama show llama3.2-vision | grep -i capabilities
ollama show gemma3:12b      | grep -i capabilities
ollama show qwen2.5vl       | grep -i capabilities

# Daily-driver vision 모델 pull
ollama pull gemma3:12b

# OCR-강한 모델 pull
ollama pull qwen2.5vl:7b

External links

Exercise

Vision 모델 두 개 pull (일반 하나, OCR-강한 하나) 해서 각각 ollama show capabilities 돌려. 같은 이미지랑 같은 prompt로 둘 다 hit; 진짜 신경 쓰는 작업에서 어느 게 이기는지 메모.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.