Vision-capable local 모델

2026의 local vision

Vision 모델은 텍스트랑 이미지 같이 받아서 이미지에 대한 질문 답해. 2026 local 풍경은 OCR, chart 읽기, screenshot 분석, 대부분 "이 이미지 설명" 작업엔 충분히 좋아. 가장 어려운 reasoning에선 frontier 품질 (GPT-4V, Claude 3.5 Sonnet vision, Gemini 3)에 아직 못 미쳐.

모델	Sizes	강점
Llama 3.2-Vision	11B, 90B	강한 일반 vision; Ollama 잘 지원
Gemma 3	4B / 12B / 27B	크기 대비 품질 최고; 작은 하드웨어에서도 돌아감
Qwen 2.5-VL	3B / 7B / 32B / 72B	구조화 데이터 추출, OCR, 다언어 최강
Qwen 3.5	다양	Vision + tools + thinking — 가장 강한 단일 모델
LLaVA	7B / 13B / 34B	OG open vision 모델; 여전히 쓸만
MiniCPM-V	8B	작고 capable, edge deploy에 좋음
Mistral Small 3.1	다양	3.1부터 vision 지원

Use case별 선택

OCR / 구조화 추출: Qwen 2.5-VL이 가장 강한 open option.
일반 "이거 설명": Gemma 3 12B/27B 또는 Llama 3.2-Vision 11B.
빠듯한 메모리: Gemma 3 4B 또는 MiniCPM-V 8B.
Vision + tools + thinking: Qwen 3.5 (Ollama에 size별 가능해지면).

Capability 항상 확인

Vision 지원은 모델 레벨에서 binary — visual encoder 있거나 없거나. ollama show MODEL capabilities 줄이 source of truth.

Code

Vision 모델 확인하고 pull·bash

# Capability 확인 ('vision' capabilities에서 찾아)
ollama show llama3.2-vision | grep -i capabilities
ollama show gemma3:12b      | grep -i capabilities
ollama show qwen2.5vl       | grep -i capabilities

# Daily-driver vision 모델 pull
ollama pull gemma3:12b

# OCR-강한 모델 pull
ollama pull qwen2.5vl:7b

Vision-capable local 모델

2026의 local vision

Use case별 선택

Capability 항상 확인

Code

External links

Exercise

Progress

댓글 0