Size-vs-prompt 미스매치
작은 모델 (1B–3B)은 길고 layered system prompt에 약해. 잘 못 따라가고, drift하고, 작업하는 대신 meta-commentary 출력 자주 함. 큰 모델 (32B+)은 dense system prompt 자연스럽게 처리. Adapter가 어떤 size랑 얘기하는지 알고 system prompt 적응시켜야.
Mini mode
"Mini mode"는 convention이야: 활성 모델이 작으면 stripped-down system prompt로 swap. Plan 유지, 철학 빼. 형식 유지, 톤 calibration 빼.
Metadata 어디서 와?
/api/tags가 설치된 각 모델의 details.parameter_size ("7B", "32B", "1.5B") 반환. 그거 parse해서 mini / standard / large로 분류, prompt 그에 맞게 라우팅.
분류 reinvent하지 마
세 bucket이면 충분: mini (≤3B), standard (4–14B), large (≥15B). 더 많은 bucket = 한계 효용에 if/else chain만 늘어남.