모든 builder 가 물을 다섯 질문

읽기 discipline

모든 모델 발표, 블로그 포스트, 마케팅 페이지가 다섯 질문 통해 처리 가능. 답할 수 있으면 production 에 중요한 유일한 방식으로 모델 이해. 못하면 발표가 뭔가 숨기고 있어.

1. 토큰당 무엇이 활성화돼?

Total params 와 active params. Dense (total = active) 인가 MoE (active < total) 인가? 메모리 cost 와 토큰당 compute 결정. 항상 먼저 답해; 모든 후속 cost 추정 control.

2. Latency 어떻게 보여?

변동 높은 latency 의 reasoning 모델인가, 예측 가능 latency 의 standard 모델인가? Reasoning 이면 budget configurable? Thinking time 빌링?

3. Local 서빙 가능?

Consumer 하드웨어 (single 24GB or 48GB card, 또는 Mac Studio) 에서 실행 가능? 흔한 quantization 의 minimum VRAM 은? GGUF/MLX/AWQ port 있어? 답 못하면 managed API 의존.

4. Benchmark 이김이 너의 use case 에 진짜?

Benchmark contamination, cherry-picked 메트릭, evaluation-protocol tweak 만연. 가장 강한 signal 이 너의 task 의 자체 evaluation. 발표가 신경 안 쓰는 benchmark headline 이면 그것도 useful 정보.

5. Capability 가 architecture, training, inference scaffolding 중?

네 축 지도에 변화 위치 시키면 어떤 부분 transfer 할지 알려줘. Architecture 변화는 드물고 copy 느림; training, inference 변화는 경쟁자가 빨리 replicate 가능. "moat" 가 6개월 holding 할지의 가장 좋은 단일 예측.

Discipline 가 compounding 으로 갚아

다섯 질문 처음 적용하면 느낌. 열 번째 모델 발표쯤 2분 평평. 그쯤 발표가 어떤 질문 dodge 하는지도 느낄 수 있어 — 그게 보통 포스트의 가장 informative 한 거.

읽기 discipline

1. 토큰당 무엇이 활성화돼?

2. Latency 어떻게 보여?

3. Local 서빙 가능?

4. Benchmark 이김이 너의 use case 에 진짜?

5. Capability 가 architecture, training, inference scaffolding 중?

Discipline 가 compounding 으로 갚아

External links

Exercise

Progress

댓글 0