Signal
Technical report 안 읽고도 모델이 dense 인지 MoE 인지 거의 항상 알 수 있어. 다음 watch:
파라미터 표기
- 단일 숫자 ("70B", "405B") 거의 항상 dense 의미. Dense 는 두 번째 숫자 안 필요해, total = active 니까.
- "XB-AYB" 표기 ("235B-A22B", "671B-A37B") 가 표준 MoE 단축: total / active.
- "X×YB" 표기 ("8×7B", "8×22B") 가 MoE 의 옛 스타일 — N expert 사이즈 Y. Mixtral 의 branding; 많은 새 MoE 모델이 XB-AYB 로 옮겼어.
어휘
- "experts", "router", "gate", "top-K", "routing", "expert collapse", "load balancing" 어떤 언급도 MoE.
- "fine-grained experts", "shared experts", "auxiliary-loss-free balancing" 어떤 언급도 specifically modern MoE (DeepSeek-style).
Cost-shape 단서
- "size 시사보다 더 cheap" 또는 "scale 에서 compute-efficient" 또는 "더 낮은 토큰당 cost 의 frontier capability" 거의 항상 = MoE.
- "lightweight, fast, predictable" 또는 "easy to fine-tune, easy to quantize" 거의 항상 = dense.
Config 파일은 거짓말 안 해
Hugging Face repo 존재하면 config.json 의 num_experts, num_experts_per_tok, num_local_experts, router_aux_loss_coef 같은 필드 확인. 존재 dispositive. 부재가 거의 확실히 dense 의미.