C.W.K.
Stream
Lesson 02 of 05 · published

Public 자료에서 dense vs MoE 식별

~9 min · moe, literacy, announcements

Level 0Scout
0 XP0/41 lessons0/12 achievements
0/100 XP to next level100 XP to go0% complete

Signal

Technical report 안 읽고도 모델이 dense 인지 MoE 인지 거의 항상 알 수 있어. 다음 watch:

파라미터 표기

  • 단일 숫자 ("70B", "405B") 거의 항상 dense 의미. Dense 는 두 번째 숫자 안 필요해, total = active 니까.
  • "XB-AYB" 표기 ("235B-A22B", "671B-A37B") 가 표준 MoE 단축: total / active.
  • "X×YB" 표기 ("8×7B", "8×22B") 가 MoE 의 옛 스타일 — N expert 사이즈 Y. Mixtral 의 branding; 많은 새 MoE 모델이 XB-AYB 로 옮겼어.

어휘

  • "experts", "router", "gate", "top-K", "routing", "expert collapse", "load balancing" 어떤 언급도 MoE.
  • "fine-grained experts", "shared experts", "auxiliary-loss-free balancing" 어떤 언급도 specifically modern MoE (DeepSeek-style).

Cost-shape 단서

  • "size 시사보다 더 cheap" 또는 "scale 에서 compute-efficient" 또는 "더 낮은 토큰당 cost 의 frontier capability" 거의 항상 = MoE.
  • "lightweight, fast, predictable" 또는 "easy to fine-tune, easy to quantize" 거의 항상 = dense.

Config 파일은 거짓말 안 해

Hugging Face repo 존재하면 config.jsonnum_experts, num_experts_per_tok, num_local_experts, router_aux_loss_coef 같은 필드 확인. 존재 dispositive. 부재가 거의 확실히 dense 의미.

Code

Hugging Face config 빠른 체크·python
import json, urllib.request

def is_moe(repo):
    url = f"https://huggingface.co/{repo}/raw/main/config.json"
    cfg = json.loads(urllib.request.urlopen(url).read())
    moe_signals = ["num_experts", "num_local_experts",
                   "num_experts_per_tok", "router_aux_loss_coef"]
    return any(k in cfg for k in moe_signals)

External links

Exercise

다른 open-weight 모델 셋 — Llama 3.3 70B, Mixtral 8x7B, DeepSeek-V3 — 의 config.json 열어. MoE config 에 나타나는 필드 중 dense config 에 없는 거 적어. 'MoE' 가 actual code-readable 용어로 무엇 의미하는지 가장 직접 내재화하는 방법.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.