퀴즈 · 4 questions
🧱 Transformer block
Pre-LN, RMSNorm, SwiGLU, residual — unit cell
Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete
Quiz
01Llama와 Mistral의 FFN에서 쓰는 활성 함수는?
Hint
It uses gating and three weight matrices, not two.
02모던 decoder-only LLM이 보통 쓰는 정규화 스킴은?
Hint
Modern means: norm comes before the sublayer, and the norm itself is simpler than the original.
03전형적 Transformer block에서 파라미터 대부분이 어디 있나?
Hint
Despite the name 'attention is all you need,' it's not where the params are.
04Mixtral 8×22B가 forward pass당 사용하는 active 파라미터 수는?
Hint
Total params ≠ active params. Look at the routing K.
댓글 0
🔔 답글 알림 (로그인 필요)로그인 — 댓글을 남기려면 로그인해 주세요.
아직 댓글이 없어요. 첫 댓글을 남겨보세요.