C.W.K.
Stream
퀴즈 · 4 questions

🧱 Transformer block

Pre-LN, RMSNorm, SwiGLU, residual — unit cell

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

Quiz

01Llama와 Mistral의 FFN에서 쓰는 활성 함수는?
Hint
It uses gating and three weight matrices, not two.
02모던 decoder-only LLM이 보통 쓰는 정규화 스킴은?
Hint
Modern means: norm comes before the sublayer, and the norm itself is simpler than the original.
03전형적 Transformer block에서 파라미터 대부분이 어디 있나?
Hint
Despite the name 'attention is all you need,' it's not where the params are.
04Mixtral 8×22B가 forward pass당 사용하는 active 파라미터 수는?
Hint
Total params ≠ active params. Look at the routing K.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.