퀴즈 · 4 questions
⚡ 왜 트랜스포머인가
병렬 시퀀스 모델링 — 그게 깬 병목
Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete
Quiz
01RNN의 어떤 아키텍처적 병목을 트랜스포머가 제거했을까?
Hint
Think about what the GPU is good at and what the RNN forces it to wait on.
02표준 self-attention의 시퀀스 길이 n에 대한 시간/메모리 복잡도는?
Hint
Look at the shape of Q @ K^T.
03GPT-5, LLaMA 4, Claude 3.7 Sonnet이 공통으로 쓰는 아키텍처 모양은?
Hint
What attention pattern do you need if you generate one token at a time?
04Chinchilla의 컴퓨트 최적 규칙은 트랜스포머 학습에 대해 뭐라고 하는가?
Hint
Look up Chinchilla's rule and remember the number 20 — but also why modern training doesn't follow it.
댓글 0
🔔 답글 알림 (로그인 필요)로그인 — 댓글을 남기려면 로그인해 주세요.
아직 댓글이 없어요. 첫 댓글을 남겨보세요.