C.W.K.
Stream
퀴즈 · 4 questions

왜 트랜스포머인가

병렬 시퀀스 모델링 — 그게 깬 병목

Level 0Token
0 XP0/94 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

Quiz

01RNN의 어떤 아키텍처적 병목을 트랜스포머가 제거했을까?
Hint
Think about what the GPU is good at and what the RNN forces it to wait on.
02표준 self-attention의 시퀀스 길이 n에 대한 시간/메모리 복잡도는?
Hint
Look at the shape of Q @ K^T.
03GPT-5, LLaMA 4, Claude 3.7 Sonnet이 공통으로 쓰는 아키텍처 모양은?
Hint
What attention pattern do you need if you generate one token at a time?
04Chinchilla의 컴퓨트 최적 규칙은 트랜스포머 학습에 대해 뭐라고 하는가?
Hint
Look up Chinchilla's rule and remember the number 20 — but also why modern training doesn't follow it.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.