C.W.K.
Stream
Lesson 01 of 04 · published

TPU가 뭐야?

~10 min · tpu, hardware, xla

Level 0Level 0
0 XP0/78 lessons0/17 achievements
0/100 XP to next level100 XP to go0% complete

Gemini를 훈련시키는 하드웨어

Tensor Processing Unit (TPU)은 신경망 행렬곱을 위해 특별 설계된 Google의 custom ASIC. 딥러닝의 지배 연산을 위해 만들어졌고, 그걸 굉장히 빨리 해.

하드웨어Peak TFLOPS (bfloat16)메모리 bandwidth용도
NVIDIA A100~3122 TB/sGPT 규모 research
Google TPU v4 (chip 당)~2751.2 TB/sGemini/PaLM 훈련
TPU v4 Pod (4096 chip)~1.1 exaFLOPS~4.9 PB/sLLM pretraining

GPU랑 다른 점, 꼭 알아야 함:

  • Eager execution 없음 — 모든 compute가 @tf.function 안에서 graph로 trace 돼야. model.fit이 자동 처리.
  • bfloat16 native — float32와 같은 exponent 범위, mantissa 비트 적음. mixed_precision.set_global_policy('mixed_bfloat16') 설정.
  • XLA 컴파일 필수 — 모든 op이 XLA 통과, 효율 위해 op fusion. XLA 구현 없는 일부 TF op는 CPU fallback.
  • 큰 batch size — TPU는 chip당 batch size 1024–8192에 가장 효율적.

Google Colab과 Kaggle 노트북에서 무료 TPU 접근 가능 — 클라우드 비용 없이 학습에 좋아.

External links

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.