TPU가 뭐야?

Tensor Processing Unit (TPU)은 신경망 행렬곱을 위해 특별 설계된 Google의 custom ASIC. 딥러닝의 지배 연산을 위해 만들어졌고, 그걸 굉장히 빨리 해.

하드웨어	Peak TFLOPS (bfloat16)	메모리 bandwidth	용도
NVIDIA A100	~312	2 TB/s	GPT 규모 research
Google TPU v4 (chip 당)	~275	1.2 TB/s	Gemini/PaLM 훈련
TPU v4 Pod (4096 chip)	~1.1 exaFLOPS	~4.9 PB/s	LLM pretraining

GPU랑 다른 점, 꼭 알아야 함:

Eager execution 없음 — 모든 compute가 @tf.function 안에서 graph로 trace 돼야. model.fit이 자동 처리.
bfloat16 native — float32와 같은 exponent 범위, mantissa 비트 적음. mixed_precision.set_global_policy('mixed_bfloat16') 설정.
XLA 컴파일 필수 — 모든 op이 XLA 통과, 효율 위해 op fusion. XLA 구현 없는 일부 TF op는 CPU fallback.
큰 batch size — TPU는 chip당 batch size 1024–8192에 가장 효율적.

Google Colab과 Kaggle 노트북에서 무료 TPU 접근 가능 — 클라우드 비용 없이 학습에 좋아.

External links