Gemini를 훈련시키는 하드웨어
Tensor Processing Unit (TPU)은 신경망 행렬곱을 위해 특별 설계된 Google의 custom ASIC. 딥러닝의 지배 연산을 위해 만들어졌고, 그걸 굉장히 빨리 해.
| 하드웨어 | Peak TFLOPS (bfloat16) | 메모리 bandwidth | 용도 |
|---|---|---|---|
| NVIDIA A100 | ~312 | 2 TB/s | GPT 규모 research |
| Google TPU v4 (chip 당) | ~275 | 1.2 TB/s | Gemini/PaLM 훈련 |
| TPU v4 Pod (4096 chip) | ~1.1 exaFLOPS | ~4.9 PB/s | LLM pretraining |
GPU랑 다른 점, 꼭 알아야 함:
- Eager execution 없음 — 모든 compute가
@tf.function안에서 graph로 trace 돼야.model.fit이 자동 처리. - bfloat16 native — float32와 같은 exponent 범위, mantissa 비트 적음.
mixed_precision.set_global_policy('mixed_bfloat16')설정. - XLA 컴파일 필수 — 모든 op이 XLA 통과, 효율 위해 op fusion. XLA 구현 없는 일부 TF op는 CPU fallback.
- 큰 batch size — TPU는 chip당 batch size 1024–8192에 가장 효율적.
Google Colab과 Kaggle 노트북에서 무료 TPU 접근 가능 — 클라우드 비용 없이 학습에 좋아.