두 줄 코드로 multi-GPU 또는 TPU
TF distribution API가 단일 device 스크립트를 최소 코드 변경으로 multi-GPU나 TPU chip에 걸쳐 실행. Strategy 만들고 strategy.scope() 안에서 build + compile, model.fit이 gradient 동기화 자동 처리.
| Strategy | 하드웨어 | Sync | 상태 |
|---|---|---|---|
| MirroredStrategy | 1 머신, N GPU | Sync (NCCL) | Stable |
| TPUStrategy | TPU pod / v2/v3/v4 | Sync | Stable |
| MultiWorkerMirroredStrategy | N 머신 × N GPU | Sync | Stable |
| ParameterServerStrategy | N worker + param 서버 | Async | Experimental |
Replica 수에 맞춰 global batch size 스케일링. 4 GPU에서 replica당 batch 64면 global batch 256. Learning rate도 그에 맞춰 (linear scaling 규칙, 매우 큰 batch엔 warmup 추가).