단일 머신에서 fleet으로
MultiWorkerMirroredStrategy는 MirroredStrategy를 여러 머신에 확장. 각 머신이 모든 GPU에 model 사본 운영; gradient가 NCCL all-reduce로 worker AND device 동기화.
TF_CONFIG는 각 worker가 동료들이랑 자기 역할 알기 위한 JSON 환경변수. cluster 필드가 모든 worker 주소 나열; task 필드가 이 worker의 타입과 index 알려줌.
분산 가기 전 성능 레시피: 항상 단일 GPU 먼저 최적화. Profiler가 input bound <5%? Mixed precision 켜짐? XLA 켜짐? Batch size가 메모리 허용 최대? 각각이 분산 복잡도 추가 전 2–5배 속도 향상 가능.