TF를 production에 살려두는 다섯 가지
TF의 강점은 종교적이지 않고 구체적이야. 2026년에 TF를 잡는다면 거의 항상 이 다섯 capability 중 하나 때문이야 — 다 10년간 다듬어졌고, PyTorch나 JAX ecosystem에서 비슷한 성숙도가 없는 영역.
- End-to-end 배포 — TF Serving (REST + gRPC), LiteRT/TFLite (mobile + 마이크로컨트롤러), TF.js (브라우저), TFX (MLOps pipeline). SavedModel 하나로 다 먹여.
- Distributed training 추상화 — multi-GPU는
MirroredStrategy, multi-machine은MultiWorkerMirroredStrategy, Cloud TPU는TPUStrategy. 두 줄로 topology 바꾸고,model.fit이 나머지 다 처리. - tf.data pipeline — lazy, 병렬, GPU 친화.
AUTOTUNE이 runtime에 throughput 재면서 parallelism 알아서 튜닝. ImageNet급 dataset에선 naive pipeline vs 제대로 튜닝한 거가 training 속도 5–10배 차이. - Keras 전문 라이브러리 — KerasCV (vision), KerasHub (NLP + LLM), TF Probability (Bayesian), TF Decision Forests (GBT), TF Recommenders (retrieval + ranking). 다 같은 Keras API.
- TPU access — Cloud TPU는 TF랑 JAX 전용 하드웨어. TPU pod 규모 train 필요하면 TF (특히 Keras 3 + JAX backend)가 가능한 두 선택지 중 하나.
TF가 잘못된 선택일 때: 지난주 paper 구현하기, 최신 HuggingFace LLM fine-tune, 공식 코드가 PyTorch이고 porting 비용이 deployment 이득보다 큰 경우. 솔직하게 trade-off 인정해.