실전에서 진짜 짜게 될 pipeline
대부분 실전 이미지 프로젝트는 클래스별로 정리된 JPEG/PNG 디렉토리가 있어. 두 경로: 빠른 실험엔 high-level keras.utils.image_dataset_from_directory, 제어 필요하면 tf.io.read_file로 수동 pipeline.
피해야 할 4가지 안티패턴:
- Batch 후 shuffle — element 아니라 batch만 셔플됨.
- Prefetch 없음 — batch 사이 GPU 정지.
- Augment된 데이터 cache — 매 epoch 같은 augmentation.
- Num_parallel_calls hardcode —
AUTOTUNE이 적응하는데 굳이.
느릴 땐 TensorBoard Input Pipeline Analyzer (Profile 탭) 열어서 "Input Bound: 80%" 찾아 — 데이터 로딩이 model 계산이 아니라 병목이라는 표준 신호.