ImageNet 규모 dataset의 실제 모습
메모리에 안 들어가고 여러 파일에 나뉜 dataset에는 TensorFlow native binary 포맷 TFRecord 써. 각 파일이 직렬화된 tf.train.Example protocol buffer 담고 있어 — 순차 읽기 빠르고 병렬 디코딩.
interleave는 여러 TFRecord 파일 동시 읽기로 element 섞어. cycle_length=AUTOTUNE, num_parallel_calls=AUTOTUNE이랑 같이 쓰면 느린 storage (HDD, 네트워크 드라이브)에서 단일 파일 읽기가 병목인 상황의 I/O 포화시켜.
TFRecord 써야 할 때: dataset > ~5GB, 파일 수 > 100, 네트워크 파일시스템. CIFAR-10 / MNIST 크기엔 과해.