한 라이브러리, 만 dataset
datasets (Hugging Face 라이브러리) 가 Hugging Face Hub 의 어떤 dataset 이든 — 그리고 많은 local format 도 — uniform API. 두 큰 feature 가 특별:
- Apache Arrow backing — dataset 이 disk 에서 memory-mapped. 100GB dataset 로딩이 거의 0 RAM; iterate 하는 것만 read.
- Streaming mode — download 너무 큰 dataset 위,
streaming=True설정하고 full file download 없이 iterate.
표준 workflow
load_dataset("name")— fetch (또는 stream) 하고 cache..map(fn, batched=True)— preprocessing 병렬 적용, result disk 에 cache..set_format("torch", columns=[...])— iterate 시 PyTorch tensor 직접 반환, 수동 변환 없이.- 다른 Dataset 처럼 DataLoader 에 넘김.
왜 너 자신 data 있어도 중요
local data 위에도 Datasets 라이브러리가 줘: disk-backed cache 의 병렬 preprocessing, lossless format 변환 (CSV/JSON/Parquet/Arrow), trivial train/val/test split 관리. 합리적 size 의 NLP / vision project 위 data layer 로 사용 가치.