한 함수, 여러 소스
datasets.load_dataset() 가 Datasets 라이브러리 전체 진입점. Hub 데이터셋 id, 로컬 path, 파일 디렉토리, HF 의 named loader script 받아. 백단에서 포맷 (Parquet, CSV, JSONL, TSV, audio folder, image folder, …) 알아내고, HF_DATASETS_CACHE 에 다운로드, Dataset 또는 DatasetDict 돌려줘.
리턴 모양 두 가지
- 로더 스크립트가 split (train/validation/test) 정의하면 DatasetDict — split 이름으로 keyed 된 dict-of-Datasets.
- 특정 split 요청 (
split="train") 하거나 소스에 하나만 있으면 단일 Dataset.
Streaming 이 계약을 바꿈
디폴트로 load_dataset 은 풀 데이터셋을 디스크 다운로드 후 fully indexed array-like 줘. streaming=True 면 IterableDataset 돌려줌: lazy, 디스크에 안 쓰임, random access 없음. 멀티-TB 데이터셋엔 유일하게 sensible 옵션.