바이트 어디로 가 (datasets 편)
디폴트 캐시: ~/.cache/huggingface/datasets. HF_DATASETS_CACHE 또는 우산 HF_HOME 으로 override. 라이브러리가 (데이터셋 id, config 이름, 처리 fingerprint) 로 keyed 된 Arrow 파일 씀. fingerprint 가 어떤 map/filter 의 함수 source 포함 — 같은 입력 + 같은 함수 = 캐시 hit.
처리된 데이터셋 저장
무거운 전처리 후엔 보통 결과를 save_to_disk(path) 하고 다음 run 에 load_from_disk(path), 로더 우회. 재현성이 레시피가 아니라 tarball 이 됨.
버전 핀 박은 push_to_hub
ds.push_to_hub("yourname/my-set", commit_message="initial", private=True) 가 Parquet 으로 업로드. 레포가 Dataset Viewer 무료. 모델처럼 SHA 핀: load_dataset(..., revision="abc123def").