C.W.K.
Stream
Lesson 08 of 08 · published

Caching, push_to_hub, 재현성

~24 min · datasets, hub, cache

Level 0스카우트
0 XP0/50 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

바이트 어디로 가 (datasets 편)

디폴트 캐시: ~/.cache/huggingface/datasets. HF_DATASETS_CACHE 또는 우산 HF_HOME 으로 override. 라이브러리가 (데이터셋 id, config 이름, 처리 fingerprint) 로 keyed 된 Arrow 파일 씀. fingerprint 가 어떤 map/filter 의 함수 source 포함 — 같은 입력 + 같은 함수 = 캐시 hit.

처리된 데이터셋 저장

무거운 전처리 후엔 보통 결과를 save_to_disk(path) 하고 다음 run 에 load_from_disk(path), 로더 우회. 재현성이 레시피가 아니라 tarball 이 됨.

버전 핀 박은 push_to_hub

ds.push_to_hub("yourname/my-set", commit_message="initial", private=True) 가 Parquet 으로 업로드. 레포가 Dataset Viewer 무료. 모델처럼 SHA 핀: load_dataset(..., revision="abc123def").

Code

save_to_disk + load_from_disk·python
from datasets import load_dataset

ds = load_dataset("stanfordnlp/imdb")
small = ds["train"].select(range(2000))

# 결과 굽기
small.save_to_disk("/tmp/imdb-2k")

# 재로드 — 인터넷 X
from datasets import load_from_disk
ds2 = load_from_disk("/tmp/imdb-2k")
print(len(ds2), ds2[0])
처리된 데이터셋 push_to_hub·python
ds_processed = ds["train"].map(lambda ex: {"text_len": len(ex["text"])}, num_proc=4)

ds_processed.push_to_hub(
    "yourname/imdb-with-length",
    commit_message="add text_len",
    private=True,
)

# read 권한 있는 사람이 이제:
# load_dataset("yourname/imdb-with-length", revision="<sha>")

External links

Exercise

작은 공개 데이터셋 process (filter, map, select). save_to_disk. load_from_disk 로 검증. private 레포에 push_to_hub. 레포 viewer 가 새 컬럼 보이는지 검증. SHA 핀 박고 그 SHA 로 레포에서 load_dataset.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.