built-in 로더가 로컬 케이스 대부분 cover
로컬 파일엔 이제 로딩 스크립트 거의 필요 없어. named 로더 "json", "csv", "parquet", "text", "imagefolder", "audiofolder" 가 흔한 모양 처리. data_files 를 string, list, 또는 split-keyed dict 로 넘김.
imagefolder / audiofolder 컨벤션
imagefolder 는 {root}/{class_name}/{file} 찾고 폴더 이름에서 label inferr. 파일 옆에 metadata.jsonl 또는 metadata.csv 두면 추가 컬럼 (caption, bounding box, transcription) attach.
Dataset.from_dict / from_list / from_pandas
프로그래매틱 생성엔 Dataset.from_dict({...}) 가 컬럼 리스트 받고; Dataset.from_list([{...}, ...]) 가 행 dict 받고; Dataset.from_pandas(df) 가 DataFrame wrap. 셋 다 단일 Dataset 돌려줌; DatasetDict({"train": ..., "test": ...}) 로 combine.