클래스 둘, 멘탈 모델 하나
Dataset 은 named 컬럼 + 행으로 된 단일 Arrow-backed 테이블. DatasetDict 는 그냥 {split_name: Dataset} + 모든 split 에 broadcast 하는 편의 메서드. 단일 Dataset 에서 가능한 모든 거 — map, filter, select, shuffle — DatasetDict 에서도 가능, 모든 split 에 적용.
Features 가 곧 스키마
ds.features 가 스키마 dict. 각 컬럼이 Value, ClassLabel, Sequence, Audio, Image, 또는 nested 타입. 분류 위해 ClassLabel 이 label-int-to-name 매핑 carry — 그래서 ds.features['label'].int2str(1) 이 'positive' 줌. features dict 를 DB 스키마처럼 다뤄: 타입 인지, 쿼리 가능, 데이터가 의미하는 바의 진실 출처.