train_test_split, stratify, seed
ds.train_test_split(test_size=0.1, seed=42, stratify_by_column="label") 가 train + test split DatasetDict 돌려줌. stratification 이 클래스 균형 보존 — 균등 분포 아닌 데이터셋의 분류 eval 에 필수.
concatenate_datasets 와 interleave_datasets
concatenate_datasets([a, b, c]) 가 행 stack. interleave_datasets([a, b, c], probabilities=[0.6, 0.3, 0.1]) 가 매 step 소스에서 sample. 후자가 큐레이션 + 크롤 데이터를 타겟 비율로 mixing 하는 정공법.