Data Augmentation

존재하는 가장 싼 regularizer

Data augmentation 이 기존 example 에 label-preserving transformation 적용해서 새 training example 생성. Image 면: random crop, flip, color jitter, MixUp, CutMix, RandAugment. Text 면: synonym replacement, back-translation, token-level dropout. Audio 면: pitch shift, time warp, noise injection.

Augmentation 작동하는 이유 — model 이 specific pixel 패턴 외우기 대신 invariance ('crop 다르게 해도 강아지는 강아지') 학습 강제. 더 강한 augmentation = 더 강한 implicit regularization.

팁: Aug pipeline 이 싸게 compose. Vision 에 표준 'flip + crop + normalize' 부터 시작, 야외/자연 imagery 에 ColorJitter 추가, 진지한 training 에 CutOut/MixUp 추가. Default torchvision/timm pipeline 이 battle-tested.

2026 년 vision augmentation

강한 baseline: RandomResizedCrop + RandomHorizontalFlip + ColorJitter + RandAugment + Normalize. Classification benchmark 에서 1-2% 추가 위해 MixUp 또는 CutMix 추가.

Text 와 audio augmentation

Text: ASR 에 SpecAugment, 많은 NLP task 에 단순 word dropout, low-resource MT 에 back-translation. Audio: SpecAugment, speech robustness 에 room impulse response convolution, SoX-style speed/pitch augmentation.

원칙: Augmentation 이 대부분 vision task 에 model architecture 보다 중요. Stuck training run 에 가장 leverage 높은 일 하나가 augmentation pipeline upgrade.

Code

Standard vision augmentation pipeline·python

from torchvision import transforms

train_tf = transforms.Compose([
    transforms.RandomResizedCrop(224),
    transforms.RandomHorizontalFlip(),
    transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2),
    transforms.RandAugment(num_ops=2, magnitude=9),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
    transforms.RandomErasing(p=0.25),   # cutout
])

eval_tf = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

존재하는 가장 싼 regularizer

2026 년 vision augmentation

Text 와 audio augmentation

Code

External links

Exercise

Progress

댓글 0