Data augmentation 이 기존 example 에 label-preserving transformation 적용해서 새 training example 생성. Image 면: random crop, flip, color jitter, MixUp, CutMix, RandAugment. Text 면: synonym replacement, back-translation, token-level dropout. Audio 면: pitch shift, time warp, noise injection.
Augmentation 작동하는 이유 — model 이 specific pixel 패턴 외우기 대신 invariance ('crop 다르게 해도 강아지는 강아지') 학습 강제. 더 강한 augmentation = 더 강한 implicit regularization.
팁: Aug pipeline 이 싸게 compose. Vision 에 표준 'flip + crop + normalize' 부터 시작, 야외/자연 imagery 에 ColorJitter 추가, 진지한 training 에 CutOut/MixUp 추가. Default torchvision/timm pipeline 이 battle-tested.
2026 년 vision augmentation
강한 baseline: RandomResizedCrop + RandomHorizontalFlip + ColorJitter + RandAugment + Normalize. Classification benchmark 에서 1-2% 추가 위해 MixUp 또는 CutMix 추가.
Text 와 audio augmentation
Text: ASR 에 SpecAugment, 많은 NLP task 에 단순 word dropout, low-resource MT 에 back-translation. Audio: SpecAugment, speech robustness 에 room impulse response convolution, SoX-style speed/pitch augmentation.
원칙: Augmentation 이 대부분 vision task 에 model architecture 보다 중요. Stuck training run 에 가장 leverage 높은 일 하나가 augmentation pipeline upgrade.
같은 vision model 을 augmentation 없이, 위 표준 pipeline 으로, 더 강한 pipeline (MixUp 추가) 으로 train. Val accuracy curve 그려. Train loss 의 augmentation tax 는 진짜, val accuracy gain 은 보통 더 큼.
Progress
Progress is local-only — sign in to sync across devices.