흔한 cleanup, 가져갈 준비됨
텍스트 정규화가 정규식 빛나는 자리. 각각이 복사 가능한 한 줄.
공백 collapse
re.sub(r'\s+', ' ', text) — 공백 (스페이스, 탭, 줄바꿈) 의 어떤 run 이든 단일 공백으로 교체.
비-printable 글자 strip
re.sub(r'[^\x20-\x7E\n]', '', text) — printable ASCII + 줄바꿈만 유지. 손상된 텍스트 정리에 유용.
HTML 태그 제거 (loose, 파싱 X)
re.sub(r'<[^>]+>', '', text) — 꺽쇠 안 모든 거 strip. Ad-hoc 텍스트 추출엔 OK. 진짜 HTML 엔 파서.
줄당 trailing 공백 trim
re.sub(r'[ \t]+$', '', text, flags=re.MULTILINE) — 각 줄에서 trailing 공백과 탭 제거.
줄바꿈 정규화
re.sub(r'\r\n?', '\n', text) — Windows (\r\n) 와 옛 Mac (\r) 줄바꿈을 Unix (\n) 로 변환.
둘러싼 따옴표 strip
re.sub(r'^["\']+|["\']+$', '', text) — 앞뒤 따옴표 제거.
민감 패턴 마스킹
re.sub(r'\b\d{4}-\d{4}-\d{4}-\d{4}\b', '****-****-****-****', text) — 신용카드-shape 문자열 마스킹. 같은 패턴, 다른 치환, SSN 등에.
제목 slugify
3 단계: 소문자, 비-영숫자를 하이픈으로 교체, 다중 하이픈 collapse.