연속 target, 실제 결과
Regression은 연속(또는 count) 스케일의 숫자 — 가격, demand, latency, revenue, churn까지 남은 일수 — 를 예측한다는 뜻이야. metric은 prediction과 truth 사이의 거리. classification과 달리 error의 magnitude가 방향만큼 중요해.
먼저 던질 두 질문
- 크기 E의 error가 얼마나 비싸나? truth 110에서 100을 예측하는 게 한 비즈니스에선 무료, 다른 비즈니스에선 재앙.
- target이 자연스럽게 bounded? count는 음 아닌 정수. 확률은 [0, 1]. bound 무시하면 모델이 그 밖에서 nonsense 출력.
log trick
target이 orders of magnitude 걸칠 때 (revenue, web traffic, latency), log(target) 예측. error가 그러면 ratio에 대응하고, 그게 보통 비즈니스가 신경 쓰는 거. 보고 전에 inverse 잊지 마.