C.W.K.
Stream
Lesson 02 of 05 · published

Linear Regression 직관

~28 min · linear, regression

Level 0Scout
0 XP0/48 lessons0/11 achievements
0/120 XP to next level120 XP to go0% complete

기하

Linear regression이 점들의 cloud를 통과하는 hyperplane을 fit. 계수는 다른 feature 고정 시 한 unit 변화당 target 변화. intercept는 모든 feature가 0일 때 predicted target. centered feature면 intercept가 target의 평균.

왜 여전히 중요한가

Linear regression이 ship 가능한 가장 빠른 baseline, 비기술 stakeholder에게 설명하기 가장 쉬운, feature drift 아래에서 가장 안정적. performance의 floor로 다뤄: 더 화려한 모델은 신경 쓰는 metric에서 유지 비용을 정당화하는 마진으로 이 floor를 이겨야 해.

계수를 정직하게 읽기

계수는 correlational, not causal. "days_since_signup"의 양 계수가 "고객 나이 늘리면 churn한다"는 뜻이 아냐. 다른 feature 비슷한 고객 중 더 오래된 사람이 더 churn 한다는 뜻. multicollinearity가 prediction 좋게 유지하면서도 개별 계수를 헝클어.

Code

plain linear regression과 계수 inspection·python
from sklearn.linear_model import LinearRegression
import pandas as pd

lr = LinearRegression().fit(X_train, y_train)
coefs = pd.Series(lr.coef_, index=X_train.columns).sort_values(key=abs, ascending=False)
print(coefs.head(10))
print("intercept:", lr.intercept_)
계수 magnitude 비교 전엔 standardize·python
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

pipe = Pipeline([("scale", StandardScaler()), ("lr", LinearRegression())]).fit(X_train, y_train)
# Now coef magnitudes are comparable across features

External links

Exercise

dataset에 standardized linear regression train. 절댓값 기준 top-10 feature 출력. 각각에 대해 sign과 magnitude가 prior와 매치되는지 한 문장. surprise는 조사해.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.