특징
Regression 과 비슷하나 Loss 에 w 에 대한 비중을 따로 추가함.
그러면 w 가 중요하지 않은 feature 에 대해선 0 에 가까워져 모델이 간단해짐.
그래서 과적합을 피할 수 있음.
Ridge Regression(L2 Regression)
Least Absolute Shrinkage and Selection Operator(LASSO, L1 Penalty)
Elastic Net
Least-Angle Regression(LARS)
$Loss=\sum _{\ }^{\ }\left(y_i-y"_i\right)^2=\sum _{\ }^{\ }\left(y_i-\left(w_ix_i+c\right)\right)^2$
$Loss_{Ridge}=\sum _{\ }^{\ }\left(y_i-y"_i\right)^2+\lambda \sum _{\ }^{\ }w_i^2$
$Loss_{Lasso}=\sum _{\ }^{\ }\left(y_i-y"_i\right)^2+\lambda \sum _{\ }^{\ }\left|\combi{w_i}\right|$
$Loss_{Elastic}=\sum _{\ }^{\ }\left(y_i-y"_i\right)^2+\lambda \sum _{\ }^{\ }w_i^2+\lambda \sum _{\ }^{\ }\left|\combi{w_i}\right|$
$$
위의 Loss 함수를 보면 알 수 있듯 람다의 값을 적절히 정하면 과적합을 피할 수 있음.
하지만 너무 크게하면 데이터에 대해서 제대로 학습하지 못할 수 있음.