2020년 11월 30일 월요일

ML memo - Reguralization

특징

Regression 과 비슷하나 Loss 에 w 에 대한 비중을 따로 추가함.

그러면 w 가 중요하지 않은 feature 에 대해선 0 에 가까워져 모델이 간단해짐.

그래서 과적합을 피할 수 있음.


Ridge Regression(L2 Regression)

Least Absolute Shrinkage and Selection Operator(LASSO, L1 Penalty)

Elastic Net

Least-Angle Regression(LARS)


$Loss=\sum _{\ }^{\ }\left(y_i-y"_i\right)^2=\sum _{\ }^{\ }\left(y_i-\left(w_ix_i+c\right)\right)^2$Loss=  (yiyi)2=  (yi(wixi+c))2
$Loss_{Ridge}=\sum _{\ }^{\ }\left(y_i-y"_i\right)^2+\lambda \sum _{\ }^{\ }w_i^2$LossRidge=  (yiyi)2+λ  w2i
$Loss_{Lasso}=\sum _{\ }^{\ }\left(y_i-y"_i\right)^2+\lambda \sum _{\ }^{\ }\left|\combi{w_i}\right|$LossLasso=  (yiyi)2+λ  |wi|
$Loss_{Elastic}=\sum _{\ }^{\ }\left(y_i-y"_i\right)^2+\lambda \sum _{\ }^{\ }w_i^2+\lambda \sum _{\ }^{\ }\left|\combi{w_i}\right|$LossElastic=  (yiyi)2+λ  w2i+λ  |wi|
$$

위의 Loss 함수를 보면 알 수 있듯 람다의 값을 적절히 정하면 과적합을 피할 수 있음.

하지만 너무 크게하면 데이터에 대해서 제대로 학습하지 못할 수 있음.


List