2020년 12월 2일 수요일

ML memo - Preprocess

고려사항

feature 선정

nominal/numeric

missing values

inaccurate value

sparse data

duplicated data


정규화

min_max normalization

$X_{norm}=\frac{x-Min\left(x\right)}{Max\left(x\right)-Min\left(x\right)}$Xnorm=xMin(x)Max(x)Min(x)

outlier 는 잘 처리하지 못하지만 균등하게 표현


z-score normalization

Xznorm=(Xmean)/std

균등하진 않지만 outlier 를 잘 표현


Feature Selection

기존의 features 중에서 사용할 feature 를 선별

Filter(univariate statistics)

information gain 이나 class 와 features 간의 거리를 이용해 선별.

계산이 간단함.

이때 모든 features 가 독립적이라는 가정을 함.


Wrapper(iterative feature selection)

모든 가능한 feature 의 조합중에 제일 좋은걸 선별.

따라서 feature 수가 많으면 불가능함.

모든 feature 를 쓰고 하나씩 없애는 방법과 (Recursive Feature Elimination, RFE)

1개씩부터 시작해서 합치는 방법을 주로 씀.



Embedded

classification 알고리즘을 돌리고 그 모델이 중요하게 판단한 feature 들을 선별

모든 feature 가 합쳐져서 고려되므로 독립적이지 않은 features 가 많을 때 유용.

Feature Extraction

기존의 features 을 가공해서 새로운 feature 를 만듦

Deep Learning 의 hidden layer 들도 이것과 관계가 큼

PCA

선형 관계에 있는 feature 들 사이에 regression hyperplane 을 긋음.

이것과 orthogonal hyperplane 을 긋고 이 두개의 hyperplane 을 새로운 축으로 생각함.

그럼 regression hyperplane 축에 대한 데이터가 의미있고 orthogonal 은 의미가 별로 없음.

이렇게 선형관계에 있는 feature 을 합쳐서 하나의 feature 로 만들어 dimension 을 줄이는것.



List