고려사항
feature 선정
nominal/numeric
missing values
inaccurate value
sparse data
duplicated data
정규화
min_max normalization
$X_{norm}=\frac{x-Min\left(x\right)}{Max\left(x\right)-Min\left(x\right)}$
outlier 는 잘 처리하지 못하지만 균등하게 표현
z-score normalization
Xznorm=(X−mean)/std
균등하진 않지만 outlier 를 잘 표현
Feature Selection
기존의 features 중에서 사용할 feature 를 선별
Filter(univariate statistics)
information gain 이나 class 와 features 간의 거리를 이용해 선별.
계산이 간단함.
이때 모든 features 가 독립적이라는 가정을 함.
Wrapper(iterative feature selection)
따라서 feature 수가 많으면 불가능함.
모든 feature 를 쓰고 하나씩 없애는 방법과 (Recursive Feature Elimination, RFE)
1개씩부터 시작해서 합치는 방법을 주로 씀.
Embedded
classification 알고리즘을 돌리고 그 모델이 중요하게 판단한 feature 들을 선별
모든 feature 가 합쳐져서 고려되므로 독립적이지 않은 features 가 많을 때 유용.
Feature Extraction
기존의 features 을 가공해서 새로운 feature 를 만듦
Deep Learning 의 hidden layer 들도 이것과 관계가 큼
PCA
선형 관계에 있는 feature 들 사이에 regression hyperplane 을 긋음.
이것과 orthogonal hyperplane 을 긋고 이 두개의 hyperplane 을 새로운 축으로 생각함.
그럼 regression hyperplane 축에 대한 데이터가 의미있고 orthogonal 은 의미가 별로 없음.
이렇게 선형관계에 있는 feature 을 합쳐서 하나의 feature 로 만들어 dimension 을 줄이는것.