Log: ML memo - Instance Based Model

Instance Based Model

가지고 있는 instances 만을 가지고 새로운 input 을 판단함.

판단 기준은 기존의 features 를 이용해 만든 similarity function 에 통과시켜 가장 가까운 label 을 선택하게 하는 것.

non-linear boundary 를 쉽게 판단 가능함.

새로운 input(1 row) 이 있으면 k 개의 가장 가까운 instance 를 찾음.

k 개 중에서 가장 많은 수의 label 이 새로운 input 의 label 이 됨.

속도가 느리기 때문에 Voronoi Tesselation 등의 방법이 있음.

위의 방법은 기존 데이터를 여러 영역으로 나누어서 k 개의 탐색을 특정 영역만 하겠다는 것.

혹은 feature 의 갯수를 줄이거나, K-D tree 의 거리에 따른 binary tree 를 이용해 검색시간을 단축함.

k 의 선택이 중요한데, k = total-num 이면 Zero-R 과 다른게 없음.

k 가 작으면 training set 의 의존도가 높아지고 불안정해짐.

보통은 k 을 0부터 늘리면서 가장 많은 test set 의 성능을 보인걸 택함.

이때 k 를 홀수로 해서 비율이 반반인 경우를 제거함.

Training Set 에 영향을 크게 받으므로, Training Set 의 Label 의 비율을 똑같이 해야함.

Missing Value 의 경우 평균치를 넣어서 영향을 줄임.

각 Features 의 영향을 균등하게 하기 위해서 Normalization 이 필수임.