2020년 11월 30일 월요일

ML memo - Rule

Rudimentary Rules

error rate 만으로 rule 을 만들어 dataset 에 크게 의존됨.

일단 이거보단 결과가 좋아야함 = 이후 모델의 baseline 이 됨


Zero-R

class 의 가장 많은 value 로 몰빵


One-R

feature 의 각 value 마다 가장 많은 class 의 value 를 몰빵함. 

각 feature 중에서 가장 좋은 정확도를 가져오는 feature 를 사용.

Numeric value 일 경우 최소 합칠 크기를 정해서 묶어줌.


Covering Algorithm

특징

rule set 을 구해서 그것의 조합으로 분류. 그래서 사람이 이해하기 쉬움.

각 class 의 value 마다 그것을 설명하는 rule 을 만듦.

그걸로 cover 안되면 새로운 rule 을 추가함.

이를 모든 instance 가 적용될 때 까지 반복함 => 전체 feature space 가 커버 안될수도.


rule set 을 decision tree 등을 통해서 뽑는건 간단함.

반대로 rule set 을 통해 decision tree 를 만드는건 어려움. 하지만 가능함. 


대개 rectangle 한 decision boundary 를 만듦.


PART

Ripper(JRip)

PART 보다 rule 을 적게 만듦.

List