Chapter 6

Decision tree

결정 트리 학습과 시각화

from sklearn.tree import export_graphviz

export_graphviz(
	tree_clf,
	out_file=image_path("tree.dot"),
	...
)

요런식으로 그림이 나온다.

결정 트리의 여러 장점중 하나는 데이터 전처리가 거의 필요하지 않다.

samples : 얼마나 많은 훈련 샘플이 적용되었는지

value : 노드에서 각 클래스에 얼마나 많은 훈련 샘플이 있는지

gini : 불순도(impurity) 를 측정

sklearn은 결정 트리를 훈련시키기위해 CART(classification and regression tree) 알고리즘을 사용한다

CART 알고리즘은 greedy algorithm 이다. 종종 훌륭한 솔루션을 만들지만, 최적의 솔루션을 보장하지 않는다.

검색에 들어가는 시간 복잡도 $O(log_2(m))$

훈력 복잡도는 $\times mlog_2(m))$

기본적으로 지니 불술도가 사용 되지만 criterion 매개변수를 entropy로 지정하여 엔트로피 불순도를 사용 할 수 있다.

실제로 큰 차이는 없다. 기본값으로는 지니 불순도가 더빨라서 좋다 .

결정트리는 훈련되기전에 파라미터 수가 결정 되지 않기 떄문에 비파라미터 모델이라고 부르기 도 함

결정 트리는 회귀 문제에서 사용 할 수 있다.

훈련 데이터에 있는 작은 변화에도 매우 민감하다.