목록전체 글 (25)
나름개발블로그
차원의 저주 차원 축소를 위한 접근 방법 투영 매니폴드 학습 PCA 주성분 분석 (principal component analysis) 가장 인기 있는 차원 축소 알고리즘 데이터에 가장 가까운 초평면을 정의한 다음 , 데이터를 이 평면에 투영시킴 분산보존 분산이 최대로 보존되는 축으로 투영 주성분 i번째 축을 데이터의 i 번째 주성분이라고 한다. SVD(특잇값 분해) 라는 표준 행렬 분해 기술이 있어서 찾을 수 있다. d차원으로 투영하기 Xd-proj=XWdX_\text{d-proj} = XW_dXd-proj=XWd sklearn 사용하기 from sklearn.decomposition import PCA pca = PCA(n_components =2) X2D = pca.fit_transform(X)..
chapter 7 앙상블 학습과 랜덤 포레스트 여러개의 예측기로 부터 예측 결과를 모아 이용 하는 투표 기반 분류기 다수결의 투표로 정해지는 분류기를 직접투표(Hard voting) 이라고 한다. 모든 분류기에서 확률 계산이 가능할떄 , 예측확률을 평균내어 가장 높은 클래스를 선택하는 방식은 간접투표 (soft voting)이라고 한다. 배깅과 페이스팅 배깅(bagging) : 훈련 세트에서 중복을 허용하여 샘플링하는 방식 페이스팅(pasting) : 중복을 허용하지 않고 셈플링 하는 방식 sklearn의 배깅과 페이스팅 from sklearn.ensemble import BaggingClassifier from sklearn.tree import DecisionTreeClassifier bag_clf ..

Chapter 6 Decision tree 결정 트리 학습과 시각화 from sklearn.tree import export_graphviz export_graphviz( tree_clf, out_file=image_path("tree.dot"), ... ) 요런식으로 그림이 나온다. 예측하기 결정 트리의 여러 장점중 하나는 데이터 전처리가 거의 필요하지 않다. samples : 얼마나 많은 훈련 샘플이 적용되었는지 value : 노드에서 각 클래스에 얼마나 많은 훈련 샘플이 있는지 gini : 불순도(impurity) 를 측정 클래스 확률 추정 CART 훈련 알고리즘 sklearn은 결정 트리를 훈련시키기위해 CART(classification and regression tree) 알고리즘을 사용한다 ..