목록전체 글 (25)
나름개발블로그

chapter 5 Support vector machine (SVM) 머신러닝에서 가장 인기 있는 모델 복잡한 분류 문제에 적합하며 작거나 중간 크기의 데이터 셋에 적합 선형 SVM 분류 소프트 마진 분류 모든 샘플이 모두 도로 바깥쪽에 올바르게 분류되어 있으면 이는 하드 마진 분류 라고한다. 하드 마진 분류는 데이터가 선형적으로 구분 되어있어야 하고, 이상치에 민감함 마진오류 사이에 적절한 균형을 잡는게 소프트 마진 분류라고 한다. sklearn SVM모델에서 C는 마진오려를 지정하는 하이퍼파라미터 SVM 모델이 과대적합(overfitting) 이면 C를 감소시켜 모델을 규제가능 비선형 SVM 분류 다항식 커널 낮은 차수의 다항식은 매우 복잡한 데이터셋을 잘 표현 하지 못함, 높은차수의 다항식은 괸장히..

Chapter 4 선형 회귀 특성 가중치, 편향(상수)의 합을 가지고 예측 정규방정식 비용 함수를 최소화 하는 값을 찾기 위한 해석적인 방법 ( 수학공식) 계산복잡도 O(n^2) 시간이 걸린다 경사 하강법 gradient descent는 여러 종류의 문제에서 최적의 해법을 찾을 수 있는 일반적인 최적화 알고리즘. 경사 하강법에서 중요한 파라미터는 스텝의 크기로 , 학습률 (learning rate) 하이퍼 파라미터로 결정 된다. 학습률이 너무작으면 수렵하기 위해 많은 반복이 필요하므로 시간이 오래걸림 학습률이 너무 크면 발산하여 적절한 값을 찾지 못하게 함 경사 하강법 사용시 모든 특성이 같은 스케일 되도록 배치 경사 하강법 매 경사 하강법 스텝에서 전체 훈련 세트에 대해 계산한다. 적절한 학습률을 찾으..

MNIST 머신러닝계의 "Hello World" 이진 분류기 훈련(Binary classifier) 두가지중 하나로 분류 (Y or N) SGDClassifier 여기서 SGD란 (Stochastic Gradient Descent) 확률적 경사 하강법 성능측정 교차 검증을 사용한 정확도측정 cross_val_score (sklearn) 정확도(accuracy)는 분류기 성능 측정지표로 선호하지 않는다. 특흐 불균형한 데이터 셋을 다룰때 오차행렬(confusion matrix) cross_val_predict (sklearn) : cross_val_score 와 다르게 평가 점수를 반환 하는게 아니라 예측을 반환 한다. confusion_matrix (sklearn) from sklearn.metrics ..