본문 바로가기

사이킷런3

[ML] day4 지도학습 - 의사결정나무(Decision Tree) 의사결정나무 개념 * 의사결정나무 하나의 테스트에 대해 예/ 아니오로 구분 노드의 수가 작을수록 좋음 장점 : 수학을 잘 몰라도 ok => 쉬움 단점 : 트레이닝 데이터에 대한 정확도는 100%지만, 실제 테스트 데이터에 대한 정확도가 낮음 => 오버피팅 ===> 단점을 보완하기 위해 나온 알고리즘 : 랜덤 포레스트 테스트 선정 순서 : 성능 좋은 테스트부터 우선 선정 - 실제 스코어링 방법 - 노드 별 엔트로피 측정 - 엔트로피 : 무질서 정도를 나타내는 측도 => 낮을수록 좋음 - 노드별 엔트로피를 측정 후 테스트 전체 퀄리티 측정 * 엔트로피 엔트로피는 낮을수록 좋다!! * 피처가 연속형일 경우 : 모든 점이 테스트 후보 => 평균값으로 추정 ==> 평균보다 작으면 '아니오', 크면 '예' * 실습.. 2023. 7. 20.
[ML] day4 지도학습 - 회귀분석(Ridge, Lasso, ElasticNet) 선형 회귀 분석 * 선형 회귀 분석 - 피처(독립 변수)가 1개이면 단순 회귀 분석 - 예측 결과를 중요시하기 때문에 머신러닝에서는 가정을 무시함 * W를 구하는 방법 * 최소 제곱 추정량 ( Least square estimator ) - 미분해서 0이 되는 값을 찾는 것이 목적! * 다시 선형 회귀 분석 * 결정 계수 R^2 * 단순 회귀 분석 개념 ==> 회귀 분석 * 다중 공선성 - 상관관계성을 이용해서 다중 공선성을 가지고 있는 피처를 쳐낼 수 있음 ( 차원 축소 ) * 차원 축소 - 카이제곱 검정을 통해 상관관계를 가지는 피처를 걸러냄 (regulization이 이런 경우 사용됨) - 다중 공선성 문제를 해결하는데 라쏘 도움됨 ( ∵ 차원 축소) ==> 라쏘와 릿지 두가지 정규화를 동시에 사용.. 2023. 7. 20.
[ML] day3 지도학습 - KNN(K 최근접 이웃 알고리즘) 사이킷런 ( scikit - learn ) : 파이썬을 활용해 머신러닝을 사용할 수 있게 도와주는 라이브러리 - 알고리즘 별로 편리하게 사용할 수 있도록 제공해줌 메소드 기능 fit 모형 적합 predict 예측 score 모형 성능 평가 K 최근접 이웃 * K 최근접 이웃 알고리즘 ( KNN, K Nearest Neighbor ) : 가장 가까이 있는 데이터 포인트 라벨에 속한다고 보는 방법 - 근접하는 도형 1개와 3개를 비교할 때 결과가 다르다. - 가까이 있는 데이터 n개를 보면 n - 최근접 이웃 - 알고리즘 적으로는 쉽지만 컴퓨팅 적으로는 쉽지 않음 => 게으른 학습 - 거리는 유클리디언 거리로 판단 - 가장 근접한 k개의 데이터의 유클리디언 거리로 판단 ( k는 하이퍼 파라미터 ) * 하이퍼.. 2023. 7. 20.