본문 바로가기

지도학습4

[ML] day5 지도학습 - 서포트 벡터 머신 서포트 벡터 머신 개념 * 서포트 벡터 머신 - 서포트 벡터 머신의 길의 폭(두 서포트 벡터 간 너비)을 최대한 넗히는 것이 목표 - w벡터는 중심선과 수직 = > 중심선이 초평면( 내적해서 0이 되는 지점을 이은 것) - w를 구하면 중심선을 그릴 수 있음 => w를 구하는 것이 목적 * 최종 결론 실습 import pandas as pd df = pd.read_csv('./data/wine_data.csv') features = ['Alcohol', 'Malic', 'Ash', 'Alcalinity', 'Magesium', 'Phenols', 'Flavanoids', 'Nonflavanoids', 'Proanthocyanins', 'Color', 'Hue', 'Dilution', 'Proline'] .. 2023. 7. 22.
[ML] day4 지도학습 - 로지스틱 회귀 분석 로지스틱 회귀분석 * 로지스틱 회귀 분석 * 실습 import pandas as pd df = pd.read_csv('../data/wine_data.csv') features = ['Alcohol', 'Malic', 'Ash', 'Alcalinity', 'Magesium', 'Phenols', 'Flavanoids', 'Nonflavanoids', 'Proanthocyanins', 'Color', 'Hue', 'Dilution', 'Proline'] X = df[features] y = df['class'] # 트레이닝 / 테스트 데이터 분할 from sklearn.model_selection import train_test_split X_tn, X_te, y_tn, y_te = train_test_s.. 2023. 7. 21.
[ML] day4 지도학습 - 의사결정나무(Decision Tree) 의사결정나무 개념 * 의사결정나무 하나의 테스트에 대해 예/ 아니오로 구분 노드의 수가 작을수록 좋음 장점 : 수학을 잘 몰라도 ok => 쉬움 단점 : 트레이닝 데이터에 대한 정확도는 100%지만, 실제 테스트 데이터에 대한 정확도가 낮음 => 오버피팅 ===> 단점을 보완하기 위해 나온 알고리즘 : 랜덤 포레스트 테스트 선정 순서 : 성능 좋은 테스트부터 우선 선정 - 실제 스코어링 방법 - 노드 별 엔트로피 측정 - 엔트로피 : 무질서 정도를 나타내는 측도 => 낮을수록 좋음 - 노드별 엔트로피를 측정 후 테스트 전체 퀄리티 측정 * 엔트로피 엔트로피는 낮을수록 좋다!! * 피처가 연속형일 경우 : 모든 점이 테스트 후보 => 평균값으로 추정 ==> 평균보다 작으면 '아니오', 크면 '예' * 실습.. 2023. 7. 20.
[ML] day3 지도학습 - KNN(K 최근접 이웃 알고리즘) 사이킷런 ( scikit - learn ) : 파이썬을 활용해 머신러닝을 사용할 수 있게 도와주는 라이브러리 - 알고리즘 별로 편리하게 사용할 수 있도록 제공해줌 메소드 기능 fit 모형 적합 predict 예측 score 모형 성능 평가 K 최근접 이웃 * K 최근접 이웃 알고리즘 ( KNN, K Nearest Neighbor ) : 가장 가까이 있는 데이터 포인트 라벨에 속한다고 보는 방법 - 근접하는 도형 1개와 3개를 비교할 때 결과가 다르다. - 가까이 있는 데이터 n개를 보면 n - 최근접 이웃 - 알고리즘 적으로는 쉽지만 컴퓨팅 적으로는 쉽지 않음 => 게으른 학습 - 거리는 유클리디언 거리로 판단 - 가장 근접한 k개의 데이터의 유클리디언 거리로 판단 ( k는 하이퍼 파라미터 ) * 하이퍼.. 2023. 7. 20.