본문 바로가기

분류 전체보기502

[Python] 지도학습 예제 - titanic ''' 2022-12-16 복습 sklearn 모듈을 이용한 머신러닝 지도 학습 : 기계학습시 정답을 제시. 회귀분석 : 과거의 데이터를 회귀선을 이용하여 분석 독립변수(설명변수) : 종속변수에 영향을 미침 종속변수(예측변수) : 예측해야할 데이터 단순회귀분석 : 독립변수 1개, 종속변수 1개 단항 회귀분석 : 직선의 방정식 다항 회귀분석 : 곡선의 방정식 다중회귀분석 : 독립변수 여러개, 종속변수 1개 알고리즘 : 선형회귀분석(LinearRegression) 평가 방식 : RMSE : mse(평균제곱오차)의 제곱근 mse : (실제 데이터 - 예측데이터)**2의 평균 작은 값일 수록 정확도가 높아짐 분류(Classification) : 설명변수를 이용하여 목표변수의 값을 예측 알고리즘 : KNN(K-N.. 2023. 4. 27.
[Python] 지도학습 예제 - 투수들의 연봉 예측하기2 📌 ''' OLS : 선형회귀분석을 위한 모델 독립변수와 종속변수의 영향력을 수치로 표시 ''' model = sm.OLS(y_train, x_train).fit() model.summary() ''' R-squared : 결정계수. 0~1사이의 값. 1에 가까울 수록 수치가 좋음. 독립변수의 개수가 많아지면 값이 커진다. Adj. R-squared : 수정결정계수. 표본의 크기와 독립변수의 개수 고려하여 수정 => 독랍변수의 변동량에 따라서 종속변수의 변동량 P>|t| : p-value 값. 0.05미만인 경우 회귀분석에서 유의미한 피처(컬럼)들이다. WAR , 연봉(2017), 한화 3개의 피처들의 유의미한 피처. coef : 회귀계수. 독립변수별로 종속변수에 미치는 영향값을 수치로 계산. 회귀계수에.. 2023. 4. 26.
[Python] 지도학습 예제 - 투수들의 연봉 예측하기 📌 ################################# # 투수들의 연봉 예측하기 ################################# import pandas as pd picher = pd.read_csv("data/picher_stats_2017.csv") picher.info() picher.팀명.unique() # 팀명을 onehot_team 인코딩 하기. picher 데이터셋에 추가하기 #1 팀명을 onehot_team 인코딩 하기 onehot_team = pd.get_dummies(picher["팀명"]) onehot_team # picher 데이터셋에 추가하기 picher = pd.concat([picher, onehot_team],axis=1) picher.info() #.. 2023. 4. 26.
[Python] 머신러닝 - 지도학습(분류) 3. Decision Tree(의사결정나무) 3. Decision Tree 📌 ########### 7. Decision Tree ''' 분류 알고리즘 KNN : 최근접 이웃알고리즘 SVM : 선, 면을 이용하여 영역 분리 Decision Tree : 의사결정나무 노드(Node), 가지(Branch), 깊이(depth) : Tree구조 ''' # Decision Tree(의사결정나무) # UCI 데이터 : 암세포 진단 데이터 # from sklearn import metrics from sklearn import tree from sklearn import preprocessing uci_path="" # header=None : 기본은 0행을 header로 설정. # None : header 데이터가 없음(컬럼이 없다). 전부 데이터이다. df .. 2023. 4. 26.
[Python] 머신러닝 - 지도학습(분류) 2. SVM 2. SVM 📌 ########### 6. SVM(Support Vector Machine) # SVM(Support Vector Machine) 분류 알고리즘으로 모델 구현하기 # SVM : 공간을 (선/면)으로 분류하는 방식 from sklearn import svm # kernel='rbf' : 공간분리 방식을 결정하는 함수 지정 # rbf(기본값), linear, poly(곡선) svm_model = svm.SVC(kernel='rbf') # SVM 객체 설정 svm_model.fit(x_train, y_train) # 학습하기 y_hat = svm_model.predict(x_test) # 예측하기 svm_report = metrics.classification_report(y_test, y_h.. 2023. 4. 26.
[Python] 머신러닝 - 지도학습(분류) 1. KNN 2022-12-15 복습 지도 학습 : 기계학습시 정답 제시 회귀 분석 : 예측. 회귀선을 이용하여 분석을 함. 독립변수(설명변수) : 예측에 사용되는 데이터 종속변수(목표변수, 예측변수) : 정답. 예측해야하는 데이터 알고리즘 : LinearRegression 분류 : 데이터 선택. 평가. yes or no KNN (k-Nearset-Neighbors) : 최근접이웃 알고리즘. 비지도 학습 : 기계학습시 정답 제시 안함 주체와 가장 가까운 아이들끼리 군집화 하여 표시함 ################################# # 분류 : 지도학습 # 설명변수(독립변수) # 목표변수(종속변수) # 알고리즘 : KNN(k-Nearset-Neighbors) # SVM(Support Vector Machi.. 2023. 4. 26.
[Python] 머신러닝 - 지도학습(회귀분석)3 ################################## # : 기후통계분석 > 기온분석 데이터 다운받기 # 1904 ~ 전일까지 : seoul_1215.csv 저장 # 2022.12.15 날짜 예측하기 ################################## 📌 # seoul_1215.csv 읽기 seoul = pd.read_csv("data/seoul_1215.csv", encoding="cp949") seoul.info() seoul.head() # \\t 제거하기 seoul["날짜"] = seoul["날짜"].str.replace("\\t","") seoul.info() seoul.head() # 년도 컬럼 만들기. seoul["년도"] = seoul["날짜"].apply(lambda .. 2023. 4. 26.
[Python] 머신러닝 - 지도학습(회귀분석)2 ''' 단순 회귀분석 : 독립변수, 종속변수가 한개인 경우 단항 : 1차 함수 다항 : 다차원 함수 다중 회귀분석 : 독립변수가 여러개, 종속변수는 한개 Y=ax1 + ax2 + ....anXn + b ''' 📌 # 독립변수, 종속변수 선택 X = ndf[['cylinders','horsepower','weight']] # 독립변수 Y = ndf["mpg"] # 종속변수 X.info() # 데이터 훈련/ 테스트데이터 분리 X_train, X_test, Y_train, Y_test =\\ train_test_split(X,Y,test_size=0.3,random_state=10) # 알고리즘 선택 : 선형 회귀분석 from sklearn.linear_model import LinearRegression l.. 2023. 4. 26.