본문 바로가기

수업(국비지원)/Python86

[Python] 빅데이터 분석 예제 #################### 빅데이터이용 ''' 행정안전부 : 정책자료 -> 연령별 인구현황 -> csv파일 다운 ''' 📌 import numpy as np import csv import re f = open("data/age.csv") data = csv.reader(f) # csv 형태의 파일을 읽어 저장 type(data) # _csv.reader data # 반복문을 통해 한행씩 조회가능 import matplotlib.pyplot as plt name = "역삼" for row in data : # row : 한개의 행 if row[0].find(name) >= 0 : # 행정구역의 내용에 name값이 존재? print(row) name=row[0] # 숫자의 , 제거 row = l.. 2023. 4. 25.
[Python] numpy 연산 📌 ### numpy 데이터 연산 # 1차원 배열의 연산 # 빼기 a = np.array([20,30,40,50]) b = np.arange(4) # (0,1,2,3) c = a-b # 각각의 요소들을 연산 c # array([20, 29, 38, 47]) # 더하기 c = a+b # 각각의 요소들을 연산 c # array([20, 31, 42, 53]) # 제곱 c = b**2 # b 요소들 각각의 제곱 c # array([0, 1, 4, 9], dtype=int32) # < 사용 c = a < 35 # a 배열의 요소를 35와 비교하여 작으면 True, 크면 False c # array([ True, True, False, False]) # 2차원 배열의 연산 a = np.array([[1,1],[0.. 2023. 4. 25.
[Python] numpy 행렬 ''' 2022-12-06 복습 # 시각화 과정 ------------------------------- seaborn 모듈을 이용한 그래프 distplot : 밀도선 + 객수의 막대그래프 표시 kdeplot : 밀도선 histplot : 갯수의 막대그래프 heatmap : 표로 이루어진 데이터를 색상으로 표시 boxplot : box그래프 줄력. 값의 범주를 그래프로 출력 violinplot : 값의 범주 + 분포도를 표시. 가로길이가 넓은 부분은 분포가 많은 수치를 의미. pairplot : 각각의 컬럼별 데이터 분포 그리기 각변수(컬럼)들의 산점도 출력 대각선위치의 그래프는 히스토그램으로 표시 FacetGrid : 조건(컬럼의 값)에 따라 그리드 나누기. 컬럼의 값(범주형 데이터)에 따라서 여러개의.. 2023. 4. 25.
[Python] 지도를 이용한 시각화2 📌 # 경기도의 인구 데이터와 위치 정보를 이용하여 인구를 지도에 표시하기 import pandas as pd import folium import json # json형태의 파일을 처리하기 위한 모듈 #1 경기도 인구 데이터를 읽어 df 변수에 저장하기. 구분컬럼을 인덱스로 지정 df = pd.read_excel("data/경기도인구데이터.xlsx",index_col='구분') df.info() df.columns # 컬럼명의 자료형이 정수형 # 컬럼의 자료형을 문자열형으로 변경하기 df.columns = df.columns.map(str) df.columns # 컬럼명의 자료형이 문자열형 #2 위치정보를 가지고 잇는 경기도행정구역경계.json 파일 읽기 # 경기도행정구역경계.json 파일의 내용을 읽.. 2023. 4. 25.
[Python] 지도를 이용한 시각화1 📌 ### 지도 시각화 # folium 모듈 사용하기 # pip install folium ('a', 1, '가') ('b', 2, '나') ('c', 3, '다') listall = zip(lista, list1, list2) for d in listall : print(d) # 원형 마커 추가하기 # CircleMarker : 마커의 모양을 설정 할 수 있음. df = pd.read_excel("data/서울지역 대학교 위치.xlsx",index_col=0) seoul_map = folium.Map(location=[37.55,126.98],zoom_start=12) for name,lat,lng in zip(df.index, df.위도, df.경도) : folium.CircleMarker([lat,.. 2023. 4. 25.
[Python] 시각화 - seaborn 모듈을 이용한 그래프(distplot,kdeplot,histplot 등) ''' 2022-12-05 복습 pandas 함수 info() : 기본정보를 제공. 컬럼이 몇개고 인덱스가 몇개이며 notnull이 몇개인지 등 알 수 있다. unique() : 중복없이 한개의 데이터만 조회. value_counts() : 데이터별 등록된 건수. 건수의 내림차순으로 정렬. groupby(컬럼명) : 컬럼의 값으로 레코드를 그룹화. Oracle이랑 비슷.(컬럼을 기준으로 그룹화) 그룹별 통계자료 조회 가능. # 시각화 과정 ------------------------------- seaborn 모듈을 이용한 그래프 regplot : 산점도 + 회귀선. 선형회귀분석(머신러닝의 하나의 알고리즘으로 들어간다.) ''' 📌 import seaborn as sns import matplotlib... 2023. 4. 25.
[Python] seaborn 모듈 - 시각화 모듈 선형회귀 그래프 📌 ### seaborn 모듈 : 시각화 모듈 + 데이터셋 # matplot 모듈의 확장형. 고급시각화 # 선형회귀 그래프 : 산점도 + 회귀도 표시 # 회귀선 : 모든점에서 가장 가까운 점들을 선으로 표시 import seaborn as sns import matplotlib.pyplot as plt titanic = sns.load_dataset("titanic") titanic.info() titanic[["age","fare"]].corr() ''' regplot : 선형회귀 그래프 : 산점도 + 회귀도 표시 fit_reg=False : 회귀선 표시 안함. ''' fig = plt.figure(figsize=(15,5)) ax1 = fig.add_subplot(1,2,1) ax2 = fig.add.. 2023. 4. 25.
[Python] matplot 시각화 모듈 - 박스그래프 📌 ### 박스그래프 : 두개의 그래프 출력하기 fig = plt.figure(figsize=(15,5)) # 그래프 출력영역, 크기 지정 # 그래프 출력영역을 분리 ax1 = fig.add_subplot(1,2,1) # 1행 2열 첫번째 그래프 영역 ax2 = fig.add_subplot(1,2,2) # 1행 2열 두번째 그래프 영역 ''' boxplot : matplot 모듈 함수. 박스그래프 출력 df[df['origin'] == 'usa']['mpg'] : origin 컬럼의 값이 usa인 행만 조회. mpg 컬럼만 가지고 옴 df[df['origin'] == 'japan']['mpg'] : origin 컬럼의 값이 japan인 행만 조회. mpg 컬럼만 가지고 옴 df[df['origin'] =.. 2023. 4. 25.