분류 전체보기502 [Python] chipo.tsc 파일 분석하기2 📌 # item_name 별 단가를 조회하기 # item_name으로 groupby하여 최소값이 단가 price_one = chipo.groupby("item_name").min()["item_price"] price_one #단가의 분포를 히스토그램으로 출력하기 #1 import matplotlib.pyplot as plt from matplotlib import rc rc('font', family='Malgun Gothic') plt.hist(price_one) plt.ylabel("상품갯수") plt.xlabel("상품단가 분포") #2 price_one.plot(kind="hist") plt.ylabel("상품갯수") plt.xlabel("상품단가 분포") # 단가가 가장 높은 상품 10개만 조.. 2023. 4. 26. [Python] chipo.tsc 파일 분석하기1 📌 ''' 데이터 속성 설명 order_id : 주문번호 quantity : 아이템의 주문수량 item_name : 주문한 아이템의 이름 choice_description : 주문한 아이템의 상세 선택 옵션 item_price : 주문 아이템의 가격 정보 ''' ### chipo.tsc 파일 분석하기 # 파일 읽기 import pandas as pd chipo = pd.read_csv("data/chipotle.tsv",sep="\\t") chipo.info() # chipo 데이터의 행열의 갯수 출력하기 chipo.shape # 컬럼명들 출력하기 chipo.columns # index(행)의명 출력하기 chipo.index # 결과 -> RangeIndex(start=0, stop=4622, step=.. 2023. 4. 26. [Python] 셀레니움 모듈 # 셀레니움 모듈 : 브라우저를 직접 제어함. : 로그인, 버튼 클릭등 # 크롬으로만 가능 📌 from selenium import webdriver #pip install selenium import time # chromedriver.exe" : 크롬을 제어할 수 있는 실행 파일 # 크롬에서 제공. # 브라우저 실행 driver = webdriver.Chrome("c:/setup/chromedriver.exe") # 브라우저에 ttp://python.org url 요청 driver.get("") # chromedriver.exe" : 크롬을 제어할 수 있는 실행 파일 # 크롬에서 제공. # 브라우저 실행 driver = webdriver.Chrome("c:/setup/chromedriver.exe").. 2023. 4. 26. [Python] 반정형 데이터 - BeautifulSoup 모듈2 ''' 2022-12-09 복습 범주형 데이터 : 값의 범위를 가진 데이터. describe() 함수에서 조회시 제외. 날짜 데이터 : pandas.date_range() : 날짜값을 범위 지정해서 조회 df["Date"] : datetime 형 df["Date"].dt.year : 년도 df["Date"].dt.month : 월 df["Date"].dt.day : 일 형변환 : astype("자료형") : str,int,float,category.... str : DataFrame의 요소들을 문자열처럼 사용. 문자열 함수 사용가능 df["aaa"].str.startsWidth("")... === 그룹화 : DataFrame을 컬럼의 값으로 데이터 분리 groupby(컬럼명) : DataFrame 객체를.. 2023. 4. 26. [Python] 반정형 데이터 - BeautifulSoup 모듈1 #################################### # 빅데이터의 종류 # 1. 정형 데이터 : csv, excel, db table # => pandas 사용하여 데이터 읽어 옴. # 2. 반정형 데이터 : html, xml, json,... # => 크롤링 이용. 네트워크를 이용하여 외부에서 데이터를 읽어서 가져옴. # BeautifulSoup, Selenium 모둘 사용 # 3. 비정형 데이터 : 이미지, 동영상,... ##################################### 📌 # BeautifulSoup : html,xml 파싱해주는 모듈 from bs4 import BeautifulSoup import urllib.request as req # 인터넷을 통해서 요청할 .. 2023. 4. 26. [Python] 두개의 DataFrame 연결하기 📌 ### 두개의 DataFrame 연결하기 import pandas as pd # stockprice.xlsx, stockvaluation.xlsx 데이터를 읽기 df1 = pd.read_excel("data/stockprice.xlsx") df2 = pd.read_excel("data/stockvaluation.xlsx") df1 df2 # concat() : 물리적으로 두개의 DataFrame을 연결시켜주는 함수 # df1,df2를 열을 기준으로 연결하기 result1 = pd.concat([df1,df2],axis=1) result1 result1.info() # df1,df2를 행을 기준으로 연결하기 result2 = pd.concat([df1,df2],axis=0) result2 result2.. 2023. 4. 26. [Python] filter(조건) 함수 📌 # filter(조건) 함수 : 그룹화된 데이터의 조건 설정 #grouped 데이터의 갯수가 200개 이상인 그룹만 조회하기 grouped.count() # x : group화된 DataFrame 객체 # filter1 : First, Third class 데이터만 저장 filter1 = grouped.filter(lambda x:len(x) >= 200) filter1['class'].value_counts() filter1.info() # age컬럼의 평균이 30보다 작은 그룹만을 filter2에 저장하기 grouped.age.mean() filter2 = grouped.filter(lambda x:x.age.mean() < 30) filter2.groupby('class').mean() filt.. 2023. 4. 25. [Python] agg(함수이름) 함수 📌 # agg(함수이름) 함수 : 여러개의 함수를 여러개의 컬럼에 적용할 수 있는 함수 # 사용자 정의함수 적용 def max_min(x) : return x.max() - x.min() agg_maxmin = grouped.agg(max_min) agg_maxmin grouped.max() # 그룹에 있는 함수들의 최대값들 # agg() 함수 : 사용자가 정의한 함수를 나의 그룹 함수에 적용시킬 수 있는.. grouped.agg(max) # max도 하나의 함수이기때문에 agg()에 넣어도 괜찮다. 값은 위와 동일 # grouped 데이터에서 최대, 최소값 조회 grouped.agg(['max','min'])["age"] # 한번에 조회 가능 titanic.groupby("class").agg(['ma.. 2023. 4. 25. 이전 1 ··· 17 18 19 20 21 22 23 ··· 63 다음