본문 바로가기

분류 전체보기502

[Python] 결측값 처리 - 시도별 전출입 인구수 분석 📌 ### 시도별 전출입 인구수 분석하기 #1 excel 파일 읽기 import pandas as pd df = pd.read_excel("data/시도별 전출입 인구수.xlsx") df.info() df["전출지별"].head() #2 결측값 처리 : 앞데이터로 치환 # fillna : 결측값을 다른값으로 변경하는 함수 df = df.fillna(method="ffill") # 앞의 데이터로 결측값 채움 df.head() df.tail() # 전출지가 서울이고, 전임지는 서울이 아닌 데이터만 추출하기 # df_seoul에 저장 mask = (df["전출지별"] == '서울특별시') & (df["전입지별"] != '서울특별시') mask # mask의 true/false 갯수 구하기 mask.unique.. 2023. 4. 25.
[Python] 시각화 📌 ### 시각화 # 연비와 차량의 무게의 관계를 시각화 하기 ''' 산점도 : 두개 컬럼의 각각의 값들을 x,y 축에 점으로 표현 값의 분포를 알 수 있다. 컬럼사이의 관계를 시각화 한다. ''' mpg.plot(x="mpg",y="weight",kind="scatter") # 히스토그램 : 데이터의 빈도수 시각화. 데이터의 분포를 시각화 # kind="hist" mpg.mpg.plot(kind="hist") 📌 import pandas as pd #pd defined에러뜨면 다시 임폴트 #남북한 발전전력량.xlsx 파일을 읽어 df에 저장하기 df = pd.read_excel("data/남북한발전전력량.xlsx") df df.head() df.tail() #0,5행 데이터의 2열 이후의 정보만 ndf.. 2023. 4. 25.
[Python] seaborn (조회, 정렬) 📌 #1. seaborn 데이터에서 mpg 데이터 로드 import seaborn as sns mpg = sns.load_dataset("mpg") mpg.info() ''' mpg : 연비 cylinders : 실린더 수 displacement : 배기량 horsepower : 출력 weight : 차량무게 acceleration : 가속능력 model_year : 출시년도 origin : 제조국 name : 모델명 ''' #2. 제조국별 자동차 건수 조회하기 #2-1 mpg.origin.value_counts() #2-2 mpg['origin'].value_counts() #3. 제조국 컬럼의 값을 조회하기 # unique() : 중복을 제거하여 조회 mpg.origin.unique() #[usa, .. 2023. 4. 25.
[Python] 상관 계수 , 빅 데이터 특징 상관 계수 #컬럼 : 변수, 피처 용어 사용. #상관 계수 : -1~1사이의 값. 변수의 상관관계 수치로 표현. # 1 : 상관도가 완벽하게 일치. c1 1증가하면 c2 1 증가 # -1 : 상관도가 반비례. c1 1증가하면 c2 -1 증가 # 0 : 상관이 없다고 판단 #예시) 국어점수가 높으면 영어점수가높다. = 상관계수가 높다. 국어점수가 높은데 영어점수가 낮다 = 상관계수가 낮다. 반대 빅 데이터 특징 #3V 1. Volume(규모) : 데이터의 양이 대용량 2. velocity(속도) : 데이터의 처리 속도가 빨라야한다. 3. vraiety(다양성) : 데이터의 형태가 다양함. ### 정형데이터 : 데이터 베이스, csv =>테이블로 바로 변환가능한 데이터 -관계형 데이터베이스에 존재 -기술통계.. 2023. 4. 25.
[Python] titanic (조회, 정렬) 📌 ####################### # titanic 데이터셋 연습 # seaborn 모듈에 저장된 데이터 ''' survived생존여부 pclass좌석등급 (숫자) sex성별 (male, female) age나이 sibsp형제자매 + 배우자 인원수 parch: 부모 + 자식 인원수 fare: 요금 embarked탑승 항구 class좌석등급 (영문) who성별 (man, woman) adult_male 성인남자여부 deck선실 고유 번호 가장 앞자리 알파벳 embark_town탑승 항구 (영문) alive생존여부 (영문) alone혼자인지 여부 ''' import pandas as pd import seaborn as sns # 시각화 모듈 # seaborn 모듈에 저장된 데이터셋 목록 pri.. 2023. 4. 25.
[Python] 행 추가하기, 정렬하기 ''' 2022-12-01 복습 pandas 모듈 - 표형태(행 : index, 열 : cilumns)의 데이터를 처리하기 위한 모듈 - Series : 1차원 형태의 데이터 처리. DataFrame의 한개의 컬럼값들의 자료형 - DataFrame : 표형태의 데이터 처리. Series데이터의 모임 - 기술통계함수 : sum,mean,median,max,min,srd,var,describe - 행의 값 : index - 열의 값 : columns - rename : index, columns의 값을 변경하는 함수. inplace=True : 객체자체변경 - drop : index, columns의 값을 제거하는 함수. inplace=True : 객체자체변경 - 얕은 복사 : df2 = df, df,df2.. 2023. 4. 25.
[Python] csv파일, 엑셀 파일 pandas 모듈로 읽기 csv파일을 pandas 모듈로 읽기 📌 # jeju1.csv 파일을 pandas 모듈을 이용하여 읽기 import pandas as pd # read_csv : jeju1.csv 파일을 읽어서 DataFrame 객체로 생성 df = pd.read_csv("data/jeju1.csv") df.info() # 간략한 정보 df.head() # 처음 다섯개만 조회 df.tail() # 마지막 다섯개만 조회 df # 장소만 조회 df.장소 df["장소"] df[["장소"]] # 위도와 경도 정보 df[["LON","LAT"]] df.index # set_index : 장소 컬럼을 인덱스로 변경하기 df.set_index("장소",inplace=True) df # 돔베돈의 경도,위도 조회 df.loc["돔베돈".. 2023. 4. 25.
[Python] 얕은 복사, 깊은 복사 💡 얕은 복사(immutable, mutable 객체의 복사) 얕은 복사란 변수를 복사했다고 생각하지만 실제로는 연결 되어 있는 것이다. 변수를 복사했지만 참조한 곳(메모리주소)은 동일하여, 같은 변수를 가리키고있는것. '='으로 대입해서 얕은복사 ⇒ 참조만 복사. 같은 리스트(메모리주소)참조. ‘[:]’ 으로 리스트의 처음과 끝까지 전체를 슬라이싱을 이용한 얕은 복사. ⇒ 전체 리스트 주소는 다르지만 리스트 내부가 참조하는 주소는 동일. 얕은복사와 깊은복사의 사이. 원본의 내부 리스트에 요소값추가하면 내부적인 참조값 주소는 동일하여 복사본의 내용도 복사된다.(얕은복사 pandas에서는 깊은복사) 깊은 복사 : 두개의 객체가 다른 객체 pandas모듈의 DataFrame.copy(deep=True) co.. 2023. 4. 25.