####################################
# 빅데이터의 종류
# 1. 정형 데이터 : csv, excel, db table
# => pandas 사용하여 데이터 읽어 옴.
# 2. 반정형 데이터 : html, xml, json,...
# => 크롤링 이용. 네트워크를 이용하여 외부에서 데이터를 읽어서 가져옴.
# BeautifulSoup, Selenium 모둘 사용
# 3. 비정형 데이터 : 이미지, 동영상,...
#####################################
📌
# BeautifulSoup : html,xml 파싱해주는 모듈
from bs4 import BeautifulSoup
import urllib.request as req # 인터넷을 통해서 요청할 수 있는 모듈.
# 인터넷 접속기능 모듈
url="<https://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp>"
res = req.urlopen(url) # 인터넷을 통하여 url연결
# soup : res의 태그를 분석하여 DOM의 root노드 저장
soup = BeautifulSoup(res,"html.parser")
title = soup.find("title").string # title 태그 선택
wf = soup.find("wf").string # wf 태그 선택
title
wf
'''
<![CDATA[....]]> : CDATA섹션. 순수한 문자열.
내부의 모든 문자는 XML의 파싱되지 않는 순수 문자열.
<![CDATA[ 내용 ]]> : 내용만 출력
'''
'수업(국비지원) > Python' 카테고리의 다른 글
[Python] chipo.tsc 파일 분석하기1 (0) | 2023.04.26 |
---|---|
[Python] 반정형 데이터 - BeautifulSoup 모듈2 (0) | 2023.04.26 |
[Python] 두개의 DataFrame 연결하기 (0) | 2023.04.26 |
[Python] filter(조건) 함수 (0) | 2023.04.25 |
[Python] agg(함수이름) 함수 (0) | 2023.04.25 |