본문 바로가기
수업(국비지원)/Python

[Python] 반정형 데이터 - BeautifulSoup 모듈1

by byeolsub 2023. 4. 26.
####################################
# 빅데이터의 종류
# 1. 정형 데이터 :  csv, excel, db table 
#    => pandas 사용하여 데이터 읽어 옴.    

# 2. 반정형 데이터 : html, xml, json,...
#    => 크롤링 이용. 네트워크를 이용하여 외부에서 데이터를 읽어서 가져옴.
#       BeautifulSoup, Selenium 모둘 사용

# 3. 비정형 데이터 : 이미지, 동영상,...
#####################################

📌

# BeautifulSoup : html,xml 파싱해주는 모듈
from bs4 import BeautifulSoup 
import urllib.request as req # 인터넷을 통해서 요청할 수 있는 모듈. 
                             # 인터넷 접속기능 모듈
url="<https://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp>"
res = req.urlopen(url) # 인터넷을 통하여 url연결
# soup : res의 태그를 분석하여 DOM의 root노드 저장
soup = BeautifulSoup(res,"html.parser")
title = soup.find("title").string # title 태그 선택
wf = soup.find("wf").string # wf 태그 선택
title
wf

 

'''
<![CDATA[....]]> : CDATA섹션. 순수한 문자열.
                  내부의 모든 문자는 XML의 파싱되지 않는 순수 문자열. 

<![CDATA[ 내용 ]]> : 내용만 출력
'''