ABC부트캠프: Day13 [공공 데이터 크롤링]
ABC 부트캠프 [공공 데이터 크롤링]
저번 시간에는 공공 데이터를 수집하고 활용하여서 그래프로 시각화 했다면,
이번 시간에는 공공 데이터의 API 활용하기 위한 데이터 활용을 위해
데이터 활용 신청을 하고, 서비스 정보에서 API를 받아와
데이터 크롤링을 해보는 시간을 가지도록 한다
크롤링 기초
html 구조 파악
from bs4 import BeautifulSoup
html_doc = """
<!doctype html>
<html>
<head>
<title> 기초 크롤링 </title>
</head>
<body>
크롤링을 해봅시다.
</body>
</html>
"""
1. <head> 추출
bs_obj = BeautifulSoup(html_doc, "html.parser")
head = bs_obj.find("head")
print(head)
<head>
<title> 기초 크롤링 </title>
</head>
2. <body> 추출
body = bs_obj.find("body")
print(body)
<body>
크롤링을 해봅시다.
</body>
3. <div> 가 담긴 <body> 추출
html_doc = """
<!doctype html>
<html>
<head>
기초 크롤링 따라하기
</head>
<body>
<div> 첫 번째 부분 </div>
<div> 두 번째 부분 </div>
</body>
</html>
"""
bs_obj = BeautifulSoup(html_doc, "html.parser")
body = bs_obj.find("body")
print(body)
<body>
<div> 첫 번째 부분 </div>
<div> 두 번째 부분 </div>
</body>
4. <div> 추출
div1 = bs_obj.find("div")
print(div1)
<div> 첫 번째 부분 </div>
4-1. <div> 다중 추출
div_total = bs_obj.find_all("div")
print(div_total)
4-2. <div> text 추출
div2 = div_total[1]
print(div2)
print(div2.text)
<div> 두 번째 부분 </div>
두 번째 부분
5. 의류 가격 html 구조
html_doc = ㅠ"""
<!doctype html>ㅠㅠㅠ
<html>
<head>
<title> 기초 크롤링 </title>
</head>
<body>
<table border="1">
<caption> 과일 가격 </caption>
<tr>
<th> 상품 </th>
<th> 가격 </th>
</tr>
<tr>
<td> 오렌지 </td>
<td> 100 </td>
</tr>
<tr>
<td> 사과 </td>
<td> 150 </td>
</tr>
</table>
<table border="2">
<caption> 의류 가격 </caption>
<tr>
<th> 상품 </th>
<th> 가격 </th>
</tr>
<tr>
<td> 셔츠 </td>
<td> 30000 </td>
</tr>
<tr>
<td> 바지 </td>
<td> 50000 </td>
</tr>
</table>
</body>
</html>
"""
bs_obj = BeautifulSoup(html_doc, "html.parser")
clothes = bs_obj.find_all("table", {"border":"2"})
print(clothes)
[<table border="2">
<caption> 의류 가격 </caption>
<tr>
<th> 상품 </th>
<th> 가격 </th>
</tr>
<tr>
<td> 셔츠 </td>
<td> 30000 </td>
</tr>
<tr>
<td> 바지 </td>
<td> 50000 </td>
</tr>
</table>]
크롤링 URL 사용하기
# 네이버 사이트 크롤링 확인
from urllib.request import urlopen # 복잡한 세계에서 URL을 여는데 도움이 되는 함수와 클래스를 정의
url = "https://www.naver.com/"
html = urlopen(url)
print(html.read())
requests 라이브러리 사용
# 다른 방법으로 크롤링 확인 (requests 라이브러리 사용 / text로 추출하기)
import requests
url = "https://ai-dev.tistory.com/1"
response = requests.get(url)
html = response.text
print(html)
공공 데이터 API 활용 <부동산 거래="" 현황="" 통계="">부동산>
1) 공공 데이터 포털 접속
https://www.data.go.kr
공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다.
2) 데이터 활용 신청
3) API 활용 크롤링 진행 코드
from bs4 import BeautifulSoup
from urllib.request import urlopen
# Swagger URL 입력
endpoint = "https://infuser.odcloud.kr/api/stages/27795/api-docs?1647332194450"
# 일반 인증키(Encoding) 입력
serviceKey = "a0Y7lajgkUJnl6PNXT8ooeb%2FqhaOPd%2Fi9XjpOr6IHClmSnglT655%2F89OXbq6%2FQ1WrY6beOT8mb6NagsYgTylFQ%3D%3D"
startmonth = "201301"
endmonth = "201312"
region = "11000"
tradingtype="01"
url = endpoint + "?" \
"serviceKey=" + serviceKey + \
"&" + "startmonth=" + startmonth + \
"&" + "endmonth=" + endmonth + \
"&" + "region=" + region + \
"&" + "tradingtype=" + tradingtype
html = urlopen(url)
bs_obj = BeautifulSoup(html, "html.parser")
print(bs_obj)
해외 축구 데이터 크롤링
from urllib.request import urlopen
from bs4 import BeautifulSoup
url = "https://www.livesport.com/team/manchester-united/ppjDR086/"
html = urlopen(url)
bs_obj01 = BeautifulSoup(html, "html.parser")
win01 = bs_obj01.find_all("span", {"class":"wld wld--w"})
bs_obj01
이렇게 URL과 API를 이용하여 간단하게 크롤링하는 법을 배웠다.
댓글남기기