티스토리 뷰
※키워드 추출 구현해보기
import requests
from bs4 import BeautifulSoup
import re
from konlpy.tag import Hannanum
import pandas as pd#웹 스크래핑
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&linkClass=1503&barcode=9791166815782',headers=headers)
soup = BeautifulSoup(data.text, 'html.parser')desc = soup.select_one('div[class="box_detail_article"]').text.strip()
#특수기호, 숫자, 영어 지우기
desc = re.sub('[0-9]+', '', desc)
desc = re.sub('[A-Za-z]+', '', desc)
desc = re.sub('[-=+,#/\?:^$.@*\"※~&%『“”ㆍ·!』\\‘’|\(\)\[\]\<\>`\'…》]', '', desc)
#단어로 나누기
Hannanum = Hannanum()
desc_list = Hannanum.nouns(desc)
#카운팅
word_list = pd.Series(desc_list)
result = word_list.value_counts().head(20)
print(result)
※결과
미숙하지만 첫 시도는 괜찮았다.
※다짐
- 내일은 키워드 죽이기도 도전할 것이다.
- 백엔드 구현에 필요한 것 생각하기
- 깃허브 사용해보기
'코딩 > 개발일지' 카테고리의 다른 글
| 내일배움단 11일메이킹챌린지 5일차 (0) | 2021.07.23 |
|---|---|
| 내일배움단 11일메이킹챌린지 4일차 (0) | 2021.07.22 |
| 내일배움단 11일메이킹챌린지 2일차 (0) | 2021.07.20 |
| 내일배움단 11일메이킹챌린지 1일차 (0) | 2021.07.19 |
| 스파르타코딩클럽 5주차 개발일지 (0) | 2021.07.14 |

