티스토리 뷰

코딩/개발일지

내일배움다 11일메이킹첼린지 3일차

아마추어 수학자 2021. 7. 21. 22:03

※키워드 추출 구현해보기

import requests
from bs4 import BeautifulSoup
import re
from konlpy.tag import Hannanum
import pandas as pd

#웹 스크래핑
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&linkClass=1503&barcode=9791166815782',headers=headers)
soup = BeautifulSoup(data.text, 'html.parser')

desc = soup.select_one('div[class="box_detail_article"]').text.strip()


#특수기호, 숫자, 영어 지우기
desc = re.sub('[0-9]+', '', desc)
desc = re.sub('[A-Za-z]+', '', desc)
desc = re.sub('[-=+,#/\?:^$.@*\"※~&%『“”ㆍ·!』\\‘’|\(\)\[\]\<\>`\'…》]', '', desc)


#단어로 나누기
Hannanum = Hannanum()
desc_list = Hannanum.nouns(desc)


#카운팅
word_list = pd.Series(desc_list)
result = word_list.value_counts().head(20)


print(result)

※결과

미숙하지만 첫 시도는 괜찮았다.

※다짐

  • 내일은 키워드 죽이기도 도전할 것이다.
  • 백엔드 구현에 필요한 것 생각하기
  • 깃허브 사용해보기
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/12   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함