티스토리 뷰

코딩/개발일지

내일배움단 11일메이킹챌린지 4일차

아마추어 수학자 2021. 7. 22. 22:44
더보기

import requests
from bs4 import BeautifulSoup as bs
import re
from konlpy.tag import Hannanum
import pandas as pd

#웹 스크래핑
url = "https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=194205" \
"&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false" \
"&isMileageSubscriptionReject=false"

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}

soup = bs(requests.get(url,headers=headers).text, 'html.parser')

cnt = soup.select('body > div > div > div.score_total > strong > em')[0].contents[0].replace(',','')

for x in range(1, 2):
soup = bs(requests.get(url + "&page=" + str(x),headers=headers).text, 'html.parser')
desc = soup.select_one('body > div > div > div.score_result > ul').get_text().strip()

desc = re.sub('[0-9]+', '', str(desc))
desc = re.sub('[A-Za-z]+', '', str(desc))
desc = re.sub('[-=+,#/\?:^$.@*\"※~&%『“” _;ㆍ·!』\\‘’|\(\)\[\]\<\>`\'…》]', '', str(desc))

print(desc)

오늘은 네이버 영화 크롤링을 해서 키워드 추출을 해보았다. 줄거리까지는 되었다. 하지만 댓글은 하다가 포기했다.

왜냐하면 방대한 양을 불러오려면 시간도 시간이고 오류가 너무 많아서이다. 그래서 회의를 통해서 키워드를 추출하는 것 보다는 직접 키워드 기능을 제공해서 유저가 사용할 수 있도록 하는 것이다. 그러면 디자인 한 거에서 조금더 포스팅 박스의 크기가 커져야 한다는 생각이 들었다. 또 로그인도 말이 나왔다. 하늘님이 잘 해주었다. 그렇지만 이 로그인을 통해 유저에가 rock을 걸어 회원만 받자는 의견도 있었고 댓글이나 리뷰 작성시에만 사용하자는 의견도 나왔다. 그래서 

팝업창으로 만들자는 방향으로 수렴해갔다. 또 내가 레벨시스템을 도입하자고 하였다. 그러나 어렵다고 느껴지는 건 나뿐만이 아니었다. 그래서 구글링을 통해 검색하다가 정보는 찾을 수는 없었지만 if문으로 구현할 수 있다고 생각했다.

 

내일 할 것

  • 프론트앤드쪽이 뼈대 만들고 마무리하기 전까지 네이버 영화에서 크롤링하기
  • 레벨시스템 구현해보기
  • 다른 서비스와 차별화할 수 있는 유니크한 아이디어 내기

 

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/12   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함