본문 바로가기

Python_Crawling

(27)
Naver News WordCloud 1 1. Import Modulefrom Crawler import crawler from wordcloud import WordCloud from matplotlib import pyplot from collections import Counter from konlpy.tag import Okt import datetime as dt 2 Code 풀이- URL 설정URL = "https://news.naver.com/" url_list = [] # 뉴스기사의 본문 URL을 저장할 리스트 - 수집할 Data 위치 조사link_list = crawler.select(URL, encoding="euc-kr", selector=".newsnow_tx_inner > a, .newsnow_imgarea > a, .m..
Python - 한국기상청 도시별 현재 날씨 정보 분석 후 csv 저장 1. import moduleimport requests from bs4 import BeautifulSoup as BS 2. Sample URL : http://www.weather.go.kr/weather/observation/currentweather.jsp 3. HTML Parsing Codeimport requests from bs4 import BeautifulSoup as BS url = 'http://www.weather.go.kr/weather/observation/currentweather.jsp' response = requests.get(url) if response.status_code != 200: print("%d 에러가 발생했습니다." % response.status_code..
다음 이미지 검색하여 자동으로 저장(KaKaO API) API Site>https://developers.kakao.com/https://developers.kakao.com/docs/restapi/search#%EC%9D%B4%EB%AF%B8%EC%A7%80-%EA%B2%80%EC%83%89 API 사용 값> 다음 이미지에 해당 쿼리문을 날려 검색 후 해당 이미지를 저장하는 방법.기본이 80개씩 다운로드 된다. Code>from Crawler import crawler import urllib import json import datetime as dt page = map(int, input('검색할 최소페이지 최대페이지의 범위를 입력하세요 : ').split()) page_list = list(page) page_min = page_list[0] page..
User agent - Python Web Crawling 1. User agent?브라우저 및 운영체제의 버전 정보를 가지고 있는 정보값user agent를 이용하여 사이트는 그 값을 감지하고 인지한다. 2. User agent 확인방법Chrome > F12 개발자모드 실행Network > F5 > 최상단 사이트 클릭Headers > Request Headers > user-agent 3. 각 브라우저별 User agent 값 브라우저 UserAgent InternetExplorer 11 Mozilla/5.0&(Windows&NT&6.3;&WOW64;&Trident/7.0;&rv:11.0)&like&Gecko InternetExplorer 10 Mozilla/5.0&(compatible;&MSIE 10.0;&Windows&NT&6.1;&WOW64;&Triden..
Python - Scrapy 설치시 Twisted 에러 발생시 해결방법 < 파이참에서 Scrapy 설치시 오류 해결 방법 > 파이참 단축키 ctlrl + alt + s를 눌러 파이참에서 사용할수 있는 거를 볼수 있다. 여기서 scrapy를 설치하면 에러가 발생한다. 이 부분은 프로그램 하나만 설치하면 해결이 된다. < 프로그램 실행 후 설치 목록 >
190302>Python - Naver 증권 일일 시세 크롤링 Q. Naver 증권 일일 시세 크롤링 하기(금융코드 035420) A.import requests from bs4 import BeautifulSoup as BS def refine_price(text): price = int(text.replace(",", "")) return price url = "https://finance.naver.com/item/sise_day.nhn?code=035420" response = requests.get(url) text = response.text html = BS(text, 'html.parser') tr_list = html.find_all("tr", {"onmouseover":"mouseOver(this)"}) for tr in tr_list: date ..
190224> Python-NaverNews 사용자 입력 받아 크롤링 Q.사용자에게 입력 받아 네이버 뉴스를 크롤링해보자. A.import requests from bs4 import BeautifulSoup as BS def list2dict(keywords): keys = {} for keyword in keywords: keys[keyword]=0 return keys date = input("언제[YYYYmmdd] 기사를 검색할까요? : ") pages = int(input("총 몇 페이지를[20/page]를 검색할까요? : ")) keywords = input("관심있는 단어를 띄어쓰기로 입력하세요 : ").split() keys = list2dict(keywords) number = 1 news= [] for page in range(1, pages + 1): ..
190224> Python-NaverNews 사진 + 뉴스 제목 + 요약 + 제공자 크롤링 Q. 네이버 뉴스 중 속보에 해당하는 사진 + 뉴스 제목 + 요약 + 제공자를 크롤링 해보자. A.import requests from bs4 import BeautifulSoup r = requests.get("https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1=100") c = r.content soup = BeautifulSoup(c, "html.parser") all=soup.find("ul",{"class":"type06_headline"}) # print(all) all2 = all.find_all(."li") # print(all2[0]) for item in all2: try: img = item.find("dt",{"class":"ph..