본문 바로가기

Python_Crawling

(28)
Naver News WordCloud 2 1. Code 풀이- 명사 빈도 수 계산count = Counter(nouns) Counter({'것': 196, '이': 96, '수': 95, '고': 95, '등': 94, '미국': 77, '대표': 64, '그': 63, '전': 61, '중국': 60, '한국': 55, '기자': 55, '재': 52, '대통령': 48, '시장': 47, '말': 44, '며': 41, '및': 39, '트럼프': 39, '중': 36, '대한': 35, '무역': 34, '사람': 32, '우리': 31, '김': 31, '정부': 31, '금지': 30, '또': 30, '정치': 29, '개발': 29, '경제': 28, '날': 28, '때': 28, '화폐': 27, '통해': 26, '지난': 2..
Naver News WordCloud 1 1. Import Modulefrom Crawler import crawler from wordcloud import WordCloud from matplotlib import pyplot from collections import Counter from konlpy.tag import Okt import datetime as dt 2 Code 풀이- URL 설정URL = "https://news.naver.com/" url_list = [] # 뉴스기사의 본문 URL을 저장할 리스트 - 수집할 Data 위치 조사link_list = crawler.select(URL, encoding="euc-kr", selector=".newsnow_tx_inner > a, .newsnow_imgarea > a, .m..
Python - 한국기상청 도시별 현재 날씨 정보 분석 후 csv 저장 1. import moduleimport requests from bs4 import BeautifulSoup as BS 2. Sample URL : http://www.weather.go.kr/weather/observation/currentweather.jsp 3. HTML Parsing Codeimport requests from bs4 import BeautifulSoup as BS url = 'http://www.weather.go.kr/weather/observation/currentweather.jsp' response = requests.get(url) if response.status_code != 200: print("%d 에러가 발생했습니다." % response.status_code..
다음 이미지 검색하여 자동으로 저장(KaKaO API) API Site>https://developers.kakao.com/https://developers.kakao.com/docs/restapi/search#%EC%9D%B4%EB%AF%B8%EC%A7%80-%EA%B2%80%EC%83%89 API 사용 값> 다음 이미지에 해당 쿼리문을 날려 검색 후 해당 이미지를 저장하는 방법.기본이 80개씩 다운로드 된다. Code>from Crawler import crawler import urllib import json import datetime as dt page = map(int, input('검색할 최소페이지 최대페이지의 범위를 입력하세요 : ').split()) page_list = list(page) page_min = page_list[0] page..
User agent - Python Web Crawling 1. User agent?브라우저 및 운영체제의 버전 정보를 가지고 있는 정보값user agent를 이용하여 사이트는 그 값을 감지하고 인지한다. 2. User agent 확인방법Chrome > F12 개발자모드 실행Network > F5 > 최상단 사이트 클릭Headers > Request Headers > user-agent 3. 각 브라우저별 User agent 값 브라우저 UserAgent InternetExplorer 11 Mozilla/5.0&(Windows&NT&6.3;&WOW64;&Trident/7.0;&rv:11.0)&like&Gecko InternetExplorer 10 Mozilla/5.0&(compatible;&MSIE 10.0;&Windows&NT&6.1;&WOW64;&Triden..
Python - Scrapy 설치시 Twisted 에러 발생시 해결방법 파이참 단축키 ctlrl + alt + s를 눌러 파이참에서 사용할수 있는 거를 볼수 있다. 여기서 scrapy를 설치하면 에러가 발생한다. 이 부분은 프로그램 하나만 설치하면 해결이 된다.
190302>Python - Naver 증권 일일 시세 크롤링 Q. Naver 증권 일일 시세 크롤링 하기(금융코드 035420) A.import requests from bs4 import BeautifulSoup as BS def refine_price(text): price = int(text.replace(",", "")) return price url = "https://finance.naver.com/item/sise_day.nhn?code=035420" response = requests.get(url) text = response.text html = BS(text, 'html.parser') tr_list = html.find_all("tr", {"onmouseover":"mouseOver(this)"}) for tr in tr_list: date ..
190224> Python-NaverNews 사용자 입력 받아 크롤링 Q.사용자에게 입력 받아 네이버 뉴스를 크롤링해보자. A.import requests from bs4 import BeautifulSoup as BS def list2dict(keywords): keys = {} for keyword in keywords: keys[keyword]=0 return keys date = input("언제[YYYYmmdd] 기사를 검색할까요? : ") pages = int(input("총 몇 페이지를[20/page]를 검색할까요? : ")) keywords = input("관심있는 단어를 띄어쓰기로 입력하세요 : ").split() keys = list2dict(keywords) number = 1 news= [] for page in range(1, pages + 1): ..