본문 바로가기

Python_Crawling/Crawling

(24)
다음 이미지 검색하여 자동으로 저장(KaKaO API) API Site>https://developers.kakao.com/https://developers.kakao.com/docs/restapi/search#%EC%9D%B4%EB%AF%B8%EC%A7%80-%EA%B2%80%EC%83%89 API 사용 값> 다음 이미지에 해당 쿼리문을 날려 검색 후 해당 이미지를 저장하는 방법.기본이 80개씩 다운로드 된다. Code>from Crawler import crawler import urllib import json import datetime as dt page = map(int, input('검색할 최소페이지 최대페이지의 범위를 입력하세요 : ').split()) page_list = list(page) page_min = page_list[0] page..
User agent - Python Web Crawling 1. User agent?브라우저 및 운영체제의 버전 정보를 가지고 있는 정보값user agent를 이용하여 사이트는 그 값을 감지하고 인지한다. 2. User agent 확인방법Chrome > F12 개발자모드 실행Network > F5 > 최상단 사이트 클릭Headers > Request Headers > user-agent 3. 각 브라우저별 User agent 값 브라우저 UserAgent InternetExplorer 11 Mozilla/5.0&(Windows&NT&6.3;&WOW64;&Trident/7.0;&rv:11.0)&like&Gecko InternetExplorer 10 Mozilla/5.0&(compatible;&MSIE 10.0;&Windows&NT&6.1;&WOW64;&Triden..
190302>Python - Naver 증권 일일 시세 크롤링 Q. Naver 증권 일일 시세 크롤링 하기(금융코드 035420) A.import requests from bs4 import BeautifulSoup as BS def refine_price(text): price = int(text.replace(",", "")) return price url = "https://finance.naver.com/item/sise_day.nhn?code=035420" response = requests.get(url) text = response.text html = BS(text, 'html.parser') tr_list = html.find_all("tr", {"onmouseover":"mouseOver(this)"}) for tr in tr_list: date ..
190224> Python-NaverNews 사용자 입력 받아 크롤링 Q.사용자에게 입력 받아 네이버 뉴스를 크롤링해보자. A.import requests from bs4 import BeautifulSoup as BS def list2dict(keywords): keys = {} for keyword in keywords: keys[keyword]=0 return keys date = input("언제[YYYYmmdd] 기사를 검색할까요? : ") pages = int(input("총 몇 페이지를[20/page]를 검색할까요? : ")) keywords = input("관심있는 단어를 띄어쓰기로 입력하세요 : ").split() keys = list2dict(keywords) number = 1 news= [] for page in range(1, pages + 1): ..
190224> Python-NaverNews 사진 + 뉴스 제목 + 요약 + 제공자 크롤링 Q. 네이버 뉴스 중 속보에 해당하는 사진 + 뉴스 제목 + 요약 + 제공자를 크롤링 해보자. A.import requests from bs4 import BeautifulSoup r = requests.get("https://news.naver.com/main/list.nhn?mode=LSD&mid=sec&sid1=100") c = r.content soup = BeautifulSoup(c, "html.parser") all=soup.find("ul",{"class":"type06_headline"}) # print(all) all2 = all.find_all(."li") # print(all2[0]) for item in all2: try: img = item.find("dt",{"class":"ph..
190224> Python-Naver News 크롤링 Q. 네이버 메뉴 중 색칠 칠한 뉴스란을 크롤링해보자. A.import urllib.request import bs4 url = "https://www.naver.com/" html = urllib.request.urlopen(url) bs_obj = bs4.BeautifulSoup(html, "html.parser") ul = bs_obj.find("ol", {"class":"ca_l"}) lis = ul.findAll("li") for li in lis: a = li.find("a") O.소식통 "김정은 전용열차, 톈진역 통과해 남행 관측"北美 하노이 의제협상팀, 정상회담 'D-3' 맞아 '숨고르기'4대강 보 해체 논란…"900억 들여 해체?"vs"유지비 1천700억""'환경부 블랙리스트' 보은성 인..
190224> Python-Naver Menu 크롤링 Q. Q-1. 메일 / 카페 / 블로그 / 지식in / 쇼핑 / 네이버페이 / 네이버티비Q-2. 사전 / 뉴스 / 증권 / 부동산 / 지도 / 영화 / 뮤직 / 책 / 웹툰네이버 상기 메뉴를 크롤링 해보자. A.A-1.import urllib.request import bs4 url = "https://www.naver.com/" html = urllib.request.urlopen(url) bs_obj = bs4.BeautifulSoup(html, "html.parser") ul = bs_obj.find("ul", {"class":"an_l"}) lis = ul.findAll("li") for li in lis: a_tag = li.find("a") span = a_tag.find("span",{"cl..
190224> Python-M.NET 차트 순위 crawling Q.엠넷 차트 순위를 크롤링 하여 목록화 / 이미지를 다운받자. A.import bs4 import requests def save_image(img_url, date, rank, title, artist): response = requests.get(img_url) content = response.content filename = "{}\\{:03}_{}_{}.jpeg".format(date, rank, title, artist) file = open(filename,"wb") file.write(content) date = input("검색할 날짜[YYYYmmdd]를 입력하세요 : ") pages = int(input("총 몇 페이지를[50/page]를 크롤링할까요 : ")) charts = [] ..