본문 바로가기

Ankiwoong

(1841)
190529>Korea News keyword wordcloud - Import Modulefrom Crawler import crawler from wordcloud import WordCloud from matplotlib import pyplot from collections import Counter from konlpy.tag import Okt import datetime as dt - Korea News Keyword Wordcloud현재 뉴스에서 많이 사용중인 키워드 분석 시각화 모듈WordCloud를 활용하여 시각화190529 키워드 분석 시각화 - 현재 키워드 : 갯수'기자': 60, '한국': 57, '사건': 45, '화웨이': 43, '미국': 42, '대통령': 40, '주장': 35, '대해': 35, '분양': 35, '정부': 30, '..
190529 11:40> Naver 실시간 검색어 20위 - Naver 실시간 검색어 분석 - Import Modulefrom Crawler import crawler from print_df import print_df from pandas import DataFrame - Data 분석 순서데이터 수집 -> 크롤링 수행 -> 데이터 전처리 -> 검색어를 리스트로 분류 -> 데이터 프레임 생성 - Data Frame+------+-------------------+| | 검색어 |+------+-------------------+| 01위 | 김현철 정신과의사 || 02위 | 원더투어 제주항공 || 03위 | 김희영 || 04위 | 위메프 패션왕 || 05위 | 이의정 || 06위 | 신림동 || 07위 | 한국 남아공 || 08위 | 말레피센트 || 09위..
Pandas - Json Data 분석 4(Data 시각화) 1. Data Codeimport json from pandas import DataFrame, Series import pandas as pd import numpy as np import matplotlib.pyplot as plt from print_df import print_df path = 'data\example.txt' data = open(path, encoding='utf-8').read() records = [json.loads(line) for line in open(path, encoding='utf-8')] time_zone = [rec['tz'] for rec in records if 'tz' in rec] def get_count(sequence): counts = {} # ..
Pandas - 데이터프레임 병합(merge) 1. 데이터프레임 병합(merge)Data Table 중에 여러개의 csv로 되어있으나 파일은 서로 연관성이 있는 경우도 있다.이를 병합하는 과정이 필요하다. 2. SampleData 3. Import Moduleimport pandas as pd from print_df import print_df 4. Data Code- person DataFrameperson = pd.read_csv('data\survey_person.csv') +---+----------+-----------+----------+| | ident | personal | family |+---+----------+-----------+----------+| 0 | dyer | William | Dyer || 1 | pb | Fra..
Pandas - 1880 ~ 2010 년까지 출생 자료 분석 2 1. Sample Data1880 ~ 2010 년까지 태어난 아이의 이름 / 성별 / 출생수https://developer-ankiwoong.tistory.com/268 2. Import Moduleimport pandas as pd import matplotlib.pyplot as plt from print_df import print_df 3. Pandas Data Code- TXT 파일 읽어서 DataBase화years = range(1880, 2011) df_pieces = [] # 1880 ~ 2010년 까지의 데이터 프레임을 젖아할 리스트 for year in years: # 1880 ~ 2010 path = 'data\yob%d.txt' % year # 파일 이름 df = pd.read_cs..
Pandas - 1880 ~ 2010 년까지 출생 자료 분석 1 1. Sample Data1880 ~ 2010 년까지 태어난 아이의 이름 / 성별 / 출생수 2. Import Moduleimport pandas as pd import matplotlib.pyplot as plt from print_df import print_df 3. Pandas Data Code- 일부 파일에 DataFrame 작업(파일에 컬럼명이 없으므로 header=None / 필요한 컬럼명 지정)names1880 = pd.read_csv('data\yob1880.txt', header=None, names=['name', 'gender', 'born'], encoding='utf-8') - DataFrame 정보 확인print(names1880.info()) RangeIndex: 2000 e..
Pandas - Json File Data 분석 3(Data 시각화) 1. Sample Datausa.gov 사이트를 방문한 데이터들을 JSON 형식으로 작성한 데이터JSON(Javascript Object Notation) : 자바스크립트 객체 표현 방법JSON은 Python의 dict 데이터 타입과 비슷(동일){key1 : value1, key2 : value2 ...} 2. import Moduleimport json import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from print_df import print_df 3. 시각화 Codeplt.rcParams["font.family"] = 'NanumGothic' plt.rcParams["font.size"] = 8 plt.rcPar..
Pandas - Json File Data 분석 2(Pandas 사용) 1. Sample Datausa.gov 사이트를 방문한 데이터들을 JSON 형식으로 작성한 데이터JSON(Javascript Object Notation) : 자바스크립트 객체 표현 방법JSON은 Python의 dict 데이터 타입과 비슷(동일){key1 : value1, key2 : value2 ...} 2. import Moduleimport json import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from print_df import print_df 3. Pandas Code- Data File 경로 지정path = 'data\example.txt' - 데이터 파일 생성records = [json.loads(line..