본문 바로가기

분석

(53)
빅데이터 분석목표 수립하기- HRD 온라인 교육 수강 노트 < 빅데이터 분석목표 수립하기 >1. 분석목표 정의서의 항목- 분석기본 정보㉠ 분석 명칭㉡ 분석 목적㉢ 분석 우선 순위㉣ 분석 접근 방안㉤ 분석 목표 확정일㉥ 분석 목표 워크샵㉦ Owner 조직명- 성과측정㉠ 정성적 기준 : 신규기법/기술, 외부데이터, 신규데이터, 기타㉡ 정량적 기준 : 분석 가설, 검증 - 데이터 정보㉠ 내부 데이터㉡ 외부 데이터- 데이터 분석 적용성 판단2. 분석 목표 워크샵- 워크샵 계획㉠ 워크샵 진행자, 작성자 워크샵 계획㉡ 워크샵 참석인원, 필요한 자료, 총 미팅 횟수 판단 - 개간미팅 수행㉠ 검토할 자료의 배경 관련된 가정 목적에 대해 설명 - 워크샵에 사용한 자료 사전 검토㉠ 오류확인 목록, 가능한 오류 발생 될 문제 파악㉡ 정의서에 심각한 오류는 수정 - 워크샵 수행㉠ 분..
Python - 한국기상청 도시별 현재 날씨 Data 분석 시각화 1. Import Moduleimport pandas as pd from print_df import print_df import matplotlib.pyplot as plt 2. Sample Data : https://developer-ankiwoong.tistory.com/259 3. Codeimport pandas as pd from print_df import print_df import matplotlib.pyplot as plt df = pd.read_csv('weather.csv', encoding='utf=8') df_list = list(df['지역']) index_dict = {} for i, v in enumerate(df_list): index_dict[i] = v df.drop('..
Python - 한국기상청 도시별 현재 날씨 정보 분석 후 csv 저장 1. import moduleimport requests from bs4 import BeautifulSoup as BS 2. Sample URL : http://www.weather.go.kr/weather/observation/currentweather.jsp 3. HTML Parsing Codeimport requests from bs4 import BeautifulSoup as BS url = 'http://www.weather.go.kr/weather/observation/currentweather.jsp' response = requests.get(url) if response.status_code != 200: print("%d 에러가 발생했습니다." % response.status_code..
Pandas - Scientists Data 분석 1. Sample Data 2. Import Moduleimport pandas as pd from print_df import print_df 3. Data 분석- CSV(comma separated values) : Data들이 comma(,)로 구분된 파일. - CSV File Load(CSV는 ,로 구분 되어있으므로 sep를 안줘도 무방)df = pd.read_csv('data\scientists.csv') - Data의 행(row) / 열(column) 갯수 확인df = pd.read_csv('data\scientists.csv') print('shape:', df.shape)shape: (8, 5) Process finished with exit code 0 - Data의 양이 적으므로 CSV..
Pandas - Gapminder Data 분석(그래프 분석) 3 1 Sample Data 2. import moduleimport pandas as pd import matplotlib.pyplot as plt 3. 그래프 분석import pandas as pd import matplotlib.pyplot as plt df = pd.read_csv('data\gapminder.tsv', sep='\t') year_lifeExp_mean = df.groupby('year')['lifeExp'].mean() year = df.loc[0: , 'year'] year_drop = year.drop_duplicates() year_x = [] for i in year_drop: year_x.append(i) plt.rcParams["font.family"] = 'NanumGo..
Pandas - Gapminder Data 분석(TSV File) 2 1. Import Moduleimport pandas as pd from print_df import print_df import matplotlib.pyplot as plt 2. Data 분석- DataFrame 여러 행을 추출 1(df.loc[인덱스 번호])print_df(df.loc[[0, 1, 2]])+---+-------------+-----------+------+--------------------+----------+-------------------+| | country | continent | year | lifeExp | pop | gdpPercap |+---+-------------+-----------+------+--------------------+----------+-----..
Pandas - Gapminder Data 분석(TSV File) 1 1. Sample Data 2. Import Moduleimport pandas as pd from print_df import print_df import matplotlib.pyplot as plt 3. Data 분석- TSV(tab separated values) : Data들이 tap 으로 구분된 파일. - TSV File Load(sep = 구분형식)df = pd.read_csv('data\gapminder.tsv', sep='\t') - Data의 행(row) / 열(column) 갯수 확인print('shape:', df.shape)shape: (1704, 6) Process finished with exit code 0 - Data 행의 머리말 부분 확인print_df(df.head())+..
Pandas - 연비 TEST Data 분석 2 1. 평균 연비- 평균 연비 : (고속도로 연비 + 도시 연비) / 2- 평균 연비 20 이상 합격 2. 평균 연비 구하기df['연비테스트'] = numpy.where((df['cty'] + df['hwy']) / 2 >= 20, '합격', '불합격') print_df(df.head(10))+---+------------+--------------+------------+-------+------+-----+------------+-----+-----+-----+----+---------+------------+| | Unnamed: 0 | manufacturer | model | displ | year | cyl | trans | drv | cty | hwy | fl | class | 연비테스트 |+-..