본문 바로가기

Python_Intermediate/Pandas

(64)
[EXCEL]Excel File Data Analysis(엑셀 파일 Pandas 분석) 1. Sample Data 2. 데이터 작업 절차 3. 사용 모듈 from print_df import print_df from pandas import ExcelFile from pandas import DataFrame from matplotlib import pyplot as plt import numpy as np 4. 데이터 수집 # 엑셀파일 읽기 xls_file = ExcelFile('C:\\python_StudyGroup\\200215\\data\\mpg.xlsx') # 엑셀의 sheet 이름들 중에서 0번째 sheet를 dataframe으로 변환 df = xls_file.parse(xls_file.sheet_names[0], index_col=0) print_df(df.head()) > 결..
[Python]Data Preparation Basic(데이터 전처리 기초) 5 Live Codeing 1. Sample Data # 딕셔너리 성적 리스트 grade_dic = { '국어': [98, 88, 68, 64, 120], '영어': [None, 90, 60, 20, 50], '수학': [90, 70, None, 31, None], '과학': [120, 50, None, 60, 88] } 2. 상자 수염 그림으로 이상치 확인하기 from pandas import DataFrame from Data import grade_dic from print_df import print_df from matplotlib import pyplot from sklearn.impute import SimpleImputer import numpy df = DataFrame(grade_dic, ..
[Python]Data Preparation Basic(데이터 전처리 기초) 4 Live Codeing 1. Sample Data # 딕셔너리 성적 리스트 grade_dic = { '국어': [98, 88, 68, 64, 120], '영어': [None, 90, 60, 20, 50], '수학': [90, 70, None, 31, None], '과학': [120, 50, None, 60, 88] } 2. 결측치 여부 확인 from pandas import DataFrame from Data import grade_dic from print_df import print_df df = DataFrame(grade_dic, index=['노진구', '이슬이', '비실이', '퉁퉁이', '도라에몽']) # print_df(df) # 결측치 확인 null_data = df.isnull() nu..
[Python]Data Preparation Basic(데이터 전처리 기초) 3 Live Codeing 1. Sample Data # 딕셔너리 성적 리스트 grade_dic = { '국어': [98, 88, 68, 64, 120], '영어': [None, 90, 60, 20, 50], '수학': [90, 70, None, 31, None], '과학': [120, 50, None, 60, 88] } 2. 신규 열 추가 from pandas import DataFrame from Data import grade_dic from print_df import print_df df = DataFrame(grade_dic, index=['노진구', '이슬이', '비실이', '퉁퉁이', '도라에몽']) # print_df(df) # 새로운 열 추가 df['프로그래밍'] = [92, 49, 21,..
[Python]Data Preparation Basic(데이터 전처리 기초) 2 Live Codeing 1. Sample Data # 딕셔너리 성적 리스트 grade_dic = { '국어': [98, 88, 68, 64, 120], '영어': [None, 90, 60, 20, 50], '수학': [90, 70, None, 31, None], '과학': [120, 50, None, 60, 88] } 2. 리스트 사용 행 추가 from pandas import DataFrame from Data import grade_dic from print_df import print_df df = DataFrame(grade_dic, index=['노진구', '이슬이', '비실이', '퉁퉁이', '도라에몽']) # print_df(df) # 리스트 행 추가 df.loc['짱구'] = [90, 80..
[Python]Data Preparation Basic(데이터 전처리 기초) 1 Live Coding 1. Sample Data # 딕셔너리 성적 리스트 grade_dic = { '국어': [98, 88, 68, 64, 120], '영어': [None, 90, 60, 20, 50], '수학': [90, 70, None, 31, None], '과학': [120, 50, None, 60, 88] } 2. prettytable pip install prettytable 3. 열 순서 변경 from pandas import DataFrame from Data import grade_dic from print_df import print_df # 데이터 프레임 df = DataFrame(grade_dic, index=['노진구', '이슬이', '비실이', '퉁퉁이', '도라에몽']) # 열 ..
[Pandas]Python Study - PPT Presentation Material - DataFrame • 데이터가 크다? -행이 많다는 의미 -> 100명의 데이터가 10만명의 데이터가 될 경우 처리시 하드웨어 사양을 높이거나 하둡(분산처리) 구축 행이 늘어나더라도 분석 기술 측면에서 별다른 차이가 없다. • 데이터가 크다? -열이 많다는 의미 -> 데이터 분석은 변수들 간의 관계를 다룸(학점 - 연봉의 관계 / 전공 – 연봉의 관계) 변수를 조합할 수 있는 경우의 수가 증가 의미 단순한 분석 방법으로는 해결이 힘들다. 여러 변수의 영향을 동시에 고려할 수 있는 복잡한 분석 방법을 활용 # 성적 리스트 # Sample Data List # 2차원 성적 리스트 grade_list = [ # 국 영 수 과 [98, None, 68, 64], # 노진구 [88, 90, 60, 20], # 퉁퉁이 [90, 70..
[Pandas]Python Study - PPT Presentation Material • Pandas? 데이터 분석, 처리 등을 쉽게 하도록 만들어진 Python Package. 대용량 데이터를 보다 쉽고 안정적으로 처리할 수 있다고 알려져 있다. pip install pandas pip3 install pandas 종류 설명 Series Value와 index의 형태를 지니는 1열로 구성된 자료 구조 DataFrame 여러 개의 Dictionary를 처리하는데 있어 Series보다 보기 편한 형태의 자료 구조 # pandas 모듈에서 series 클래스 가져오기 from pandas import Series # 기본 시리즈 만들기 # 리스트를 통해 만들 수 있다. # 즉, 리스트 자료형을 가공하여 생성된 데이터 구조 items = [10, 30, 50, 70, 90] column = S..