1. Pandas
- 데이터 분석 / 데이터 처리 / 대용량 데이터를 보다 안정적이고 쉽게 처리하게 만들어진 python package.
2. Pandas 설치
pip install pandas
3. 자료 구조
- Series : value와 index의 형태를 지니는 1열로 구성된 자료 구조
- DataFrame : 여러 개의 딕셔너리를 처리하는데 있어 Series 보다 보기 편한 자료 구조
4. Series
- 기본 생성
from pandas import Series
items = [10,20,30,40,50]
column = Series(items)
print(column)
- 출력물
0 10
1 20
2 30
3 40
4 50
dtype: int64
Process finished with exit code 0
column[인덱스 번호]
- Value : 값 추출 / Type <class 'numpy.ndarray'>
column.values
- Index : 인덱스 추출 / Type <class 'pandas.core.indexes.range.RangeIndex'>
column.index
5. DataFrame
- 기본 생성
from pandas import DataFrame
grade_list = [
[50, None, 20, 40],
[10, 20, 62, 72],
[92, 70, 30, None],
[63, 60, 31, 70],
[None, 50, None, 88]
]
df = DataFrame(grade_list)
print(df)
- 출력물
0 1 2 3
0 50.0 NaN 20.0 40.0
1 10.0 20.0 62.0 72.0
2 92.0 70.0 30.0 NaN
3 63.0 60.0 31.0 70.0
4 NaN 50.0 NaN 88.0
Process finished with exit code 0
- Index 개별 조회 / Type <class 'pandas.core.series.Series'>
DrataFrame변수[인덱스번호]
- Column 지정
from pandas import DataFrame
grade_list = [
[50, None, 20, 40],
[10, 20, 62, 72],
[92, 70, 30, None],
[63, 60, 31, 70],
[None, 50, None, 88]
]
column_name = ['국어', '영어', '수학', '과학']
df = DataFrame(grade_list, columns=column_name)
print(df)
- 출력물
국어 영어 수학 과학
0 50.0 NaN 20.0 40.0
1 10.0 20.0 62.0 72.0
2 92.0 70.0 30.0 NaN
3 63.0 60.0 31.0 70.0
4 NaN 50.0 NaN 88.0
Process finished with exit code 0
- Column 조회
DataFrame변수['조회Column']
- Index 지정
from pandas import DataFrame
grade_list = [
[50, None, 20, 40],
[10, 20, 62, 72],
[92, 70, 30, None],
[63, 60, 31, 70],
[None, 50, None, 88]
]
index_name = ['철수', '수지', '짱구', '훈이', '액션가면']
df = DataFrame(grade_list, index=index_name)
print(df)
- 출력물
0 1 2 3
철수 50.0 NaN 20.0 40.0
수지 10.0 20.0 62.0 72.0
짱구 92.0 70.0 30.0 NaN
훈이 63.0 60.0 31.0 70.0
액션가면 NaN 50.0 NaN 88.0
Process finished with exit code 0
- Column + Index 지정
from pandas import DataFrame
grade_list = [
[50, None, 20, 40],
[10, 20, 62, 72],
[92, 70, 30, None],
[63, 60, 31, 70],
[None, 50, None, 88]
]
column_name = ['국어', '영어', '수학', '과학']
index_name = ['철수', '수지', '짱구', '훈이', '액션가면']
df = DataFrame(grade_list, columns=column_name, index=index_name)
print(df)
- 출력물
국어 영어 수학 과학
철수 50.0 NaN 20.0 40.0
수지 10.0 20.0 62.0 72.0
짱구 92.0 70.0 30.0 NaN
훈이 63.0 60.0 31.0 70.0
액션가면 NaN 50.0 NaN 88.0
Process finished with exit code 0
'Python_Intermediate > Pandas' 카테고리의 다른 글
Data Preprocessing(데이터 전처리) - 기초 (0) | 2019.05.04 |
---|---|
Pandas Aggregate Function(Pandas 집계 함수) (0) | 2019.05.04 |
190504 09:25> Naver 실시간 검색어 20위 (0) | 2019.05.04 |
Python Pandas 박스오피스 180503 순위 분석 (0) | 2019.05.04 |
Pandas - 190503 노트북 제품 비교 분석 (0) | 2019.05.03 |