본문 바로가기

Python_Intermediate/Pandas

Pandas Basic(Pandas 기초)

1. Pandas

- 데이터 분석 / 데이터 처리 / 대용량 데이터를 보다 안정적이고 쉽게 처리하게 만들어진 python package.


2. Pandas 설치

pip install pandas


3. 자료 구조

- Series : value와 index의 형태를 지니는 1열로 구성된 자료 구조

- DataFrame : 여러 개의 딕셔너리를 처리하는데 있어 Series 보다 보기 편한 자료 구조


4. Series

- 기본 생성

from pandas import Series

items = [10,20,30,40,50]
column = Series(items)

print(column)

- 출력물

0    10

1    20

2    30

3    40

4    50

dtype: int64


Process finished with exit code 0


- Index 개별 조회 / Type <class 'numpy.int64'>
column[인덱스 번호]


- Value : 값 추출 / Type <class 'numpy.ndarray'>

column.values


- Index : 인덱스 추출 / Type <class 'pandas.core.indexes.range.RangeIndex'>

column.index


5. DataFrame

- 기본 생성

from pandas import DataFrame

grade_list = [
[50, None, 20, 40],
[10, 20, 62, 72],
[92, 70, 30, None],
[63, 60, 31, 70],
[None, 50, None, 88]
]

df = DataFrame(grade_list)
print(df)


- 출력물

      0     1     2     3

0  50.0   NaN  20.0  40.0

1  10.0  20.0  62.0  72.0

2  92.0  70.0  30.0   NaN

3  63.0  60.0  31.0  70.0

4   NaN  50.0   NaN  88.0


Process finished with exit code 0


- Index 개별 조회 / Type <class 'pandas.core.series.Series'>

DrataFrame변수[인덱스번호]


- Column 지정

from pandas import DataFrame

grade_list = [
[50, None, 20, 40],
[10, 20, 62, 72],
[92, 70, 30, None],
[63, 60, 31, 70],
[None, 50, None, 88]
]

column_name = ['국어', '영어', '수학', '과학']
df = DataFrame(grade_list, columns=column_name)
print(df)


- 출력물

     국어    영어    수학    과학

0  50.0   NaN  20.0  40.0

1  10.0  20.0  62.0  72.0

2  92.0  70.0  30.0   NaN

3  63.0  60.0  31.0  70.0

4   NaN  50.0   NaN  88.0


Process finished with exit code 0


- Column 조회

DataFrame변수['조회Column']


- Index 지정

from pandas import DataFrame

grade_list = [
[50, None, 20, 40],
[10, 20, 62, 72],
[92, 70, 30, None],
[63, 60, 31, 70],
[None, 50, None, 88]
]

index_name = ['철수', '수지', '짱구', '훈이', '액션가면']
df = DataFrame(grade_list, index=index_name)
print(df)


- 출력물

         0     1     2     3

철수    50.0   NaN  20.0  40.0

수지    10.0  20.0  62.0  72.0

짱구    92.0  70.0  30.0   NaN

훈이    63.0  60.0  31.0  70.0

액션가면   NaN  50.0   NaN  88.0


Process finished with exit code 0


- Column + Index 지정

from pandas import DataFrame

grade_list = [
[50, None, 20, 40],
[10, 20, 62, 72],
[92, 70, 30, None],
[63, 60, 31, 70],
[None, 50, None, 88]
]

column_name = ['국어', '영어', '수학', '과학']
index_name = ['철수', '수지', '짱구', '훈이', '액션가면']

df = DataFrame(grade_list, columns=column_name, index=index_name)

print(df)


- 출력물

        국어    영어    수학    과학

철수    50.0   NaN  20.0  40.0

수지    10.0  20.0  62.0  72.0

짱구    92.0  70.0  30.0   NaN

훈이    63.0  60.0  31.0  70.0

액션가면   NaN  50.0   NaN  88.0


Process finished with exit code 0