Pandas 기초 데이터형과 조작법

실습 코드 자료는 좌측 상단의 Repository를 참고


Pandas

python기반 오픈소스 데이터 분석 라이브러리.

numpy object를 내부적으로 활용하고있다.


Series

열 벡터로 이루어진 데이터형.

데이터 주소값인 index,

데이터 값인 value의 쌍으로 이루어져있다.


index는 정수형 위치 index와

이름 index(label index)가 있고

이 값들로 데이터나 Slicing된 데이터 범위에 접근할 수 있다.

(Series의 Index는 RangeIndex객체로 표현된다.)


numpy 1.26.4

pandas 2.2.2에서

정수형 위치 index로 접근할 경우 


FutureWarning: Series.__getitem__ treating keys as positions is deprecated.
In a future version, integer keys will always be treated as labels
(consistent with DataFrame behavior).To access a value by position,
use `ser.iloc[pos]`

의 Future warning이 뜬다.

정수형 인덱스로 접근을 할 때는 iloc을 이용하도록 명시되어있다.


python의 dict, tuple을 Series로 변환할 수 있다.

dict는 key,value쌍이기 때문에 그대로 변환되지만

tuple은 인덱스가 없는 값들이기 때문에

Series로 변환 시 index를 지정해주어야한다.


Dataframe

2차원 배열.
열의 모음이며, 시리즈의 모음이라고 할 수 있다.
열벡터의 모음이기 때문에 2차원 벡터이다.

딕셔너리의 

key -> 열 이름 = 시리즈 이름 = 데이터프레임의 열 이름

value -> 행 값의 리스트

로 변환되어 데이터 프레임을 구성한다.

python의 딕셔너리와 이중 리스트를 DataFrame으로 변환할 수 있다.


2차원 배열 형태이기 때문에

Series와 달리 

딕셔너리는 {'id':[1,2,3], 'name':['a', 'b', 'c']} 형태가 되어야 하며

리스트는 이중 리스트 형태가 되어야한다.

리스트가 행으로 변환된다.

행,열 이름의 배열은 각각 df.index, df.columns로 접근가능하다.



댓글

이 블로그의 인기 게시물

실무진 면접 경험으로 정리하는 백엔드 (1) : 에듀 테크 기업 면접

노마드코더 개발자북클럽 Clean code 완주, 독후감

Blogger 커스터마이징 : CSS 수정 (sticky-header)