Pandas 기초 데이터형과 조작법

10/06/2024

실습 코드 자료는 좌측 상단의 Repository를 참고

Pandas

python기반 오픈소스 데이터 분석 라이브러리.

numpy object를 내부적으로 활용하고있다.

Series

열 벡터로 이루어진 데이터형.

데이터 주소값인 index,

데이터 값인 value의 쌍으로 이루어져있다.

index는 정수형 위치 index와

이름 index(label index)가 있고

이 값들로 데이터나 Slicing된 데이터 범위에 접근할 수 있다.

(Series의 Index는 RangeIndex객체로 표현된다.)

numpy 1.26.4

pandas 2.2.2에서

정수형 위치 index로 접근할 경우

FutureWarning: Series.__getitem__ treating keys as positions is deprecated.
In a future version, integer keys will always be treated as labels
(consistent with DataFrame behavior).To access a value by position,
use `ser.iloc[pos]`
의 Future warning이 뜬다.
정수형 인덱스로 접근을 할 때는 iloc을 이용하도록 명시되어있다.

python의 dict, tuple을 Series로 변환할 수 있다.
dict는 key,value쌍이기 때문에 그대로 변환되지만
tuple은 인덱스가 없는 값들이기 때문에
Series로 변환 시 index를 지정해주어야한다.

Dataframe
2차원 배열.
열의 모음이며, 시리즈의 모음이라고 할 수 있다.
열벡터의 모음이기 때문에 2차원 벡터이다.

딕셔너리의 
key -> 열 이름 = 시리즈 이름 = 데이터프레임의 열 이름
value -> 행 값의 리스트
로 변환되어 데이터 프레임을 구성한다.
python의 딕셔너리와 이중 리스트를 DataFrame으로 변환할 수 있다.

2차원 배열 형태이기 때문에
Series와 달리 
딕셔너리는 {'id':[1,2,3], 'name':['a', 'b', 'c']} 형태가 되어야 하며
리스트는 이중 리스트 형태가 되어야한다.
리스트가 행으로 변환된다.
행,열 이름의 배열은 각각 df.index, df.columns로 접근가능하다.

게시물 검색

Computation suite

Pandas 기초 데이터형과 조작법

Pandas

Series

Dataframe

댓글

댓글 쓰기

이 블로그의 인기 게시물

Blogger 커스터마이징 : CSS 수정 (sticky-header)

Python의 빌트인 class들의 관계

Vue 첫 걸음