Pandas 기초 데이터형과 조작법
Pandas
python기반 오픈소스 데이터 분석 라이브러리.
numpy object를 내부적으로 활용하고있다.
Series
열 벡터로 이루어진 데이터형.
데이터 주소값인 index,
데이터 값인 value의 쌍으로 이루어져있다.
index는 정수형 위치 index와
이름 index(label index)가 있고
이 값들로 데이터나 Slicing된 데이터 범위에 접근할 수 있다.
(Series의 Index는 RangeIndex객체로 표현된다.)
numpy 1.26.4
pandas 2.2.2에서
정수형 위치 index로 접근할 경우
FutureWarning: Series.__getitem__ treating keys as positions is deprecated. In a future version, integer keys will always be treated as labels (consistent with DataFrame behavior).To access a value by position, use `ser.iloc[pos]`의 Future warning이 뜬다.
정수형 인덱스로 접근을 할 때는 iloc을 이용하도록 명시되어있다.
python의 dict, tuple을 Series로 변환할 수 있다.
dict는 key,value쌍이기 때문에 그대로 변환되지만
tuple은 인덱스가 없는 값들이기 때문에
Series로 변환 시 index를 지정해주어야한다.
Dataframe
2차원 배열.열의 모음이며, 시리즈의 모음이라고 할 수 있다.열벡터의 모음이기 때문에 2차원 벡터이다.딕셔너리의
key -> 열 이름 = 시리즈 이름 = 데이터프레임의 열 이름
value -> 행 값의 리스트
로 변환되어 데이터 프레임을 구성한다.
python의 딕셔너리와 이중 리스트를 DataFrame으로 변환할 수 있다.
2차원 배열 형태이기 때문에
Series와 달리
딕셔너리는 {'id':[1,2,3], 'name':['a', 'b', 'c']} 형태가 되어야 하며
리스트는 이중 리스트 형태가 되어야한다.
리스트가 행으로 변환된다.
행,열 이름의 배열은 각각 df.index, df.columns로 접근가능하다.
댓글
댓글 쓰기