pandas에서 가장 많이 사용되는 데이터형은 dataFrame
* DataFrame()에서 괄호 안에 커서 넣고 shift + tab 누르면 해당 입력어에 대한 설명, 예제 나온다.
index와 columns를 지정하면 된다.
jupyter notebook에서 # 하나 쓰고 esc 누르고 m 누르면 제목 작업 됨. ##, ### 크기 차이. 작성하고 shift + enter
셀에서 esc 눌러서 초록색 창 된 상태에서 a 누르면 상위에 창 하나 생성됨.
.head() : 앞부분 5개 조회
.tail() : 뒷부분 5개 조회
.index : dataFrame의 index 확인
.columns : dataFrame의 columns 확인
.values : dataFrame의 value 확인
.info() : dataFrame의 기본 정보 확인. 여기서는 각 칼럼의 크기와 데이터형태를 확인하는 경우가 많다.
.describe() : dataFrame의 통계적 기본 정보를 확인. 데이터가 평균, 최소, 최대 등
.sort_values : 데이터를 정렬
df[n:m] : n부터 m-1까지의 정보 불러옴.
loc = location (이름으로 지정)
df.loc["a" : "b", ["c", "d"]] : a부터 b행의 c~d cloumns 값 불러옴
iloc = inter location : 컴퓨터가 인식하는 인덱스 값으로 선택.(번호로만 지정, 접근 가능)
.isin() : 괄호 안의 요소가 있는지 확인, 특정 요소가 있는 행만 선택
del : 컬럼 제거
.drop : 칼럼 제거, axis = 0
ex) df.drop(["D"], axis = 1) #axis = 0 가로, axis = 1 세로
.apply() : 괄호 안에 함수 지정해주면 각 컬럼 누적합
ex)df["A"].apply("sum") : A열의 데이터들의 합
df["A"].apply("min"), df["A"].apply("max") : a열의 최솟갑, 최댓갑
df.A : df안의 A행렬 값 불러올 수 있는데, 이때 A 자리에는 숫자 불가. "숫자"입력해도 안됨.
# 두 개 이상 컬럼 선택
df[["A", "B"]] : 리스트 두겹 씌움
