✔️ 기초 통계량 = 기술 통계량
통계량 = 표본으로 산출한 값. 통계량을 통해 데이터가 갖는 특성 이해 가능
✔️ 중심 경향치
표본의 중심을 설명하는 대표값. 평균, 중앙값, 최빈값, 절사 평균
모짐단으로부터 관측된 n개의 x가 주어졌을 때, 표본 평균은 (sample mean,
✔️ 중앙값(median)
관측치를 크기순으로 나열했을 때, 가운데 위치하는 값.
홀수개 -> 가운데 하나 / 짝수개 -> 가운데 값 2개의 평균
-> 이상치가 포함된 데이터에 대해 사용.
✔️ 최빈값(mode)
관측치에서 가장 많이 관측되는 값
-> 옷사이즈와 같이 명목형 데이터의 경우 사용
✔️ 산포도
데이터가 어떻게 흩어져 있는지 확인하기 위해 중심경향치와 함께 산포에 대한 측도 고려해야함.
데이터의 산포도 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동계수 있음.
✔️ 범위
데이터의 최댓값과 최소값의 차이
✔️ 사분위수
전체 데이터를 4등분 했을 때, 제1사분위수(Q1) 제2사분위수(Q2) 제3사분위수(Q3)
사분위수 범위(interquartile range) : IQR = 제3사분위수 - 제1사분위수
✔️ 백분위수
주어진 비율에 의해 등분된 값. 데이터를 오름차수로 배열하고 자료가 n개 있을 때, 제(100*p)백분위수는 아래외 같음.
01) np가 정수이면, np번째와 (np+1)번째 자료의 평균
02) np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료
✔️💡 분산 VAR
데이터의 분포가 얼마나 흩어져 있는지 알 수 있는 측도.
✔️ 표준편차
분산의 제곱근
'Statistic' 카테고리의 다른 글
[Statistic] Average, Uncertainty, PDF, PMF, CDF Keyword (0) | 2023.10.11 |
---|