데이터 사이언스를 위한 통계학 입문_5일차
데이터의 분산(산포정도)
1. 어느 집단의 분산이 클까
데이터는 아는 만큼 보인다.
평균과 아는 사람 vs
평균과 표준편차를 아는 사람
(예시) | 기업 A | 기업B |
---|---|---|
평균 연봉 | 4,280만원 | 4,280만원 |
표준 편차 | 2,399만원 | 467만원 |
- 평균 연봉은 같지만, 기업 A는 초봉이 낮고 승진하면 월급이 높아짐
2. 그래프로 그려본 데이터의 산포
- 연봉의 히스토그램(계급구간 너비 =150만원)
- 기업 A는
양극단
에 분포, 기업 B는평균 중심
에 많이 분포- 기업 A의
산포정도(분산)가 더 큼
- 기업 A의
3. 분산의 공식
- 데이터의 산포정도가 크다.
- 데이터가 중간에 몰려있지 않고 멀리 퍼져있다.
- 데이터가 중심 위치로 부터 멀리 퍼져있다.
- 데이터의
평균과 데이터들의 차이
가 크다.
- 데이터의
평균과 데이터들의 거리의 합으로 분산을 계산
!
데이터가 평균으로부터 대칭적으로 존재할 경우
편차들의 합이 0이 됨
-> 그래서 편차를 제곱하여 더함.
분산 = 편차들의 제곱합을 (n-1)로 나눈다
(n-1)
로 나누는 이유는 자유도와 관련, 평균값으로 표본평균을 사용하므로 1개의 자유도를 잃게되서 (n-1)로 나눈다.
- 표준 편차
- (개별 데이터값 - 평균값)의 차이를 제곱하여 더하였으므로 값이 커지고, 단위가 달라짐.
- 분산에
제곱근
을 취하여 원래 단위로 복원. - 이를
표준 편차
라고 부름.
- 분산에
- (개별 데이터값 - 평균값)의 차이를 제곱하여 더하였으므로 값이 커지고, 단위가 달라짐.
4. 분산의 의미
- 데이터가 분포되어있는 정도
- 데이터에 대한 요약정보를 보완하고, 평균값만으로 데이터를 상상해보기 어려움.