데이터의 분산(산포정도)

Posted by youmin park on 2020-11-22

데이터 사이언스를 위한 통계학 입문_5일차

데이터의 분산(산포정도)

1. 어느 집단의 분산이 클까

  • 데이터는 아는 만큼 보인다.

  • 평균과 아는 사람 vs 평균과 표준편차를 아는 사람

(예시) 기업 A 기업B
평균 연봉 4,280만원 4,280만원
표준 편차 2,399만원 467만원
  • 평균 연봉은 같지만, 기업 A는 초봉이 낮고 승진하면 월급이 높아짐

2. 그래프로 그려본 데이터의 산포

  • 연봉의 히스토그램(계급구간 너비 =150만원)
  • 기업 A는 양극단에 분포, 기업 B는 평균 중심에 많이 분포
    • 기업 A의 산포정도(분산)가 더 큼

image


3. 분산의 공식

  • 데이터의 산포정도가 크다.
    • 데이터가 중간에 몰려있지 않고 멀리 퍼져있다.
    • 데이터가 중심 위치로 부터 멀리 퍼져있다.
    • 데이터의 평균과 데이터들의 차이가 크다.
  • 데이터의 평균과 데이터들의 거리의 합으로 분산을 계산!

image

  • 데이터가 평균으로부터 대칭적으로 존재할 경우 편차들의 합이 0이 됨

    -> 그래서 편차를 제곱하여 더함.

  • 분산 = 편차들의 제곱합을 (n-1)로 나눈다

    image

  • (n-1) 로 나누는 이유는 자유도와 관련, 평균값으로 표본평균을 사용하므로 1개의 자유도를 잃게되서 (n-1)로 나눈다.

  • 표준 편차
    • (개별 데이터값 - 평균값)의 차이를 제곱하여 더하였으므로 값이 커지고, 단위가 달라짐.
      • 분산에 제곱근을 취하여 원래 단위로 복원.
      • 이를 표준 편차라고 부름.

4. 분산의 의미

  • 데이터가 분포되어있는 정도
  • 데이터에 대한 요약정보를 보완하고, 평균값만으로 데이터를 상상해보기 어려움.