데이터의 평균(중심위치)

Posted by youmin park on 2020-11-21

데이터 사이언스를 위한 통계학 입문_4일차

데이터의 평균(중심위치)

  • 평균은 데이터를 하나의 값으로 표현한 요약된 정보 (추정치)
  • 평균 = 데이터 값의 총 합 / 데이터의 개수

평균을 다룰 때 주의할 점

  • 평균은 혼자 존재하는 개념이 아니다!

    • 평균과 표본 선정

      • 어떻게 표본선정을 하느냐에 따라 평균에 영향
      • 조사된 평균값이 모집단을 대표하는 통계치 인가?
    • 표본이 적합하게 추출되었는지 평가하는 방법(평균을 예제로)

      1. 편의( Bias)가 적은가?

        : 표본을 추출할 때 표본으로부터 얻어지는 통계치(표본평균)의 기대값이 모수의 참값과 유사한가?

      2. 정확도(Precision)가 높은가?

        : 반복해서 표본을 추출할 때(반복 실험할때) 얼마나 유사한 값들이 나오는가?

    • 같은 평균이라도 분산이 다르면 데이터 특성은 다르다.

    • 평균값은 그 집단에서 **가장 많이 존재하는 값이 아니다 **

      • 만약 데이터가 1,2,2,7이면 평균은 3이지만 데이터에는 3이 없음.

데이터의 중심척도 요약

  • 평균(mean)은 표본이 적은경우 아주 큰 값이나 작은 값(outlier)에 민감한 추정치. 때로는 중앙값이 평균보다 더 적합한 중심척도인 경우도 있음.
  • 중앙값
    • n개의 관측치를 크기순으로 배열했을 때 중앙의 위치에 놓이게 되는 값.
    • 데이터의 수가 작고 이상치(outlier)가 있을 때 평균보다 더 정확한 모집단의 중심값이 됨.
  • 최빈값(mode)
    • 전체 데이터 중 가장 빈도(frequency)가 높은 값.
    • 데이터의 수가 많아질수록 평균과 가까워짐.