데이터 탐색

Posted by youmin park on 2020-11-24

데이터 사이언스를 위한 통계학 입문_7일차

1. 데이터 탐색의 첫걸음

  1. 통계치로 인사이트를 얻는다.

    1. 어떤 회사에 합격하려면 -> 평균적으로 이런 스팩이 필요하다.

    2. 최적의 의사 결정

    3. 데이터 탐색

      1. 공정에 대한 평균, 산포, 불량률을 추정

        1. 품질의 변동상황을 관리도(Control Chart)로 표현
        2. 공정에 발생하는 이상요인을 빨리 탐지하여 수정조치를 취함으로써 불량품 발생을 사전에 억제함


      image



  2. 통계적 품질 관리

    1. 공정에서 정상범위 관리도 차트 : `정상일 때는 관리도 차트 내부에, 이상이 있을 때 벗어나는데 -> 알람기능( 공정 관리자의 조정 필요)
    2. 중심선, 관리상한선(UCL), 관리하한선(LCL)을 어떻게 설정할 것인가?


    image

image

​ -> 이렇게 중심선, UCL, LCL을 구하여 관리도를 만들 수 있음!!



  1. 데이터의 숨겨진 패턴을 분석

  2. 분류

    1. 이미지 분석을 통한 의료진단 및 헬스케어
      • 암과 정상인 뇌 영상을 숫자화(데이터화)함
        1. 분류(암/정상)를 가장 잘 구분하는 변수를 찾고 범주 간의 차이를 가장 잘 표현하는 새로운 함수를 구함.
        2. 새로운 환자의 영상을 보고 어느 범주에 가까운지 판별하여 암 여부를 짐.
        3. 각 영상은 p개의 변수들로 이루어지며 변수1(암) 또는 범주2(정상)중에 속함
        4. 변수들의 선형조합으로 새로운 변수 z를 형성 후 이를 바탕으로 분류 규칙을 만듬
          image
        5. 두 범주가 잘 분류된다는 것은 두 범주가 겹치지 않으면서 두 범주의 중심위치가 가능한 멀게
          • 범주 간 Z의 image값이 최대화되는 w값을 찾는 것이 목적 = image
          • 평균과 분산으로 나타낼 수 있음.

          • 범주 구분을 위해 ㅅ의 최대값을 구하기 위해 w에 대해 미분하면,image
          • 새로운 데이터의 범주를 분류하기 위해 각 범주의 표본평균과 판별함수값 Z와의 차이를 산출 후 그 차이가 가장 작은 범주에 분류함`
            image
  1. 웹 마이닝을 통한 트렌트 분석

    1. 지난 1년간 검색어 트렌드 비교

      1. 지난 1년간의 트렌트 분석

      image

      • 핸드 메이드 코트가 가장 인기, 롱패딩은 작년 겨울에 비해 감소, 숏패딩은 전반적으로 인기가 가장 낮음.
    • 앞으로의 트렌드 예측. 지난 1년의 트렌드와 비슷할 것이라는 가정하에 앞으로의 트렌드를 예측해볼 수 있음.



    1. Weighted Moving Average 를 통한 트렌트 파악

      1. 과거 트렌드를 반영하되 먼 과거의 데이터보다 가까운 시점의 데이터를 더 중요시함!

        image

    ​ ##### 가장 최근 달 : weight 3, 두달 전 : weight 2, 세달 전: weight 1

  1. 요약

    • 재대로 된 데이터가 있다면
      • 통계치를 도출하여 대상에 대한 인사이트를 얻을 수 있다.
      • 미래 데이터를 예측하여 의사결정을 할 수 있다.
      • 통계적 개념을 바탕으로 유용한 차트를 만들어낼 수 있다.
      • 분류 분석, 트렌드 분석 등에 활용할 수 있다.