데이터 사이언스를 위한 통계학 입문_7일차
1. 데이터 탐색의 첫걸음
통계치로 인사이트를 얻는다.
어떤 회사에 합격하려면 -> 평균적으로 이런 스팩이 필요하다.
최적의 의사 결정
데이터 탐색
공정에 대한
평균, 산포, 불량률
을 추정- 품질의 변동상황을
관리도(Control Chart)
로 표현 - 공정에 발생하는 이상요인을 빨리 탐지하여 수정조치를 취함으로써
불량품 발생을 사전에 억제함
- 품질의 변동상황을
통계적 품질 관리
1. 공정에서 정상범위 관리도 차트 : `정상일 때는 관리도 차트 내부에, 이상이 있을 때 벗어나는데 -> 알람기능( 공정 관리자의 조정 필요) 2. 중심선, 관리상한선(UCL), 관리하한선(LCL)을 어떻게 설정할 것인가?
-> 이렇게 중심선, UCL, LCL을 구하여 관리도를 만들 수 있음!!
데이터의 숨겨진 패턴을 분석
분류
- 이미지 분석을 통한 의료진단 및 헬스케어
- 암과 정상인 뇌 영상을 숫자화(데이터화)함
- 분류(암/정상)를
가장 잘 구분하는 변수
를 찾고범주 간의 차이를 가장 잘 표현하는 새로운 함수
를 구함. - 새로운 환자의 영상을 보고
어느 범주에 가까운지
판별하여 암 여부를 짐. - 각 영상은 p개의 변수들로 이루어지며 변수1(암) 또는 범주2(정상)중에 속함
- 변수들의 선형조합으로 새로운 변수 z를 형성 후 이를 바탕으로 분류 규칙을 만듬
- 두 범주가 잘 분류된다는 것은
두 범주가 겹치지 않으면서
두 범주의중심위치가 가능한 멀게
- 범주 간 Z의
값이
최대화되는 w값
을 찾는 것이 목적 = 평균과 분산으로 나타낼 수 있음.
- 범주 구분을 위해 ㅅ의 최대값을 구하기 위해 w에 대해 미분하면,
- 새로운 데이터
의 범주를 분류하기 위해 각 범주의
표본평균과 판별함수값 Z와의 차이를 산출 후 그
차이가 가장 작은 범주에 분류함`
- 범주 간 Z의
- 분류(암/정상)를
- 암과 정상인 뇌 영상을 숫자화(데이터화)함
- 이미지 분석을 통한 의료진단 및 헬스케어
웹 마이닝을 통한 트렌트 분석
지난 1년간 검색어 트렌드 비교
지난 1년간의 트렌트 분석
- 핸드 메이드 코트가 가장 인기, 롱패딩은 작년 겨울에 비해 감소, 숏패딩은 전반적으로 인기가 가장 낮음.
앞으로의 트렌드 예측. 지난 1년의 트렌드와 비슷할 것이라는 가정하에 앞으로의 트렌드를 예측해볼 수 있음.
Weighted Moving Average 를 통한 트렌트 파악
과거 트렌드를 반영하되 먼 과거의
데이터보다 가까운 시점의 데이터를 더 중요시함!
##### 가장 최근 달 : weight 3, 두달 전 : weight 2, 세달 전: weight 1
요약
- 재대로 된 데이터가 있다면
- 통계치를 도출하여 대상에 대한 인사이트를 얻을 수 있다.
- 미래 데이터를 예측하여 의사결정을 할 수 있다.
- 통계적 개념을 바탕으로 유용한 차트를 만들어낼 수 있다.
- 분류 분석, 트렌드 분석 등에 활용할 수 있다.
- 재대로 된 데이터가 있다면