데이터 사이언스를 위한 통계학 입문_6일차
1. 데이터란 무엇인가?
구조화
된 데이터- 다차원 배열(매트릭스)
- 각 열의 형식이 다른 표 or 스프레드시트
- 탭이나 텍스트 파일 형식으로 저장(*.txt, *.csv)
2. 데이터화(Datafication)
- 기계가 읽어들일수 있는 모든것을 (숫자, 이미지, 텍스트) 데이터로 변환하는것.
- 개인의 활동을 실시간으로 추적해 이를 예측분석이 가능한 수량화된 온라인 데이터로 변환하는 것을 의미(Jose van Dijck, 2014)
3. 빅데이터란 무엇인가
- Volume(양) - 많은 양의 데이터
- Velocity(속도) - 빠르게 생성
- Variety(다양성) - 다양한 형태의 데이터
4. 빅데이터 활용 사례
- 아마존의 추천 상품 표시
- 모든 고객들의
구매 내역
을 데이터 베이스에 기록 - 기록을 분석해 소비자의
소비 취향과 관심사를 파악
- 고객별로 추천 상품을 표시
- 모든 고객들의
- MLB의 머니볼이론 및 데이터 야구
- 머니볼 이론? 경기 데이터를 분석해
데이터를 기반으로 선수들을 배정
, 승률을 높인다는 게임 이론 - 최하위에 있던 팀을 4년 연속 포스트 시즌에 진출시키고 메이저 리그
최초로 20년승이라는 신기록을 세움
- 머니볼 이론? 경기 데이터를 분석해
5. 요약
- 데이터
- 데이터화
- 빅데이터
- 빅데이터의 활용