데이터와 빅데이터

Posted by youmin park on 2020-11-23

데이터 사이언스를 위한 통계학 입문_6일차

1. 데이터란 무엇인가?

  • 구조화된 데이터
  • 다차원 배열(매트릭스)
  • 각 열의 형식이 다른 표 or 스프레드시트
  • 탭이나 텍스트 파일 형식으로 저장(*.txt, *.csv)

2. 데이터화(Datafication)

  • 기계가 읽어들일수 있는 모든것을 (숫자, 이미지, 텍스트) 데이터로 변환하는것.
  • 개인의 활동을 실시간으로 추적해 이를 예측분석이 가능한 수량화된 온라인 데이터로 변환하는 것을 의미(Jose van Dijck, 2014)

3. 빅데이터란 무엇인가

  • Volume(양) - 많은 양의 데이터
  • Velocity(속도) - 빠르게 생성
  • Variety(다양성) - 다양한 형태의 데이터

4. 빅데이터 활용 사례

  1. 아마존의 추천 상품 표시
    1. 모든 고객들의 구매 내역을 데이터 베이스에 기록
    2. 기록을 분석해 소비자의 소비 취향과 관심사를 파악
    3. 고객별로 추천 상품을 표시

  2. MLB의 머니볼이론 및 데이터 야구
    1. 머니볼 이론? 경기 데이터를 분석해 데이터를 기반으로 선수들을 배정, 승률을 높인다는 게임 이론
    2. 최하위에 있던 팀을 4년 연속 포스트 시즌에 진출시키고 메이저 리그 최초로 20년승이라는 신기록을 세움

5. 요약

  • 데이터
  • 데이터화
  • 빅데이터
  • 빅데이터의 활용