데이터사이언스를 위한 통계학 입문_1일차
데이터 과학이란 무엇인가?
1. 데이터 과학과 통계
통계학, 데이터마이닝, 빅데이터, 딥러닝, 인공지능
데이터(Data), 데이터분석(Data Analytics), 인사이트 창출(Insight)
데이터 분석(Data Analytics)
- 데이터 큐레이션(Data curation)
- 데이터 추출(SQL, R, Python)
- 데이터 시각화(Data visualization)
- 그래픽(R의 ggplot)
- 통계모형, 인공지능(t-검정, 회귀분석, 머신러닝)
즉, Analytic -> Discovery -> Insight 하는것.
데이터과학에서 배워야 할것.
- 통계적 개념과 지식 - 샘플링, 확률분포, 가설검정, p-value
- 데이터를 다룰수 있는 기술 (데이터 큐레이션) -빅데이터 다루기
- 데이터의 요약된 정보 전달 기술 - 데이터 시각화(공간지도분석, 다차원 그래픽)
- 데이터 윤리, 데이터 보안
- 데이터 도메인에 대한 지식과 분석능력 (현실 문제의 해결능력)
데이터과학의 예시
- 핀란드의 의료데이터 프로젝트 (Finn Gen)
- 핀란드인(Finnish)과 유전자(Genome)의 합성어.
- 자발적 참여자의 유전자 정보를 수집하고 환자의 의료정보까지 통합구축.
- 현재 50만명 목표에서 23만명 수집. 그 중 15만명의 유전자 정보 보유.
- 6개월 마다 데이터 업데이트 - 전세계 연구자와 공유
- 관절염/당뇨병 등 자가면역질환 연구 수행중 - 개인 맞춤형 약 개발 추진중
앞으로 배울 것
- 데이터 과학을 위한 통계적 개념과 지식
- 공유데이터와 오픈소스
- 빅데이터분석을 위한 첫걸음 - 데이터 중심위치, 산포정도
- 데이터 시각화
- 데이터 과학에서 확률분포는 무슨 의미를 전달?