데이터 사이언스를 위한 통계학 3일차
데이터 분석과 윤리
- 데이터의 정직성
- 데이터 분석가의 비윤리성, 무지함, 환경의 제약 이 정직하지 못한 데이터의 주요 원인
공유 데이터와 오픈소스
- 공유 데이터
- 모든 사람이 자유롭게 사용 및 재사용이 가능하며 재배포할 수 있는 데이터
- 이용성 및 접근성
- 재사용과 재배포
- 보편적 참여
연구자들을 위한 공유 데이터 서비스
오픈 소스
- 저작권자가 소스 코드를 공개하여 누구나 복제, 개작, 배포할 수 있는 소프트웨어
- R, Python : 오픈소스 통계 분석 프로그램
- C++, Java, Python 등 다른 프로그래밍 언어와 쉽게 연동
- 빅데이터 시스템인 스파크와도 일부 기능을 연동함으로써 응용범위가 더욱 넓어짐
인공지능에서의 오픈 소스
- 구글은 머신러닝과 신경망 연구를 위한 소프트웨어 텐서플로우 를 오픈소스로 공개
- 구글 딥마인드는 인공지능 개발 플랫폼인 딥마인드랩을 공개해 누구나 인공지능 알고리즘을 테스트해볼 수 있게 함.