데이터 분석과 윤리, 공유 데이터와 오픈소스

Posted by youmin park on 2020-11-20

데이터 사이언스를 위한 통계학 3일차

데이터 분석과 윤리

  • 데이터의 정직성
    • 데이터 분석가의 비윤리성, 무지함, 환경의 제약 이 정직하지 못한 데이터의 주요 원인

image


공유 데이터와 오픈소스

  • 공유 데이터
    • 모든 사람이 자유롭게 사용 및 재사용이 가능하며 재배포할 수 있는 데이터
    • 이용성 및 접근성
    • 재사용과 재배포
    • 보편적 참여
  • 오픈 소스

    • 저작권자가 소스 코드를 공개하여 누구나 복제, 개작, 배포할 수 있는 소프트웨어
    • R, Python : 오픈소스 통계 분석 프로그램
    • C++, Java, Python 등 다른 프로그래밍 언어와 쉽게 연동
    • 빅데이터 시스템인 스파크와도 일부 기능을 연동함으로써 응용범위가 더욱 넓어짐
  • 인공지능에서의 오픈 소스

    • 구글은 머신러닝과 신경망 연구를 위한 소프트웨어 텐서플로우 를 오픈소스로 공개
    • 구글 딥마인드는 인공지능 개발 플랫폼인 딥마인드랩을 공개해 누구나 인공지능 알고리즘을 테스트해볼 수 있게 함.