Chapter 1 데이터 과학이란 무엇인가?

 

1.1    빅데이터와 데이터과학 열풍

-      데이터과학에 대한 의구심 : 기본적인 용어에 대한 정의 부재, 존중받지 못하는 데이터과학 학자, 과장된 열풍, 통계학과의 구분이 어려움, 데이터 과학은 과학인가?

 

1.2    열풍을 넘어서


-      통계학과 데이터 과학 간에는 확실히 차이가 있다. (컴퓨터 연산, 코딩, 시각화 기법)


1.3    왜 지금?


-      오늘날은 단순히 인터넷을 넘어 많은 분야에서, 심지어 오프라인에서 까지 데이터가 기록되고 있다. (Big data)

-      데이터 자체가 상품의 소재가 된다. (추천 시스템, 신용 등급 평가, 맞춤 학습프로그램)

-      데이터 처리 기술 발달


1.3.1     데이터화


-      인터넷에서 하는 활동들, 오프라인에서 하는 활동들이 모두 데이터화되고 있다

-      대상을 데이터화 하면 새로운 가치를 창출할 수 있다.


1.4    현재의 풍경


-      데이터과학은 해킹 스킬, 수학과 통계학 지식, 내용적 전문성의 교집합

-      데이터과학은 통계학, 데이터변환(파싱, 스크래핑), 시각화를 포함한다

-      데이터과학자의 등장: 하나의 직함


1.4.1     데이터과학 직업들


-      뉴욕시 데이터과학자를 모집하는 광고 465

-      데이터 과학자는 컴퓨터과학, 통계학, 커뮤니케이션, 데이터 시각화에 대해 전문적이기를 요구함. (그러나 한 사람이 모두 전문적일 순 없음)


1.5    데이터 과학 프로필


-      데이터과학 팀은 다양한 사람이 다양한 스킬을 가지고 참여할 때 가장 좋다.

-      때문에 데이터과학자로 정의하기 보다는 데이터 과학 팀으로 규정하는 것이 더 낫다


1.6    사고실험: 메타 정의


-      Q: 데이터과학을 정의하는 데 데이터과학을 활용할 수 있겠는가?

-      1. 텍스트 마이닝 모형으로 시작: 구글 검색

-      2. 군집화 알고리즘: 데이터과학자, 통계학자, 물리학자, 경제학자 등 다양한 직업을 가진 사람들이 하는 일을 묘사하고 군집화 알고리즘 사용


1.7    데이터 과학자는 정말로 어떤 직업인가?


1.7.1     대학에서


-      사회학자, 저널리스트, 정치학자 등 수많은 분야의 사람들이 데이터과학자가 되기를 원함

-      데이터 과학자는 사회과학, 생물학 등 모든 분야에서 존재할 것이고 대량의 데이터를 분석하고 현실세계문제를 해결한다. 또한 데이터의 구조, 크기, 무정형성, 복잡성과 같은 전산화 문제를 다룬다.


1.7.2     산업에서


-      기업의 데이터 전략을 세움 (데이터수집, 데이터기록, 데이터를 어떻게 사용할 것인지, 어떻게 데이터를 상품에 반영할 것인지)

-      공학자, 과학자, 분석가로 이루어진 팀

-      CEO, CTO, 제품책임자와 커뮤니케이션


  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기