IT story

데이터 과학자의 필수 기술

hot-time 2020. 12. 25. 09:30
반응형

데이터 과학자의 필수 기술


데이터 과학자의 무기고와 관련된 기술은 무엇입니까? 매일 새로운 기술이 등장하면서 필수 요소를 어떻게 선택하고 선택합니까?

이 토론과 관련된 몇 가지 아이디어 :

  • SQL과 MySQL과 같은 DB의 사용을 알고있는 PostgreSQL은 NoSql 및 비 관계형 데이터베이스가 출현 할 때까지 훌륭했습니다. MongoDB, CouchDB 등은 웹 스케일 데이터로 작업하는 데 인기를 얻고 있습니다.
  • R과 같은 통계 도구를 아는 것만으로도 분석 할 수 있지만 애플리케이션을 만들려면 Java, Python 등을 목록에 추가해야 할 수 있습니다.
  • 데이터는 이제 텍스트, URL, 멀티미디어의 형태로 제공되며 몇 가지 예를 들어 데이터 조작과 관련된 다양한 패러다임이 있습니다.
  • 클러스터 컴퓨팅, 병렬 컴퓨팅, 클라우드, Amazon EC2, Hadoop은 어떻습니까?
  • OLS 회귀에는 이제 인공 신경망, 랜덤 포레스트 및 기타 비교적 이국적인 기계 학습 / 데이터 마이닝 알고리즘이 있습니다. 회사

생각?


Hadley의 박사 논문 소개에서 인용하려면 :

첫째, 작업 할 수있는 형식으로 데이터를 얻습니다. 둘째, 무슨 일이 일어나고 있는지 느끼기 위해 데이터를 플로팅합니다. 셋째, 그래픽과 모델 사이를 반복하여 다음의 간결한 정량적 요약을 작성합니다. 데이터 ... 마지막으로, 당신이 한 일을 되돌아보고 미래에 더 잘하기 위해 어떤 도구가 필요한지 생각합니다.

1 단계는 거의 확실하게 데이터 정리를 포함하며 데이터베이스 액세스 또는 웹 스크래핑을 포함 할 수 있습니다. 데이터를 만드는 사람을 아는 것도 유용합니다. (나는 '네트워킹'아래에 제출하고 있습니다.)

2 단계는 시각화 / 플로팅 기술을 의미합니다.

3 단계는 통계 또는 모델링 기술을 의미합니다. 그것은 어리석게도 광범위한 범주이기 때문에 모델러에게 위임하는 능력도 유용한 기술입니다.

마지막 단계는 대부분 자기 성찰과 같은 소프트 스킬과 관리 형 스킬에 관한 것입니다.

소프트웨어 기술도 질문에 언급되었으며, 매우 유용하다는 데 동의합니다. Software Carpentry 는 당신이 가져야 할 모든 기본 소프트웨어 기술의 좋은 목록을 가지고 있습니다.


다른 사람들이 설명 할 수 있도록 몇 가지 아이디어를 던져 보자.

엄청나게 높은 추상화 수준에서 모든 데이터 작업에는 다음 단계가 포함됩니다.

  • 데이터 수집
  • 데이터 저장 / 검색
  • 데이터 조작 / 합성 / 모델링
  • 결과보고
  • 스토리 텔링

최소한 데이터 과학자는 이러한 각 영역에 대해 최소한 몇 가지 기술을 가지고 있어야 합니다. 그러나 전문 분야에 따라 제한된 범위에서 더 많은 시간을 보낼 수 있습니다.


JD는 훌륭합니다. 이러한 아이디어에 대해 좀 더 깊이 알아 보려면 Michael Driscoll의 뛰어난 게시물 The Three Sexy Skills of Data Geeks를 읽어보십시오 .

  1. 스킬 # 1 : 통계 (공부)
  2. 기술 # 2 : 데이터 결합 (고통)
  3. 스킬 # 3 : 시각화 (스토리 텔링)

데이터 전문가에서이 질문은 멋진 벤 다이어그램을 사용하여 일반적인 방식으로 해결됩니다.

벤 다이어그램


JD가 머리를 쳤다 : 스토리 텔링. 그는 다른 중요한 이야기 ​​인 <여기에 멋진 기술 삽입>을 사용한 이유에 대한 이야기를 잊어 버렸습니다. 그 질문에 답할 수 있다는 것은 당신이 개발할 수있는 가장 중요한 기술입니다.

나머지는 망치입니다. 오해하지 마십시오. R과 같은 것은 훌륭합니다. R은 망치의 전체 가방이지만 중요한 부분은 망치를 사용하는 방법과 유용한 것을 만드는 방법을 아는 것입니다.


상업적인 데이터베이스 한두 개를 관리하는 것이 중요하다고 생각합니다. 내가 컨설팅하는 금융 세계에서 나는 종종 DB / 2와 Oracle을 대형 아이언에서, SQL Server를 분산 서버에서 볼 수 있습니다. 이것은 기본적으로 SQL 코드를 읽고 쓸 수 있음을 의미합니다. 데이터를 스토리지에서 분석 도구로 가져올 수 있어야합니다.

분석 도구 측면에서 저는 R이 점점 더 중요하다고 생각합니다. 또한 적어도 하나 이상의 다른 통계 패키지를 사용하는 방법을 아는 것이 매우 유리하다고 생각합니다. 그것은 SAS 또는 SPSS가 될 수 있습니다. 그것은 당신이 일하고있는 회사 나 클라이언트와 그들이 기대하는 바에 달려 있습니다.

마지막으로, 이러한 모든 패키지를 믿을 수 없을 정도로 파악할 수 있지만 여전히 그다지 가치가 없습니다. 특정 분야에서 상당한 양의 주제 전문 지식을 보유하고 관련 사용자 및 관리자에게 분석 및 결과를 둘러싼 문제를 전달할 수있는 것이 매우 중요합니다.


행렬 대수는 내 최고의 선택입니다.


  • 협업 능력.

거의 모든 분야에서 위대한 과학은 오늘날 개인에 의해 거의 이루어지지 않습니다.


데이터 과학자에게 유용한 몇 가지 컴퓨터 과학 주제가 있으며 그중 많은 주제가 언급되었습니다 : 분산 컴퓨팅, 운영 체제 및 데이터베이스.

계산의 시간 및 공간 요구 사항을 이해하는 알고리즘 분석은 데이터 과학자에게 가장 중요한 단일 컴퓨터 과학 주제입니다. 통계적 학습 방법에서 데이터 수집에 이르기까지 효율적인 코드를 구현하는 데 유용합니다. RAM 또는 Hadoop 노드 수와 같은 컴퓨팅 요구 사항을 결정합니다.


인내-합리적인 방식으로 결과를 얻은 다음 '실제로'필요한 것으로 돌아가서 변경할 수 있습니다.


MIT Open 코스웨어 18.06에서 Linear Algebra를 공부하고 "Introduction to Linear Algebra"라는 책으로 자신의 연구를 대체하십시오. 선형 대수는 위에서 언급 한 기술 외에 데이터 분석의 필수 기술 중 하나입니다.

참조 URL : https://stackoverflow.com/questions/2860314/essential-skills-of-a-data-scientist

반응형