최소 데이터 과학: 데이터 과학을 시작하기 위해 알아야 할 10가지 필수 기술

플라톤에 의해 재발행

팔로워 : 0

데이터 과학 최소 : 데이터 과학을 시작하기 위해 알아야 할 10 가지 필수 기술

데이터 과학은 데이터 준비 및 탐색, 데이터 표현 및 변환, 데이터 시각화 및 프레젠테이션, 예측 분석, 기계 학습 등과 같은 여러 하위 부문을 포함하는 매우 광범위한 분야입니다. 초보자의 경우 다음 질문을 제기하는 것이 당연합니다. 데이터 과학자가 되려면 어떤 기술이 필요합니까?

이 기사에서는 데이터 과학자를 실습하는 데 필요한 10 가지 필수 기술에 대해 설명합니다. 이러한 기술은 두 가지 범주로 분류 할 수 있습니다. 기술적 능력 (수학 및 통계, 코딩 기술, 데이터 랭 글링 및 전처리 기술, 데이터 시각화 기술, 기계 학습 기술 및 실제 프로젝트 기술) 및 소프트 스킬 (커뮤니케이션 기술, 평생 학습 기술, 팀 플레이어 기술 및 윤리 기술).

데이터 과학은 끊임없이 진화하는 분야이지만 데이터 과학의 기초를 습득하면 딥 러닝, 인공 지능 등과 같은 고급 개념을 추구하는 데 필요한 배경 지식을 얻을 수 있습니다.이 기사에서는 다음을위한 10 가지 필수 기술에 대해 설명합니다. 연습 데이터 과학자.

(i) 통계 및 확률

통계 및 확률은 기능 시각화, 데이터 전처리, 기능 변환, 데이터 대치, 차원 감소, 기능 엔지니어링, 모델 평가 등에 사용됩니다. 다음은 숙지해야하는 주제입니다.

평균

b) 중앙값

c) 모드

d) 표준 편차 / 분산

e) 상관 계수와 공분산 행렬

f) 확률 분포 (이항, 포아송, 정규)

g) p- 값

h) MSE (평균 제곱 오차)

i) R2 점수

j) Baye의 정리 (정밀도, 재현율, 양의 예측 값, 음의 예측 값, 혼동 행렬, ROC 곡선)

k) A / B 테스트

l) 몬테카를로 시뮬레이션

(ii) 다 변수 미적분

대부분의 기계 학습 모델은 여러 기능 또는 예측 변수가있는 데이터 세트로 빌드됩니다. 따라서 다 변수 미적분에 대한 친숙 함은 기계 학습 모델을 구축하는 데 매우 중요합니다. 숙지해야 할 주제는 다음과 같습니다.

a) 여러 변수의 기능

b) 미분 및 기울기

c) 스텝 함수, 시그 모이 드 함수, 로짓 함수, ReLU (Rectified Linear Unit) 함수

d) 비용 함수

e) 함수 플로팅

f) 함수의 최소 및 최대 값

(iii) 선형 대수

선형 대수는 기계 학습에서 가장 중요한 수학 기술입니다. 데이터 세트는 행렬로 표시됩니다. 선형 대수는 데이터 전처리, 데이터 변환 및 모델 평가에 사용됩니다. 숙지해야 할 주제는 다음과 같습니다.

a) 벡터

b) 행렬

c) 행렬 전치

d) 역행렬

e) 행렬의 행렬식

f) 내적

g) 고유 값

h) 고유 벡터

(iv) 최적화 방법

대부분의 기계 학습 알고리즘은 목적 함수를 최소화하여 예측 모델링을 수행하므로 예측 된 레이블을 얻기 위해 테스트 데이터에 적용해야하는 가중치를 학습합니다. 숙지해야 할 주제는 다음과 같습니다.

a) 비용 함수 / 목표 함수

b) 우도 함수

c) 오류 기능

d) Gradient Descent Algorithm 및 그 변형 (예 : Stochastic Gradient Descent Algorithm)

여기에서 경사 하강 법 알고리즘에 대해 자세히 알아보십시오. 기계 학습 : 경사 하강 법 알고리즘의 작동 방식.

프로그래밍 기술은 데이터 과학에서 필수적입니다. Python과 R은 데이터 과학에서 가장 널리 사용되는 두 가지 프로그래밍 언어로 간주되므로 두 언어 모두에 대한 필수 지식이 중요합니다. 일부 조직은 둘 다가 아닌 R 또는 Python 기술 만 요구할 수 있습니다.

(i) Python 기술

파이썬의 기본 프로그래밍 기술에 익숙해 져야합니다. 다음은 사용 방법을 마스터해야하는 가장 중요한 패키지입니다.

a) 넘피

b) 판다

c) 매트플롯립

d) 씨본

e) 사이킷런

f) 파이 토치

(ii) R의 기술

가) 타이디버스

b) DPLYR

다) Ggplot2

d) 캐럿

e) 스트링거

(iii) 다른 프로그래밍 언어의 기술

다음 프로그래밍 언어에 대한 기술은 일부 조직 또는 산업에서 필요할 수 있습니다.

a) 엑셀

b) 태블로

c) 하둡

다) SQL

e) 스파크

데이터는 추론 분석, 예측 분석 또는 규범 분석과 같은 데이터 과학의 모든 분석에서 핵심입니다. 모델의 예측력은 모델 구축에 사용 된 데이터의 품질에 따라 달라집니다. 데이터는 텍스트, 표, 이미지, 음성 또는 비디오와 같은 다양한 형태로 제공됩니다. 대부분의 경우 분석에 사용되는 데이터는 추가 분석에 적합한 형식으로 렌더링하기 위해 마이닝, 처리 및 변환되어야합니다.

i) 데이터 랭 글링: 데이터 랭 글링 프로세스는 모든 데이터 과학자에게 중요한 단계입니다. 분석을 위해 데이터 과학 프로젝트에서 데이터에 쉽게 액세스 할 수있는 경우는 거의 없습니다. 데이터가 파일, 데이터베이스에 있거나 웹 페이지, 트윗 또는 PDF와 같은 문서에서 추출 될 가능성이 더 높습니다. 데이터를 엉망으로 만들고 정리하는 방법을 알면 숨겨진 데이터에서 중요한 통찰력을 얻을 수 있습니다.

II) 데이터 전처리: 데이터 사전 처리에 대한 지식은 매우 중요하며 다음과 같은 주제를 포함합니다.

a) 누락 된 데이터 처리

b) 데이터 대치

c) 범주 형 데이터 처리

d) 분류 문제에 대한 인코딩 클래스 레이블

e) PCA (Principal Component Analysis) 및 LDA (Linear Discriminant Analysis)와 같은 특성 변환 및 차원 감소 기술.

좋은 데이터 시각화의 필수 구성 요소를 이해합니다.

a) 데이터 구성 요소: 데이터 시각화 방법을 결정하는 중요한 첫 번째 단계는 데이터 유형 (예 : 범주 형 데이터, 불연속 데이터, 연속 데이터, 시계열 데이터 등)을 아는 것입니다.

b) 기하학적 구성 요소 : 여기에서 데이터에 적합한 시각화 유형 (예 : 산점도, 선 그래프, 막대 그림, 히스토그램, qqplots, 평활 밀도, 상자 그림, 쌍 그림, 히트 맵 등)을 결정할 수 있습니다.

c) 매핑 구성 요소 : 여기서 x- 변수로 사용할 변수와 y- 변수로 사용할 변수를 결정해야합니다. 이는 특히 데이터 세트가 여러 기능을 포함하는 다차원 인 경우에 중요합니다.

d) 스케일 구성 요소 : 여기에서 사용할 스케일의 종류 (예 : 선형 스케일, 로그 스케일 등)를 결정합니다.

e) 레이블 구성 요소 : T여기에는 축 레이블, 제목, 범례, 사용할 글꼴 크기 등이 포함됩니다.

f) 윤리적 요소: 여기에서 시각화가 실제 이야기를 전달하는지 확인하려고합니다. 데이터 시각화를 정리, 요약, 조작 및 생성 할 때 작업을 인식하고 시각화를 사용하여 청중을 오도하거나 조작하지 않도록해야합니다.

기계 학습은 데이터 과학의 매우 중요한 분야입니다. 기계 학습 프레임 워크를 이해하는 것이 중요합니다 : 문제 프레이밍, 데이터 분석, 모델 구축, 테스트 및 평가, 모델 적용. 여기에서 기계 학습 프레임 워크에 대해 자세히 알아보십시오. 기계 학습 프로세스.

다음은 익숙해 져야 할 중요한 기계 학습 알고리즘입니다.

i)지도 학습 (연속 변수 예측)

a) 기본 회귀

b) 다중 회귀 분석

c) 정규화 회귀

ii)지도 학습 (이산 변수 예측)

a) 로지스틱 회귀 분류기

b) 지원 벡터 머신 분류기

c) K- 최근 접 이웃 (KNN) 분류기

d) 의사 결정 트리 분류기

e) 랜덤 포레스트 분류기

iii) 비지도 학습

a) KMeans 클러스터링 알고리즘

코스 작업만으로 습득 한 기술은 데이터 과학자가되지 않습니다. 자격을 갖춘 데이터 과학자는 문제 프레이밍, 데이터 수집 및 분석, 모델 구축, 모델 테스트, 모델 평가와 같은 데이터 과학 및 기계 학습 프로세스의 모든 단계를 포함하는 실제 데이터 과학 프로젝트를 성공적으로 완료했다는 증거를 입증 할 수 있어야합니다. , 모델 배포. 실제 데이터 과학 프로젝트는 다음에서 찾을 수 있습니다.

a) Kaggle 프로젝트

b) 인턴십

c) 인터뷰에서

데이터 과학자는 팀의 다른 구성원이나 조직의 비즈니스 관리자와 아이디어를 전달할 수 있어야합니다. 좋은 의사 소통 기술은 데이터 과학의 기술 개념을 거의 또는 전혀 이해하지 못하는 사람들에게 매우 기술적 인 정보를 전달하고 제시 할 수있는 핵심 역할을합니다. 좋은 의사 소통 기술은 데이터 분석가, 데이터 엔지니어, 현장 엔지니어 등과 같은 다른 팀원들과의 단결 및 공생 분위기를 조성하는 데 도움이됩니다.

데이터 과학은 끊임없이 진화하는 분야이므로 새로운 기술을 수용하고 배울 준비를하십시오. 현장의 발전과 연락을 유지하는 한 가지 방법은 다른 데이터 과학자와 네트워크를 형성하는 것입니다. 네트워킹을 촉진하는 일부 플랫폼은 LinkedIn, GitHub 및 Medium (데이터 과학을 향해 와 AI를 향하여 간행물). 이 플랫폼은 해당 분야의 최근 개발에 대한 최신 정보에 매우 유용합니다.

데이터 과학자는 데이터 분석가, 엔지니어, 관리자로 구성된 팀에서 일하게되므로 훌륭한 커뮤니케이션 기술이 필요합니다. 특히 훌륭한 데이터 과학 프로젝트를 설계하고 구성하기 위해 엔지니어 또는 다른 인력에게 의존해야하는 초기 프로젝트 개발 단계에서 훌륭한 경청자가되어야합니다. 좋은 팀 플레이어가되면 비즈니스 환경에서 성공하고 팀의 다른 구성원은 물론 조직의 관리자 또는 이사와 좋은 관계를 유지하는 데 도움이됩니다.

프로젝트의 의미를 이해하십시오. 자신에게 진실하십시오. 데이터를 조작하거나 의도적으로 결과를 편향시키는 방법을 사용하지 마십시오. 데이터 수집 및 분석에서 모델 구축, 분석, 테스트 및 적용에 이르기까지 모든 단계에서 윤리적이어야합니다. 청중을 오도하거나 조작 할 목적으로 결과를 조작하지 마십시오. 데이터 과학 프로젝트의 결과를 해석하는 방식에 윤리적이어야합니다.

요약하면 데이터 과학자를 실습하는 데 필요한 10 가지 필수 기술에 대해 논의했습니다. 데이터 과학은 끊임없이 진화하는 분야이지만 데이터 과학의 기초를 습득하면 딥 러닝, 인공 지능 등과 같은 고급 개념을 추구하는 데 필요한 배경 지식을 얻을 수 있습니다.

벤자민 오 타요 물리학자, 데이터 과학 교육자 및 작가이며 DataScienceHub의 소유자입니다. 이전에 Benjamin은 U. of Central Oklahoma, Grand Canyon U. 및 Pittsburgh State U.에서 공학 및 물리학을 가르쳤습니다.

실물. 허가를 받아 다시 게시했습니다.