Datavitenskap Minimum: 10 essensielle ferdigheter du trenger å vite for å begynne å gjøre datavitenskap

Datavitenskap Minimum: 10 essensielle ferdigheter du trenger å vite for å begynne å gjøre datavitenskap

Kilde node: 1792235

Datavitenskap Minimum: 10 essensielle ferdigheter du trenger å vite for å begynne å gjøre datavitenskap
 

Datavitenskap er et så bredt felt som inkluderer flere underavdelinger som dataklargjøring og utforsking, datarepresentasjon og transformasjon, datavisualisering og presentasjon, prediktiv analyse og maskinlæring osv. For nybegynnere er det bare naturlig å reise følgende spørsmål: Hvilke ferdigheter trenger jeg for å bli datavitenskapsmann?

Denne artikkelen vil diskutere 10 viktige ferdigheter som er nødvendige for praktiserende dataforskere. Disse ferdighetene kan grupperes i to kategorier, nemlig, teknologiske ferdigheter (Matematikk og statistikk, kodingsferdigheter, data wrangling & preprocessing ferdigheter, data visualisering ferdigheter, maskinlæring ferdigheter, og virkelige verden prosjekt ferdigheter) og myke ferdigheter (Kommunikasjonsferdigheter, Livslang læring, Team Player-ferdigheter og etiske ferdigheter).

Datavitenskap er et felt som er i stadig utvikling, men å mestre grunnlaget for datavitenskap vil gi deg den nødvendige bakgrunnen du trenger for å forfølge avanserte konsepter som dyp læring, kunstig intelligens, etc. Denne artikkelen vil diskutere 10 viktige ferdigheter for praktiserende dataforskere.

(i) Statistikk og sannsynlighet

Statistikk og sannsynlighet brukes til visualisering av funksjoner, forbehandling av data, transformasjon av funksjoner, dataimputasjon, dimensjonalitetsreduksjon, funksjonsteknikk, modellevaluering osv. Her er emnene du trenger å være kjent med:

et gjennomsnitt

b) Median

c) Modus

d) Standardavvik / avvik

e) Korrelasjonskoeffisient og kovariansmatrisen

f) Sannsynlighetsfordelinger (Binomial, Poisson, Normal)

g) p-verdi

h) MSE (gjennomsnittlig kvadratfeil)

i) R2-poengsum

j) Bayes teorem (presisjon, tilbakekalling, positiv prediktiv verdi, negativ prediktiv verdi, forvirringsmatrise, ROC-kurve)

k) A / B-testing

l) Monte Carlo-simulering

(ii) Multivariabel kalkulator

De fleste maskinlæringsmodeller er bygget med et datasett som har flere funksjoner eller prediktorer. Derfor er kjennskap til multivariabel kalkulator ekstremt viktig for å bygge en maskinlæringsmodell. Her er emnene du trenger å være kjent med:

a) Funksjoner av flere variabler

b) Derivater og gradienter

c) Trinnfunksjon, Sigmoid-funksjon, Logit-funksjon, ReLU (Rectified Linear Unit) -funksjon

d) Kostnadsfunksjon

e) Plotting av funksjoner

f) Minimums- og maksimumsverdier for en funksjon

(iii) Lineær algebra

Lineær algebra er den viktigste matteferdigheten i maskinlæring. Et datasett er representert som en matrise. Lineær algebra brukes i forbehandling av data, datatransformasjon og modellevaluering. Her er emnene du trenger å være kjent med:

a) Vektorer

b) Matriser

c) Transponere en matrise

d) Inversen til en matrise

e) Determinanten til en matrise

f) Prikkprodukt

g) Eigenverdier

h) Eigenvektorer

(iv) Optimaliseringsmetoder

De fleste maskinlæringsalgoritmer utfører prediktiv modellering ved å minimere en objektiv funksjon, og lærer dermed vektene som må brukes på testdataene for å oppnå de forutsagte etikettene. Her er emnene du trenger å være kjent med:

a) Kostnadsfunksjon / Målfunksjon

b) Sannsynlighetsfunksjon

c) Feilfunksjon

d) Gradient Descent Algorithm og dens varianter (f.eks. Stochastic Gradient Descent Algorithm)

Finn ut mer om gradientnedstigningsalgoritmen her: Maskinlæring: Hvordan algoritmen til gradvis nedstigning fungerer.

Programmeringsferdigheter er essensielle i datavitenskap. Siden Python og R regnes som de to mest populære programmeringsspråk innen datavitenskap, er viktig kunnskap på begge språk avgjørende. Noen organisasjoner kan bare kreve ferdigheter i enten R eller Python, ikke begge deler.

(i) Ferdigheter i Python

Bli kjent med grunnleggende programmeringsferdigheter i python. Her er de viktigste pakkene du bør mestre hvordan du bruker:

a) Numpy

b) Pandaer

c) Matplotlib

d) Sjøfødt

e) Scikit-lær

f) PyTorch

(ii) Ferdigheter i R

a) Tidyverse

b) Dplyr

c) Ggplot2

d) Vaktmester

e) Stringr

(iii) Ferdigheter i andre programmeringsspråk

Ferdigheter i følgende programmeringsspråk kan være påkrevd av noen organisasjoner eller bransjer:

a) Excel

b) Tablå

c) Hadoop

d) SQL

e) Gnist

Data er nøkkelen for enhver analyse innen datavitenskap, det være seg inferensiell analyse, prediktiv analyse eller forskrivningsanalyse. Den prediktive kraften til en modell avhenger av kvaliteten på dataene som ble brukt til å bygge modellen. Data kommer i forskjellige former, for eksempel tekst, tabell, bilde, tale eller video. Oftest må data som brukes til analyse utvinnes, behandles og transformeres for å gjengi dem til et skjema som er egnet for videre analyse.

i) Datakamp: Prosessen med datakamping er et kritisk trinn for enhver dataforsker. Svært sjelden er data lett tilgjengelig i et datavitenskapelig prosjekt for analyse. Det er mer sannsynlig at dataene er i en fil, en database eller blir hentet fra dokumenter som websider, tweets eller PDF-filer. Å vite hvordan du skal knuse og rense data vil gjøre det mulig for deg å få kritisk innsikt fra dataene dine som ellers ville vært skjult.

ii) Forbehandling av data: Kunnskap om databehandling er veldig viktig og inkluderer emner som:

a) Håndtering av manglende data

b) Dataimputasjon

c) Håndtering av kategoriske data

d) Koding av klassemerker for klassifiseringsproblemer

e) Teknikker for funksjonstransformasjon og dimensjonsreduksjon, for eksempel Principal Component Analysis (PCA) og Linear Discriminant Analysis (LDA).

Forstå de essensielle komponentene i god datavisualisering.

a) Datakomponent: Et viktig første skritt i å bestemme hvordan data skal visualiseres er å vite hvilken type data det er, f.eks. Kategoriske data, diskrete data, kontinuerlige data, tidsseriedata osv.

b) Geometrisk komponent: Her bestemmer du hva slags visualisering som passer for dataene dine, f.eks. Spredningsdiagram, linjediagrammer, søylediagrammer, histogrammer, qq-plotter, glatte tettheter, boksdiagrammer, pardiagrammer, varmekart osv.

c) Kartleggingskomponent: Her må du bestemme hvilken variabel du skal bruke som x-variabel og hva du skal bruke som y-variabel. Dette er viktig, spesielt når datasettet ditt er flerdimensjonalt med flere funksjoner.

d) Skala komponent: Her bestemmer du hva slags skalaer du skal bruke, f.eks. Lineær skala, loggskala osv.

e) Etikettkomponent: Thans inkluderer ting som øksetiketter, titler, sagn, skriftstørrelse å bruke osv.

f) Etisk komponent: Her vil du sørge for at visualiseringen din forteller den sanne historien. Du må være oppmerksom på handlingene dine når du rengjør, oppsummerer, manipulerer og produserer en datavisualisering, og sørg for at du ikke bruker visualiseringen din til å villede eller manipulere publikum.

Maskinlæring er en veldig viktig gren av datavitenskap. Det er viktig å forstå maskinlæringsrammeverket: Problemramming, dataanalyse, modellbygging, testing og evaluering og modellanvendelse. Finn ut mer om maskinlæringsrammeverket her: Maskinlæringsprosessen.

Følgende er viktige maskinlæringsalgoritmer å være kjent med.

i) Veiledet læring (kontinuerlig variabel prediksjon)

a) Grunnleggende regresjon

b) Multiregresjonsanalyse

c) Regulert regresjon

ii) Veiledet læring (diskret variabel prediksjon)

a) Klassifisering av logistisk regresjon

b) Støtt Vector Machine Classifier

c) Klassifisering av K-nærmeste nabo (KNN)

d) Beslutningstreet klassifiserende

e) Tilfeldig skogklasser

iii) Uovervåket læring

a) KMeans klyngealgoritme

Ferdigheter tilegnet fra kursarbeid alene vil ikke gjøre deg til en dataforsker. En kvalifisert datavitenskapsmann må være i stand til å demonstrere bevis på vellykket gjennomføring av et datavitenskapsprosjekt fra den virkelige verden som inkluderer hvert trinn i datavitenskap og maskinlæringsprosess, for eksempel problemramming, datainnsamling og analyse, modellbygging, modelltesting, modellevaluering og distribuere modeller. Virkelige datavitenskapsprosjekter kan bli funnet i følgende:

a) Kaggle-prosjekter

b) Praksisplasser

c) Fra intervjuer

Dataforskere må kunne kommunisere ideene sine med andre medlemmer av teamet eller med forretningsadministratorer i deres organisasjoner. Gode ​​kommunikasjonsevner vil spille en nøkkelrolle her for å kunne formidle og presentere veldig teknisk informasjon til mennesker med liten eller ingen forståelse av tekniske begreper innen datavitenskap. Gode ​​kommunikasjonsevner vil bidra til å fremme en atmosfære av enhet og samhold med andre teammedlemmer som dataanalytikere, dataingeniører, feltingeniører, etc.

Datavitenskap er et felt som er i stadig utvikling, så vær forberedt på å omfavne og lære ny teknologi. En måte å holde kontakten med utviklingen i feltet er å bygge nettverk med andre dataforskere. Noen plattformer som markedsfører nettverk er LinkedIn, GitHub og Medium (Mot datavitenskap og Mot AI publikasjoner). Plattformene er veldig nyttige for oppdatert informasjon om den siste utviklingen i feltet.

Som dataforsker vil du jobbe i et team av dataanalytikere, ingeniører, administratorer, så du trenger gode kommunikasjonsevner. Du må også være en god lytter, spesielt i tidlige prosjektutviklingsfaser der du må stole på ingeniører eller annet personell for å kunne designe og ramme et godt datavitenskapsprosjekt. Å være en god lagspiller vil hjelpe deg å trives i et forretningsmiljø og opprettholde gode relasjoner med andre medlemmer av teamet ditt, så vel som administratorer eller direktører i organisasjonen din.

Forstå implikasjonene av prosjektet ditt. Vær sannferdig mot deg selv. Unngå å manipulere data eller bruke en metode som med vilje vil gi resultatforstyrrelser. Vær etisk i alle faser, fra datainnsamling og analyse til modellbygging, analyse, testing og anvendelse. Unngå å lage resultater for å villede eller manipulere publikum. Vær etisk i måten du tolker funnene fra datavitenskapsprosjektet ditt.

Oppsummert har vi diskutert 10 viktige ferdigheter som trengs for å praktisere dataforskere. Datavitenskap er et felt som er i stadig utvikling, men å mestre grunnlaget for datavitenskap vil gi deg den nødvendige bakgrunnen du trenger for å forfølge forhåndskonsepter som dyp læring, kunstig intelligens, etc.

 
 
Benjamin O. Tayo er fysiker, datavitenskapspedagog og forfatter, samt eier av DataScienceHub. Tidligere underviste Benjamin i ingeniørfag og fysikk ved U. of Central Oklahoma, Grand Canyon U., og Pittsburgh State U.
 

original. Ompostet med tillatelse.

Tidstempel:

Mer fra KDnuggets