Data Science Minimum: 10 välttämätöntä taitoa, jotka sinun on tiedettävä aloittaaksesi tietojenkäsittelyn

Data Science Minimum: 10 välttämätöntä taitoa, jotka sinun on tiedettävä aloittaaksesi tietojenkäsittelyn

Lähdesolmu: 1792235

Data Science Minimum: 10 välttämätöntä taitoa, jotka sinun on tiedettävä aloittaaksesi tietojenkäsittelyn
 

Datatiede on niin laaja ala, joka sisältää useita osa-alueita, kuten tietojen valmistelu ja etsintä, tietojen esittäminen ja muuntaminen, tietojen visualisointi ja esittely, ennakoiva analytiikka ja koneoppiminen jne. Aloittelijoille on luonnollista nostaa seuraava kysymys: Mitä taitoja tarvitsen tullakseni datatieteilijäksi?

Tässä artikkelissa käsitellään 10 välttämätöntä taitoa, jotka ovat välttämättömiä datatieteilijöiden harjoittamiseksi. Nämä taidot voitaisiin ryhmitellä kahteen luokkaan, nimittäin tekniset taidot (Matematiikka ja tilastot, koodaustaidot, tiedonkäsittely- ja esikäsittelytaidot, tietojen visualisointitaidot, koneoppimistaidot ja todellisen maailman projektitaidot) pehmeitä taitoja (Viestintätaidot, elinikäisen oppimisen taidot, joukkueen pelaajien taidot ja eettiset taidot).

Datatiede on jatkuvasti kehittyvä ala, mutta tietojenkäsittelytieteen perusteiden hallitseminen antaa sinulle tarvittavan taustan, jota tarvitset edistyneiden käsitteiden, kuten syvällisen oppimisen, tekoälyn, jne. Ajamiseksi. Tässä artikkelissa käsitellään 10 välttämätöntä taitoa harjoitellaan datatieteilijöitä.

(i) Tilastot ja todennäköisyys

Tilastoja ja todennäköisyyksiä käytetään ominaisuuksien visualisointiin, tietojen esikäsittelyyn, ominaisuuksien muunnokseen, tietojen imputointiin, ulottuvuuden pienentämiseen, ominaisuuksien suunnitteluun, mallien arviointiin jne. Tässä on aiheita, jotka sinun on tunnettava

ilkeä

b) Mediaani

c) tila

d) Keskihajonta / varianssi

e) Korrelaatiokerroin ja kovarianssimatriisi

f) Todennäköisyysjakaumat (binomi, Poisson, normaali)

g) p-arvo

h) MSE (keskimääräinen neliövirhe)

i) R2-pisteet

j) Bayen lause (tarkkuus, palautus, positiivinen ennakoiva arvo, negatiivinen ennakoiva arvo, sekaannusmatriisi, ROC-käyrä)

k) A / B-testaus

l) Monte Carlon simulaatio

(ii) Monimuuttujalaskelma

Useimmat koneoppimismallit on rakennettu tietojoukolla, jolla on useita ominaisuuksia tai ennustimia. Siksi monimuuttujalaskun tuntemus on erittäin tärkeää koneoppimismallin rakentamisessa. Tässä on aiheita, jotka sinun on tunnettava:

a) Useiden muuttujien toiminnot

b) Johdannaiset ja kaltevuudet

c) Vaihefunktio, Sigmoid-toiminto, Logit-toiminto, ReLU (Rectified Linear Unit) -toiminto

d) Kustannustoiminto

e) Toimintojen piirtäminen

f) Funktion pienin ja suurin arvo

(iii) Lineaarinen algebra

Lineaarinen algebra on tärkein matemaattinen taito koneoppimisessa. Tietojoukko on esitetty matriisina. Lineaarista algebraa käytetään tietojen esikäsittelyssä, tiedonmuunnoksessa ja mallin arvioinnissa. Tässä on aiheita, jotka sinun on tunnettava:

a) Vektorit

b) Matriisit

c) Transponoi matriisi

d) Matriisin käänteinen

e) Matriisin determinantti

f) Pistetuote

g) Ominaisarvot

h) ominaisvektorit

(iv) Optimointimenetelmät

Useimmat koneoppimisalgoritmit suorittavat ennakoivan mallinnuksen minimoimalla tavoitetoiminnon ja oppivat siten painot, joita testaustietoihin on sovellettava ennustettujen tarrojen saamiseksi. Tässä on aiheita, jotka sinun on tunnettava:

a) Kustannusfunktio / tavoitefunktio

b) Todennäköisyysfunktio

c) Virhetoiminto

d) Gradientin laskeutumisalgoritmi ja sen variantit (esim. stokastinen gradientin laskeutumisalgoritmi)

Lue lisää gradientin laskeutumisalgoritmista täältä: Koneoppiminen: Gradientin laskeutumisalgoritmin toiminta.

Ohjelmointitaidot ovat välttämättömiä tietojenkäsittelyssä. Koska Pythonia ja R: tä pidetään datatieteessä kahtena suosituimpana ohjelmointikielenä, olennainen tieto molemmilla kielillä on ratkaisevan tärkeää. Jotkut organisaatiot saattavat vaatia vain taitoja joko R: ssä tai Pythonissa, ei molemmissa.

(i) Taidot Pythonissa

Tunne pythonin ohjelmoinnin perustaidot. Tässä ovat tärkeimmät paketit, jotka sinun tulisi hallita käytön suhteen:

a) Nuhjuinen

b) pandat

c) Matplotlib

d) Merellä syntynyt

e) Scikit-oppia

f) PyTorch

(ii) R: n taidot

a) Siistiä

b) Dplyr

c) Ggplot2

d) Koriste

e) Stringr

(iii) Muiden ohjelmointikielien taidot

Jotkut organisaatiot tai toimialat saattavat tarvita taitoja seuraavilla ohjelmointikielillä:

a) Excel

b) Pöytä

c) Hadoop

d) SQL

e) Kipinä

Tiedot ovat avainasemassa kaikissa tietojenkäsittelyn analyyseissä, olipa ne sitten päätelmällinen analyysi, ennakoiva analyysi tai määrääminen. Mallin ennustava voima riippuu mallin rakentamisessa käytettyjen tietojen laadusta. Tiedot tulevat eri muodoissa, kuten teksti, taulukko, kuva, ääni tai video. Useimmiten analyysissä käytettävät tiedot on louhittava, käsiteltävä ja muunnettava, jotta ne saadaan jatkoanalyysiin soveltuvaan muotoon.

i) Tietojen kiertäminen: Tietojenkäsittelyprosessi on kriittinen vaihe kaikille tiedetieteilijöille. Hyvin harvoin data on helposti saatavilla tietojenkäsittelyprojektissa analysoitavaksi. On todennäköisempää, että tiedot ovat tiedostossa, tietokannassa tai poimittuja asiakirjoista, kuten verkkosivuista, twiiteistä tai PDF-tiedostoista. Tietojen käsitteleminen ja puhdistaminen antaa sinulle mahdollisuuden saada kriittisiä oivalluksia tiedoistasi, jotka muuten piilotettaisiin.

ii) Tietojen esikäsittely: Tieto tietojen esikäsittelystä on erittäin tärkeää ja sisältää seuraavia aiheita:

a) Puuttuvien tietojen käsittely

b) Tietojen laskenta

c) Kategoristen tietojen käsittely

d) Luokitustunnusten koodaus luokitusongelmia varten

e) Ominaisuuden muuntamisen ja ulottuvuuden vähentämisen tekniikat, kuten pääkomponenttianalyysi (PCA) ja lineaarinen erotteleva analyysi (LDA).

Ymmärtää hyvän tiedon visualisoinnin olennaiset osat.

a) Datakomponentti: Tärkeä ensimmäinen askel tietojen visualisoinnin päättämisessä on tietää, minkä tyyppistä dataa se on, esim. Kategoriset tiedot, erilliset tiedot, jatkuvat tiedot, aikasarjatiedot jne.

b) Geometrinen komponentti: Tässä voit päättää, millainen visualisointi sopii tietoihisi, esim. Sirontakaavio, viivakaaviot, pylväsdiagrammit, histogrammit, qqplotit, sileät tiheydet, laatikkopiirit, parikaaviot, lämpökartat jne.

c) Kartoituskomponentti: Täällä sinun on päätettävä, mitä muuttujaa käytetään x-muuttujana ja mitä y-muuttujana. Tämä on tärkeää, varsinkin kun tietojoukko on moniulotteinen ja siinä on useita ominaisuuksia.

d) Mittakaavan komponentti: Täällä päätät millaisia ​​asteikkoja käytetään, esim. Lineaarinen asteikko, lokin asteikko jne.

e) Etikettien komponentti: T.hänen sisältää mm. kirvesetiketit, otsikot, legendat, käytettävän kirjasinkoon jne.

f) Eettinen komponentti: Tässä haluat varmistaa, että visualisointisi kertoo tositarinan. Sinun on oltava tietoinen toiminnastasi, kun puhdistat, tiivistät, käsittelet ja tuotat datan visualisointia, ja varmista, ettet käytä visualisointiasi yleisön harhaan johtamiseen tai manipulointiin.

Koneoppiminen on erittäin tärkeä tietojenkäsittelyn ala. On tärkeää ymmärtää koneoppimisen puitteet: ongelman muotoilu, tietojen analysointi, mallin rakentaminen, testaus ja arviointi sekä mallin soveltaminen. Lue lisää koneoppimisen puitteista täältä: Koneoppimisprosessi.

Seuraavat ovat tärkeitä koneoppimisalgoritmeja, jotka on tunnettava.

i) Ohjattu oppiminen (jatkuva muuttujaennuste)

a) Perus regressio

b) Moniregressioanalyysi

c) Säännöllinen regressio

ii) Ohjattu oppiminen (diskreetti muuttujaennuste)

a) Logistinen regressioluokitus

b) Tuki vektorikoneen luokittelijalle

c) K-lähimmän naapurin (KNN) luokittelija

d) Päätöspuuluokitus

e) Satunnainen metsäluokitus

iii) Valvomaton oppiminen

a) KMeans-klusterointialgoritmi

Pelkästään kurssityöstä hankitut taidot eivät tee sinusta datatieteilijää. Pätevän datatieteilijän on kyettävä osoittamaan todisteet todellisen datatieteen projektin onnistuneesta loppuun saattamisesta, joka sisältää kaikki tietojenkäsittelyn ja koneoppimisprosessin vaiheet, kuten ongelman muotoilun, tiedonkeruun ja -analyysin, mallin rakentamisen, mallin testauksen, mallin arvioinnin ja mallien käyttöönotto. Reaalimaailman datatieteelliset projektit löytyvät seuraavista:

a) Kaggle-projektit

b) Harjoittelu

c) Haastatteluista

Datatieteilijöiden on kyettävä kommunikoimaan ideoistaan ​​ryhmän muiden jäsenten tai heidän organisaatioidensa yritysten ylläpitäjien kanssa. Hyvällä viestintätaidolla olisi tässä keskeinen rooli, jotta se pystyy välittämään ja esittämään hyvin teknistä tietoa ihmisille, joilla on vähän tai ei lainkaan ymmärrystä datatieteen teknisistä käsitteistä. Hyvä viestintätaito auttaa luomaan yhtenäisyyden ja yhteenkuuluvuuden ilmapiirin muiden tiimin jäsenten, kuten data-analyytikkojen, insinöörien, kenttäinsinöörien jne. Kanssa.

Datatiede on jatkuvasti kehittyvä ala, joten ole valmis omaksumaan ja oppimaan uusia tekniikoita. Yksi tapa pitää yhteyttä alan kehitykseen on verkostoituminen muiden tutkijoiden kanssa. Jotkut verkostoitumista edistävät alustat ovat LinkedIn, GitHub ja Medium (Kohti datatieteitä ja Kohti tekoälyä julkaisut). Alustat ovat erittäin hyödyllisiä ajantasaisen tiedon saamiseksi alan viimeaikaisesta kehityksestä.

Datatieteilijänä työskentelet data-analyytikoiden, insinöörien, järjestelmänvalvojien ryhmässä, joten tarvitset hyviä viestintätaitoja. Sinun on oltava myös hyvä kuuntelija, varsinkin projektin varhaisessa kehitysvaiheessa, jolloin sinun on luotettava insinööreihin tai muuhun henkilöstöön pystyäksesi suunnittelemaan ja laatimaan hyvä tietojenkäsittelyprojekti. Hyvä tiimipelaaja auttaa sinua menestymään liiketoimintaympäristössä ja ylläpitämään hyviä suhteita tiimisi muihin jäseniin sekä organisaatiosi järjestelmänvalvojiin tai johtajiin.

Ymmärrä projektisi vaikutukset. Ole totuudellinen itsellesi. Vältä tietojen manipulointia tai sellaisen menetelmän käyttöä, joka tuottaa tarkoituksellisesti ennakkoluuloja. Ole eettinen kaikissa vaiheissa, tietojen keräämisestä ja analysoinnista mallin rakentamiseen, analysointiin, testaamiseen ja soveltamiseen. Vältä tulosten tuottamista yleisön harhaan johtamiseksi tai manipuloimiseksi. Ole eettinen tapa tulkita datatieteellisen projektisi tuloksia.

Yhteenvetona olemme keskustelleet 10 tärkeästä taitosta, joita tarvitaan datatieteilijöiden harjoittamiseen. Datatiede on jatkuvasti kehittyvä ala, mutta tietojenkäsittelytieteen perusteiden hallitseminen antaa sinulle tarvittavan taustan, jota tarvitset etukäteen käsitteiden, kuten syvällisen oppimisen, tekoälyn jne.

 
 
Benjamin O. Tayo on fyysikko, tietotieteen kouluttaja ja kirjoittaja sekä DataScienceHubin omistaja. Aiemmin Benjamin opetti tekniikkaa ja fysiikkaa U. of Central Oklahomassa, Grand Canyon U:ssa ja Pittsburgh State U:ssa.
 

Alkuperäinen. Postitettu luvalla.

Aikaleima:

Lisää aiheesta KDnuggets