Tietojen valmistelu R: ssä käyttämällä dplyria, huijausarkilla!

= Edellinen viesti

Seuraava viesti =>

Tunnisteet: Cheat Sheet, Tietojen valmistelu, R

Hyödynnä R:n dplyr:n tehokkaita tiedonvälitystyökaluja tietojen puhdistamiseen ja valmistelemiseen.

By Stan Pugsley, Tietovarasto- ja Analytics-konsultti.

kommentit

Olen kirjoittanut aiemmin, että halusimme tai emme, datan valmistelu on tärkeä osa jokaista datatiedeprojektia. Tiedon valmistelu koostuu tehtävistä tietojen valmistelemiseksi toistetussa prosessissa käytettäväksi liiketoimintaanalytiikassa, mukaan lukien tiedonkeruu, tiedon tallennus ja käsittely, tietojen puhdistus ja ominaisuussuunnittelun alkuvaiheet.

Datatiimit voivat käyttää vähintään kolmea yleistä työkalua tietojen kiertelyyn:

SQL, jota tukevat monet isot data-alustat, kuten Spark, sopii erinomaisesti karkeaan datan suodatukseen ja keräämiseen raakalähteistä, kuten data Lake -tiedostokokoelmista.
Python, jossa on Pandas-kirjasto, kasvattaa suosiotaan ja ominaisuuksiaan
Erityisesti dplyr-pakettia käyttävä R tarjoaa yhtenäisen joukon toimintoja, joita tukee muiden R-kirjastojen valtava avoimen lähdekoodin kokoelma.

Valintasi näiden kolmen joukosta riippuu todennäköisesti organisaatiossasi käytettävissä olevista taidoista, käytettävissä olevasta infrastruktuurista ja koodikannasta sekä käytettävistä edistyneistä malleista. Tässä artikkelissa keskitymme syihin käyttää R:tä ja tarjoamme kätevän viitelomakkeen.

Vuonna 2016 esitellyssä dplyrssä on joitain tärkeitä ominaisuuksia, jotka tekevät siitä erinomaisen työkalun tietojen valmisteluun R:ssä.

Datayhteydet lähes mihin tahansa teollisuudessa käytettävään tietolähteeseen tai tiedostomuotoon.
dplyr rakennettiin harmoniseksi paketiksi, joka yksinkertaistaa monia tehtäviä, jotka voivat olla sotkuisia tai hämmentäviä, jos kokoat muita paketteja R-maailmasta.
Skriptit on helppo integroida versionhallintaan ja Dev Ops -käytäntöihin
Helppo siirtää tiedot tehokkaisiin R-kirjastoihin integroitaviksi AI/ML-malleihin

Seuraava "Pikaopas" -opas antaa näytteen dplyr-lähestymistavasta kussakin tietojen valmistelun vaiheessa. Tämän ei ole tarkoitus olla tyhjentävä luettelo dplyr-funktioista tai -vaihtoehdoista, vaan pikemminkin lähtökohta.

Napsauta saadaksesi korkean resoluution

Lataa pikaopas PDF tästä.

Vuosikymmen sitten R oli ainoa pelaaja datatieteen alalla, mutta Pythonin ja SQL:n lisääntynyt kilpailu on vain parantanut sitä, sillä yhdessä ekosysteemissä käyttöönotetut ominaisuudet kopioidaan tai siirretään nopeasti toiseen. Laaja R-käyttäjäyhteisö on työskennellyt varmistamassa, että heidän kirjastonsa ovat elossa ja kehittyvät, mikä varmistaa, että sijoituksesi R:ään on merkityksellinen seuraavan vuosikymmenen kuluttua. Jonakin päivänä tulevaisuudessa ehkä dplyr ja Tidyverse eivät enää ole paras valinta tietojen valmisteluun. Mutta toistaiseksi ne ovat erinomainen valinta (huolimatta muutamista kiusallisista syntaksielementeistä, kuten %>% pipe!)

Seuran viesti: Tietojen valmistelu SQL: ssä, huijaussivulla!

Bio: Stan Pugsley on tietovarasto ja analyysikonsultti Eide Bailly Technology Consulting kotipaikka Salt Lake City, UT. Hän on myös dosentti Utahin yliopiston Ecclesin kauppakorkeakoulussa. Voit tavoittaa kirjoittajan sähköpostin välityksellä.

Related:

= Edellinen viesti

Seuraava viesti =>

Suosituimmat tarinat viimeisen 30 päivän aikana

Suosituin
Kuinka rakentaa vahva tietojenkäsittelyportfolio aloittelijana Datatieteen SQL -haastattelukysymykset huipputekniikkayrityksiltä Yhdeksän työkalua, jotka haluan hallita ennen väitöskirjaani koneoppimisessa Polku Full Stack Data Science -ohjelmaan 8 pakollista Git-komentoa datatieteilijöille

Eniten jaettu
Kuinka löytää heikkouksia koneoppimismalleistasi Polku Full Stack Data Science -ohjelmaan 38 maksutonta tietotekniikan kurssia Kuinka olla datatieteilijä ilman STEM -tutkintoa 20 koneoppimisprojektia, jotka palkkaavat sinut