Tietojen valmistelu R: ssä käyttämällä dplyria, huijausarkilla!

Lähdesolmu: 1878484

Tietojen valmistelu R: ssä käyttämällä dplyria, huijausarkilla!

Hyödynnä R:n dplyr:n tehokkaita tiedonvälitystyökaluja tietojen puhdistamiseen ja valmistelemiseen.


KuvaOlen kirjoittanut aiemmin, että halusimme tai emme, datan valmistelu on tärkeä osa jokaista datatiedeprojektia. Tiedon valmistelu koostuu tehtävistä tietojen valmistelemiseksi toistetussa prosessissa käytettäväksi liiketoimintaanalytiikassa, mukaan lukien tiedonkeruu, tiedon tallennus ja käsittely, tietojen puhdistus ja ominaisuussuunnittelun alkuvaiheet.

 
Datatiimit voivat käyttää vähintään kolmea yleistä työkalua tietojen kiertelyyn:

  • SQL, jota tukevat monet isot data-alustat, kuten Spark, sopii erinomaisesti karkeaan datan suodatukseen ja keräämiseen raakalähteistä, kuten data Lake -tiedostokokoelmista.
  • Python, jossa on Pandas-kirjasto, kasvattaa suosiotaan ja ominaisuuksiaan
  • Erityisesti dplyr-pakettia käyttävä R tarjoaa yhtenäisen joukon toimintoja, joita tukee muiden R-kirjastojen valtava avoimen lähdekoodin kokoelma.

Valintasi näiden kolmen joukosta riippuu todennäköisesti organisaatiossasi käytettävissä olevista taidoista, käytettävissä olevasta infrastruktuurista ja koodikannasta sekä käytettävistä edistyneistä malleista. Tässä artikkelissa keskitymme syihin käyttää R:tä ja tarjoamme kätevän viitelomakkeen.

Vuonna 2016 esitellyssä dplyrssä on joitain tärkeitä ominaisuuksia, jotka tekevät siitä erinomaisen työkalun tietojen valmisteluun R:ssä.

  • Datayhteydet lähes mihin tahansa teollisuudessa käytettävään tietolähteeseen tai tiedostomuotoon.
  • dplyr rakennettiin harmoniseksi paketiksi, joka yksinkertaistaa monia tehtäviä, jotka voivat olla sotkuisia tai hämmentäviä, jos kokoat muita paketteja R-maailmasta.
  • Skriptit on helppo integroida versionhallintaan ja Dev Ops -käytäntöihin
  • Helppo siirtää tiedot tehokkaisiin R-kirjastoihin integroitaviksi AI/ML-malleihin

Seuraava "Pikaopas" -opas antaa näytteen dplyr-lähestymistavasta kussakin tietojen valmistelun vaiheessa. Tämän ei ole tarkoitus olla tyhjentävä luettelo dplyr-funktioista tai -vaihtoehdoista, vaan pikemminkin lähtökohta.

Kuva
Napsauta saadaksesi korkean resoluution

 

Lataa pikaopas PDF tästä.

Vuosikymmen sitten R oli ainoa pelaaja datatieteen alalla, mutta Pythonin ja SQL:n lisääntynyt kilpailu on vain parantanut sitä, sillä yhdessä ekosysteemissä käyttöönotetut ominaisuudet kopioidaan tai siirretään nopeasti toiseen. Laaja R-käyttäjäyhteisö on työskennellyt varmistamassa, että heidän kirjastonsa ovat elossa ja kehittyvät, mikä varmistaa, että sijoituksesi R:ään on merkityksellinen seuraavan vuosikymmenen kuluttua. Jonakin päivänä tulevaisuudessa ehkä dplyr ja Tidyverse eivät enää ole paras valinta tietojen valmisteluun. Mutta toistaiseksi ne ovat erinomainen valinta (huolimatta muutamista kiusallisista syntaksielementeistä, kuten %>% pipe!)

Seuran viesti: Tietojen valmistelu SQL: ssä, huijaussivulla!

 
Bio: Stan Pugsley on tietovarasto ja analyysikonsultti Eide Bailly Technology Consulting kotipaikka Salt Lake City, UT. Hän on myös dosentti Utahin yliopiston Ecclesin kauppakorkeakoulussa. Voit tavoittaa kirjoittajan sähköpostin välityksellä.

Related:

Lähde: https://www.kdnuggets.com/2021/10/data-preparation-r-dplyr-cheat-sheet.html

Aikaleima:

Lisää aiheesta KDnuggets