Andmete ettevalmistamine R-is, kasutades dplyr-i, koos petulehega!

Allikasõlm: 1878484

Andmete ettevalmistamine R-is, kasutades dplyr-i, koos petulehega!

Kasutage oma andmete puhastamiseks ja ettevalmistamiseks R's dplyr võimsaid andmevaidluse tööriistu.


piltOlen varem kirjutanud, et tahame või mitte, andmete ettevalmistamine on iga andmeteaduse projekti põhiosa. Andmete ettevalmistamine hõlmab ülesandeid andmete ettevalmistamiseks korratavas protsessis kasutamiseks ärianalüütikas, sealhulgas andmete kogumine, salvestamine ja käitlemine, andmete puhastamine ja funktsioonide projekteerimise algusjärgud.

 
Andmemeeskonnad saavad nende andmevahetustoimingute tegemiseks kasutada vähemalt kolme levinumat tööriista.

  • SQL, mida toetavad paljud suured andmeplatvormid, nagu Spark, sobib suurepäraselt andmete töötlemata filtreerimiseks ja kogumiseks toorallikatest, näiteks Data Lake'i failikogudest.
  • Python koos Pandase raamatukoguga kasvab populaarsuse ja funktsioonide poolest
  • R, kasutades konkreetselt paketti dplyr, pakub ühtset funktsioonide komplekti, mida toetab tohutu avatud lähtekoodiga teiste R-teekide kogu.

Teie valik nende kolme vahel sõltub tõenäoliselt teie organisatsioonis saadaolevatest oskustest, saadaolevast infrastruktuurist ja koodibaasist ning kasutamiseks vajalikest täiustatud mudelitest. Selle artikli puhul keskendume R-i kasutamise põhjustele ja pakume käepärase viitelehe.

2016. aastal tutvustatud dplyr-l on mõned olulised funktsioonid, mis muudavad selle suurepäraseks tööriistaks andmete ettevalmistamiseks R-is.

  • Andmeühendused peaaegu iga tööstuses kasutatava andmeallika või failivormingu jaoks.
  • dplyr loodi harmoonilise paketina, mis lihtsustab paljusid ülesandeid, mis võivad olla segased või segadust tekitavad, kui peaksite kokku panema teisi R-maailma pakette.
  • Skriptid on hõlpsasti integreeritavad versioonihalduse ja Dev Opsi tavadega
  • Andmete lihtne üleandmine võimsatesse R-teekidesse AI/ML mudelitega integreerimiseks

Järgmine „Kiireteate” juhend annab dplyr-lähenemisviiside näidised andmete ettevalmistamise igale etapile. See ei ole mõeldud dplyr funktsioonide või valikute ammendava loendina, vaid pigem lähtepunktina.

Joonis
Kõrge eraldusvõime saamiseks klõpsake

 

Laadige kiirviite PDF alla siit.

Kümmekond aastat tagasi oli R ainuke andmeteaduse mängija, kuid Pythoni ja SQL-i suurenenud konkurents on seda ainult paremaks muutnud, kuna ühes ökosüsteemis kasutusele võetud funktsioonid kopeeritakse või teisaldatakse kiiresti teise. Lai R-i kasutajate kogukond on töötanud selle eest, et nende raamatukogud oleksid elus ja arenevad, tagades, et teie investeering R-i on asjakohane ka järgmise kümnendi jooksul. Võib-olla ei ole kunagi tulevikus dplyr ja Tidyverse andmete ettevalmistamiseks enam parim valik. Kuid praegu teevad nad suurepärase valiku (hoolimata mõnest ebamugavast süntaksielemendist, nagu %>% toru!)

Kaaspostitus: Andmete ettevalmistamine SQL-is petulehega!

 
Bio: Stan Pugsley on andmelao- ja analüütikakonsultant Eide Bailly tehnoloogiaalane konsultatsioon asub Salt Lake Citys, UT. Ta on ka ülikooli Utah Ecclesi ärikooli õppejõud. Saate autorini jõuda e-maili teel.

Seotud:

Allikas: https://www.kdnuggets.com/2021/10/data-preparation-r-dplyr-cheat-sheet.html

Ajatempel:

Veel alates KDnuggets