Andmete ettevalmistamine R-is, kasutades dplyr-i, koos petulehega!

= Eelmine post

Järgmine postitus =>

Sildid: Cheat Sheet, Andmete ettevalmistamine, R

Kasutage oma andmete puhastamiseks ja ettevalmistamiseks R's dplyr võimsaid andmevaidluse tööriistu.

By Stan Pugsley, andmelao- ja analüüsikonsultant.

kommentaarid

Olen varem kirjutanud, et tahame või mitte, andmete ettevalmistamine on iga andmeteaduse projekti põhiosa. Andmete ettevalmistamine hõlmab ülesandeid andmete ettevalmistamiseks korratavas protsessis kasutamiseks ärianalüütikas, sealhulgas andmete kogumine, salvestamine ja käitlemine, andmete puhastamine ja funktsioonide projekteerimise algusjärgud.

Andmemeeskonnad saavad nende andmevahetustoimingute tegemiseks kasutada vähemalt kolme levinumat tööriista.

SQL, mida toetavad paljud suured andmeplatvormid, nagu Spark, sobib suurepäraselt andmete töötlemata filtreerimiseks ja kogumiseks toorallikatest, näiteks Data Lake'i failikogudest.
Python koos Pandase raamatukoguga kasvab populaarsuse ja funktsioonide poolest
R, kasutades konkreetselt paketti dplyr, pakub ühtset funktsioonide komplekti, mida toetab tohutu avatud lähtekoodiga teiste R-teekide kogu.

Teie valik nende kolme vahel sõltub tõenäoliselt teie organisatsioonis saadaolevatest oskustest, saadaolevast infrastruktuurist ja koodibaasist ning kasutamiseks vajalikest täiustatud mudelitest. Selle artikli puhul keskendume R-i kasutamise põhjustele ja pakume käepärase viitelehe.

2016. aastal tutvustatud dplyr-l on mõned olulised funktsioonid, mis muudavad selle suurepäraseks tööriistaks andmete ettevalmistamiseks R-is.

Andmeühendused peaaegu iga tööstuses kasutatava andmeallika või failivormingu jaoks.
dplyr loodi harmoonilise paketina, mis lihtsustab paljusid ülesandeid, mis võivad olla segased või segadust tekitavad, kui peaksite kokku panema teisi R-maailma pakette.
Skriptid on hõlpsasti integreeritavad versioonihalduse ja Dev Opsi tavadega
Andmete lihtne üleandmine võimsatesse R-teekidesse AI/ML mudelitega integreerimiseks

Järgmine „Kiireteate” juhend annab dplyr-lähenemisviiside näidised andmete ettevalmistamise igale etapile. See ei ole mõeldud dplyr funktsioonide või valikute ammendava loendina, vaid pigem lähtepunktina.

Kõrge eraldusvõime saamiseks klõpsake

Laadige kiirviite PDF alla siit.

Kümmekond aastat tagasi oli R ainuke andmeteaduse mängija, kuid Pythoni ja SQL-i suurenenud konkurents on seda ainult paremaks muutnud, kuna ühes ökosüsteemis kasutusele võetud funktsioonid kopeeritakse või teisaldatakse kiiresti teise. Lai R-i kasutajate kogukond on töötanud selle eest, et nende raamatukogud oleksid elus ja arenevad, tagades, et teie investeering R-i on asjakohane ka järgmise kümnendi jooksul. Võib-olla ei ole kunagi tulevikus dplyr ja Tidyverse andmete ettevalmistamiseks enam parim valik. Kuid praegu teevad nad suurepärase valiku (hoolimata mõnest ebamugavast süntaksielemendist, nagu %>% toru!)

Kaaspostitus: Andmete ettevalmistamine SQL-is petulehega!

Bio: Stan Pugsley on andmelao- ja analüütikakonsultant Eide Bailly tehnoloogiaalane konsultatsioon asub Salt Lake Citys, UT. Ta on ka ülikooli Utah Ecclesi ärikooli õppejõud. Saate autorini jõuda e-maili teel.

Seotud:

= Eelmine post

Järgmine postitus =>

Viimase 30 päeva populaarseimad lood

Populaarseim
Kuidas luua tugevat andmeteaduste portfelli algajana Andmeteaduse SQL-intervjuu küsimused tipptehnoloogiaettevõtetelt Üheksa tööriista, mille ma soovin omandada enne doktorikraadi omandamist masinõppes Tee Full Stack Data Science'i juurde 8 kohustuslikku Git-käsku andmeteadlastele

Kõige rohkem jagatud
Kuidas leida oma masinõppemudelites nõrkusi Tee Full Stack Data Science'i juurde 38 tasuta kursust Coursera for Data Science kohta Kuidas olla andmeteadlane ilma STEM-kraadita 20 masinõppeprojekti, mis aitavad teid palgata