Dataforberedelse i R ved hjælp af dplyr, med snydeark!

= Forrige indlæg

Næste indlæg =>

tags: Cheat Sheet, Dataforberedelse, R

Udnyt de kraftfulde værktøjer til datakrangel i R's dplyr til at rense og forberede dine data.

By Stan Pugsley, Data Warehouse og Analytics Konsulent.

kommentarer

Jeg har før skrevet, at uanset om vi kan lide det eller ej, så er dataforberedelse en vigtig del af ethvert datavidenskabsprojekt. Dataforberedelse består af opgaver til at forberede data i en gentagelig proces til brug i forretningsanalyse, herunder dataindsamling, datalagring og -håndtering, datarensning og tidlige stadier af funktionsudvikling.

Der er mindst tre almindelige værktøjer, som datateams kan bruge til at udføre disse datastridsopgaver:

SQL, som understøttes af mange big data platforme som Spark, er fremragende til at udføre grov datafiltrering og indsamling fra rå kilder som data lake filsamlinger
Python, med Pandas-biblioteket, vokser i popularitet og funktioner
R, der specifikt bruger dplyr-pakken, tilbyder et sammenhængende sæt funktioner understøttet af den enorme open source-samling af andre R-biblioteker.

Dit valg blandt disse tre vil sandsynligvis afhænge af de færdigheder, der er tilgængelige i din organisation, den tilgængelige infrastruktur og kodebase og de avancerede modeller, der kræves for at blive brugt. Til denne artikel vil vi fokusere på grundene til at bruge R og give et praktisk referenceark.

dplyr, introduceret i 2016, har nogle vigtige funktioner, der gør det til et fremragende værktøj til dataforberedelse i R.

Dataforbindelser til næsten enhver datakilde eller filformat, der bruges i industrien.
dplyr blev bygget som en harmonisk pakke, der forenkler mange opgaver, der kan være rodet eller forvirrende, hvis du skulle sammensætte andre pakker fra R-verdenen.
Scripts integreres nemt med versionskontrol og Dev Ops-praksis
Nem aflevering af data til kraftfulde R-biblioteker til integration med AI/ML-modeller

Den følgende "Quick Reference" guide vil give et udpluk af dplyr-tilgange til hvert af trinene i dataforberedelse. Dette er ikke ment som en udtømmende liste over dplyr-funktioner eller muligheder, men snarere et udgangspunkt.

Klik for høj opløsning

Download Quick Reference PDF her.

For et årti siden var R den eneste aktør inden for datavidenskab, men den øgede konkurrence fra Python og SQL har kun gjort det bedre, da funktioner introduceret i et økosystem hurtigt kopieres eller overføres til et andet. Det brede R-brugerfællesskab har en tradition for at sikre, at deres biblioteker er i live og udvikler sig, hvilket sikrer, at din investering i R vil være relevant i endnu et årti. En dag i fremtiden vil måske dplyr og Tidyverse ikke længere være det bedste valg til dataforberedelse. Men for nu gør de et glimrende valg (på trods af et par akavede syntakselementer som %>% pipe!)

Ledsagende indlæg: Dataforberedelse i SQL, med snydeark!

Bio: Stan Pugsley er datavarehus og analysekonsulent hos Eide Bailly Teknologirådgivning baseret i Salt Lake City, UT. Han er også adjungeret fakultetsmedlem ved University of Utah Eccles School of Business. Du kan nå forfatteren via e-mail.

Relateret:

= Forrige indlæg

Næste indlæg =>

Tophistorier de seneste 30 dage

Mest Populære
Sådan opbygger du en stærk datavidenskabsportefølje som begynder Data science SQL interviewspørgsmål fra topteknologivirksomheder Ni værktøjer, jeg ville ønske, jeg mestrede før min ph.d. i maskinlæring Sti til fuld stak datavidenskab 8 Must-Have Git-kommandoer for dataforskere

Mest delt
Sådan finder du svagheder i dine maskinlæringsmodeller Sti til fuld stak datavidenskab 38 gratis kurser om Coursera for Data Science Sådan bliver du dataforsker uden en STEM-grad 20 maskinlæringsprojekter, der vil få dig ansat