Dataforberedelse i R ved hjælp af dplyr, med snydeark!

Kildeknude: 1878484

Dataforberedelse i R ved hjælp af dplyr, med snydeark!

Udnyt de kraftfulde værktøjer til datakrangel i R's dplyr til at rense og forberede dine data.


BilledeJeg har før skrevet, at uanset om vi kan lide det eller ej, så er dataforberedelse en vigtig del af ethvert datavidenskabsprojekt. Dataforberedelse består af opgaver til at forberede data i en gentagelig proces til brug i forretningsanalyse, herunder dataindsamling, datalagring og -håndtering, datarensning og tidlige stadier af funktionsudvikling.

 
Der er mindst tre almindelige værktøjer, som datateams kan bruge til at udføre disse datastridsopgaver:

  • SQL, som understøttes af mange big data platforme som Spark, er fremragende til at udføre grov datafiltrering og indsamling fra rå kilder som data lake filsamlinger
  • Python, med Pandas-biblioteket, vokser i popularitet og funktioner
  • R, der specifikt bruger dplyr-pakken, tilbyder et sammenhængende sæt funktioner understøttet af den enorme open source-samling af andre R-biblioteker.

Dit valg blandt disse tre vil sandsynligvis afhænge af de færdigheder, der er tilgængelige i din organisation, den tilgængelige infrastruktur og kodebase og de avancerede modeller, der kræves for at blive brugt. Til denne artikel vil vi fokusere på grundene til at bruge R og give et praktisk referenceark.

dplyr, introduceret i 2016, har nogle vigtige funktioner, der gør det til et fremragende værktøj til dataforberedelse i R.

  • Dataforbindelser til næsten enhver datakilde eller filformat, der bruges i industrien.
  • dplyr blev bygget som en harmonisk pakke, der forenkler mange opgaver, der kan være rodet eller forvirrende, hvis du skulle sammensætte andre pakker fra R-verdenen.
  • Scripts integreres nemt med versionskontrol og Dev Ops-praksis
  • Nem aflevering af data til kraftfulde R-biblioteker til integration med AI/ML-modeller

Den følgende "Quick Reference" guide vil give et udpluk af dplyr-tilgange til hvert af trinene i dataforberedelse. Dette er ikke ment som en udtømmende liste over dplyr-funktioner eller muligheder, men snarere et udgangspunkt.

Figur
Klik for høj opløsning

 

Download Quick Reference PDF her.

For et årti siden var R den eneste aktør inden for datavidenskab, men den øgede konkurrence fra Python og SQL har kun gjort det bedre, da funktioner introduceret i et økosystem hurtigt kopieres eller overføres til et andet. Det brede R-brugerfællesskab har en tradition for at sikre, at deres biblioteker er i live og udvikler sig, hvilket sikrer, at din investering i R vil være relevant i endnu et årti. En dag i fremtiden vil måske dplyr og Tidyverse ikke længere være det bedste valg til dataforberedelse. Men for nu gør de et glimrende valg (på trods af et par akavede syntakselementer som %>% pipe!)

Ledsagende indlæg: Dataforberedelse i SQL, med snydeark!

 
Bio: Stan Pugsley er datavarehus og analysekonsulent hos Eide Bailly Teknologirådgivning baseret i Salt Lake City, UT. Han er også adjungeret fakultetsmedlem ved University of Utah Eccles School of Business. Du kan nå forfatteren via e-mail.

Relateret:

Kilde: https://www.kdnuggets.com/2021/10/data-preparation-r-dplyr-cheat-sheet.html

Tidsstempel:

Mere fra KDnuggets