Pregătirea datelor în R folosind dplyr, cu Cheat Sheet!

Nodul sursă: 1878484

Pregătirea datelor în R folosind dplyr, cu Cheat Sheet!

Profitați de instrumentele puternice de dispută de date din dplyr-ul lui R pentru a vă curăța și pregăti datele.


ImagineAm mai scris că, indiferent dacă ne place sau nu, pregătirea datelor este o parte majoră a fiecărui proiect de știință a datelor. Pregătirea datelor constă în sarcini de pregătire a datelor într-un proces repetabil pentru utilizare în analiza de afaceri, inclusiv achiziția datelor, stocarea și manipularea datelor, curățarea datelor și etapele incipiente ale ingineriei caracteristicilor.

 
Există cel puțin trei instrumente comune pe care echipele de date le pot folosi pentru a face acele sarcini de dispută de date:

  • SQL, care este susținut de multe platforme de date mari, cum ar fi Spark, este excelent pentru filtrarea și colectarea datelor brute din surse brute, cum ar fi colecțiile de fișiere data lake
  • Python, cu biblioteca Pandas, este în creștere în popularitate și funcții
  • R, folosind în mod special pachetul dplyr, oferă un set coerent de funcții susținute de enorma colecție open-source a altor biblioteci R.

Alegerea dvs. dintre cele trei va depinde probabil de abilitățile disponibile în organizația dvs., de infrastructura și de baza de cod disponibile și de modelele avansate necesare pentru a fi utilizate. Pentru acest articol, ne vom concentra asupra motivelor pentru a folosi R și ne vom oferi o foaie de referință la îndemână.

dplyr, introdus în 2016, are câteva caracteristici importante care îl fac un instrument excelent pentru pregătirea datelor în R.

  • Conexiuni de date pentru aproape orice sursă de date sau format de fișier utilizat în industrie.
  • dplyr a fost construit ca un pachet armonios, simplificând multe sarcini care pot fi dezordonate sau confuze dacă ar fi să reuniți alte pachete din lumea R.
  • Scripturile sunt ușor de integrat cu controlul versiunilor și practicile Dev Ops
  • Transfer ușor de date către biblioteci R puternice pentru integrare cu modelele AI/ML

Următorul ghid de „Referință rapidă” va oferi o mostră de abordări dplyr pentru fiecare dintre pașii de pregătire a datelor. Aceasta nu este menită să fie o listă exhaustivă de funcții sau opțiuni dplyr, ci mai degrabă un punct de plecare.

Figura
Faceți clic pentru rezoluție înaltă

 

Descărcați PDF-ul de referință rapidă aici.

În urmă cu un deceniu, R era singurul jucător pentru știința datelor, dar concurența crescută din partea Python și SQL nu a făcut decât să o îmbunătățească, deoarece caracteristicile introduse într-un ecosistem sunt rapid copiate sau portate în altul. Comunitatea largă de utilizatori R are o istorie de lucru pentru a se asigura că bibliotecile lor sunt vii și evoluează, asigurându-se că investiția dvs. în R va fi relevantă într-un alt deceniu. Într-o zi în viitor, poate că dplyr și Tidyverse nu vor mai fi cea mai bună alegere pentru pregătirea datelor. Dar pentru moment fac o alegere excelentă (în ciuda câtorva elemente de sintaxă incomode, cum ar fi conducta %>%!)

Postare însoțitoare: Pregătirea datelor în SQL, cu Cheat Sheet!

 
Bio: Stan Pugsley este un depozit de date și consultant de analiză cu Eide Bailly Consultanta Tehnologica cu sediul în Salt Lake City, UT. El este, de asemenea, membru adjunct al facultății la Universitatea din Utah Eccles School of Business. Puteți ajunge la autor prin e-mail.

Related:

Sursa: https://www.kdnuggets.com/2021/10/data-preparation-r-dplyr-cheat-sheet.html

Timestamp-ul:

Mai mult de la KDnuggets