Pregătirea datelor în R folosind dplyr, cu Cheat Sheet!

= Precedentele mesaj

Next post =>

Etichete: Cheat Sheet, Pregătirea datelor, R

Profitați de instrumentele puternice de dispută de date din dplyr-ul lui R pentru a vă curăța și pregăti datele.

By Stan Pugsley, Consultant Data Warehouse și Analytics.

comentarii

Am mai scris că, indiferent dacă ne place sau nu, pregătirea datelor este o parte majoră a fiecărui proiect de știință a datelor. Pregătirea datelor constă în sarcini de pregătire a datelor într-un proces repetabil pentru utilizare în analiza de afaceri, inclusiv achiziția datelor, stocarea și manipularea datelor, curățarea datelor și etapele incipiente ale ingineriei caracteristicilor.

Există cel puțin trei instrumente comune pe care echipele de date le pot folosi pentru a face acele sarcini de dispută de date:

SQL, care este susținut de multe platforme de date mari, cum ar fi Spark, este excelent pentru filtrarea și colectarea datelor brute din surse brute, cum ar fi colecțiile de fișiere data lake
Python, cu biblioteca Pandas, este în creștere în popularitate și funcții
R, folosind în mod special pachetul dplyr, oferă un set coerent de funcții susținute de enorma colecție open-source a altor biblioteci R.

Alegerea dvs. dintre cele trei va depinde probabil de abilitățile disponibile în organizația dvs., de infrastructura și de baza de cod disponibile și de modelele avansate necesare pentru a fi utilizate. Pentru acest articol, ne vom concentra asupra motivelor pentru a folosi R și ne vom oferi o foaie de referință la îndemână.

dplyr, introdus în 2016, are câteva caracteristici importante care îl fac un instrument excelent pentru pregătirea datelor în R.

Conexiuni de date pentru aproape orice sursă de date sau format de fișier utilizat în industrie.
dplyr a fost construit ca un pachet armonios, simplificând multe sarcini care pot fi dezordonate sau confuze dacă ar fi să reuniți alte pachete din lumea R.
Scripturile sunt ușor de integrat cu controlul versiunilor și practicile Dev Ops
Transfer ușor de date către biblioteci R puternice pentru integrare cu modelele AI/ML

Următorul ghid de „Referință rapidă” va oferi o mostră de abordări dplyr pentru fiecare dintre pașii de pregătire a datelor. Aceasta nu este menită să fie o listă exhaustivă de funcții sau opțiuni dplyr, ci mai degrabă un punct de plecare.

Faceți clic pentru rezoluție înaltă

Descărcați PDF-ul de referință rapidă aici.

În urmă cu un deceniu, R era singurul jucător pentru știința datelor, dar concurența crescută din partea Python și SQL nu a făcut decât să o îmbunătățească, deoarece caracteristicile introduse într-un ecosistem sunt rapid copiate sau portate în altul. Comunitatea largă de utilizatori R are o istorie de lucru pentru a se asigura că bibliotecile lor sunt vii și evoluează, asigurându-se că investiția dvs. în R va fi relevantă într-un alt deceniu. Într-o zi în viitor, poate că dplyr și Tidyverse nu vor mai fi cea mai bună alegere pentru pregătirea datelor. Dar pentru moment fac o alegere excelentă (în ciuda câtorva elemente de sintaxă incomode, cum ar fi conducta %>%!)

Postare însoțitoare: Pregătirea datelor în SQL, cu Cheat Sheet!

Bio: Stan Pugsley este un depozit de date și consultant de analiză cu Eide Bailly Consultanta Tehnologica cu sediul în Salt Lake City, UT. El este, de asemenea, membru adjunct al facultății la Universitatea din Utah Eccles School of Business. Puteți ajunge la autor prin e-mail.

Related:

= Precedentele mesaj

Next post =>

Povestiri de top trecute 30 de zile

Cel mai popular
Cum să construiți un portofoliu puternic de știință a datelor ca începător Întrebări de interviuri SQL pentru știința datelor de la firme de top tehnologie Nouă instrumente îmi doresc să mă însușesc înainte de doctoratul meu în învățarea automată Calea către știința completă a datelor 8 Comenzi Git Must-Have pentru Data Scientists

Cele mai împărtășite
Cum să găsiți punctele slabe în modelele dvs. de învățare automată Calea către știința completă a datelor 38 de cursuri gratuite despre Coursera pentru știința datelor Cum să fii un Data Scientist fără o diplomă STEM 20 de proiecte de învățare automată care te vor angaja