Datenaufbereitung in R mit dplyr, mit Cheat Sheet!

= Der vorherige Eintrag

Der nächste Eintrag =>

Stichworte: Spickzettel, Datenaufbereitung, R

Nutzen Sie die leistungsstarken Data-Wrangling-Tools in Rs dplyr, um Ihre Daten zu bereinigen und vorzubereiten.

By Stan Pugsley, Data Warehouse- und Analytics-Berater.

Bemerkungen

Ich habe bereits geschrieben, dass die Datenvorbereitung, ob wir wollen oder nicht, ein wichtiger Bestandteil jedes Data-Science-Projekts ist. Die Datenvorbereitung besteht aus Aufgaben zur Vorbereitung von Daten in einem wiederholbaren Prozess zur Verwendung in der Geschäftsanalyse, einschließlich Datenerfassung, Datenspeicherung und -verarbeitung, Datenbereinigung und frühen Phasen des Feature Engineering.

Es gibt mindestens drei gängige Tools, die Datenteams verwenden können, um diese Data Wrangling-Aufgaben zu erledigen:

SQL, das von vielen Big-Data-Plattformen wie Spark unterstützt wird, eignet sich hervorragend für die grobe Datenfilterung und -erfassung aus Rohquellen wie Data Lake-Dateisammlungen
Python mit der Pandas-Bibliothek wird immer beliebter und bietet mehr Funktionen
R bietet insbesondere unter Verwendung des dplyr-Pakets einen zusammenhängenden Satz von Funktionen, die durch die enorme Open-Source-Sammlung anderer R-Bibliotheken unterstützt werden.

Ihre Wahl unter diesen drei hängt wahrscheinlich von den in Ihrer Organisation verfügbaren Fähigkeiten, der verfügbaren Infrastruktur und Codebasis sowie den erforderlichen fortschrittlichen Modellen ab. In diesem Artikel konzentrieren wir uns auf die Gründe für die Verwendung von R und stellen ein praktisches Referenzblatt zur Verfügung.

dplyr wurde 2016 eingeführt und verfügt über einige wichtige Funktionen, die es zu einem hervorragenden Werkzeug für die Datenvorbereitung in R machen.

Datenverbindungen für nahezu alle in der Industrie verwendeten Datenquellen und Dateiformate.
dplyr wurde als harmonisches Paket gebaut, das viele Aufgaben vereinfacht, die chaotisch oder verwirrend sein können, wenn Sie andere Pakete aus der R-Welt zusammenstellen würden.
Skripte lassen sich einfach in die Versionskontrolle und Dev Ops-Praktiken integrieren
Einfache Übergabe von Daten an leistungsstarke R-Bibliotheken zur Integration in KI/ML-Modelle

Die folgende „Kurzreferenz“-Anleitung bietet eine Auswahl von dplyr-Ansätzen für jeden Schritt der Datenvorbereitung. Dies soll keine erschöpfende Liste der dplyr-Funktionen oder -Optionen sein, sondern vielmehr ein Ausgangspunkt.

Klicken Sie für hohe Auflösung

Laden Sie hier das Kurzreferenz-PDF herunter.

Vor einem Jahrzehnt war R der einzige Player für Data Science, aber die zunehmende Konkurrenz von Python und SQL hat es nur noch besser gemacht, da Funktionen, die in einem Ökosystem eingeführt wurden, schnell kopiert oder auf ein anderes portiert werden. Die breite R-Benutzergemeinschaft arbeitet seit langem daran, sicherzustellen, dass ihre Bibliotheken lebendig sind und sich weiterentwickeln, um sicherzustellen, dass Ihre Investition in R auch in einem weiteren Jahrzehnt relevant ist. Eines Tages in der Zukunft werden vielleicht dplyr und Tidyverse nicht mehr die beste Wahl für die Datenvorbereitung sein. Aber im Moment treffen sie eine ausgezeichnete Wahl (trotz einiger umständlicher Syntaxelemente wie der %>%-Pipe!)

Begleitbeitrag: Datenvorbereitung in SQL mit Spickzettel!

Bio: Stan Pugsley ist Data Warehouse- und Analytics-Berater bei Eide Bailly Technologieberatung mit Sitz in Salt Lake City, UT. Er ist außerdem außerordentliches Fakultätsmitglied an der Eccles School of Business der University of Utah. Sie erreichen den Autor per E-Mail.

Related: