Adat-előkészítés R-ben dplyr segítségével, Cheat Sheet-tel!

Forrás csomópont: 1878484

Adat-előkészítés R-ben dplyr segítségével, Cheat Sheet-tel!

Használja ki az R's dplyr hatékony adatrögzítő eszközeit az adatok tisztításához és előkészítéséhez.


KépKorábban már írtam arról, hogy akár tetszik, akár nem, az adatok előkészítése minden adattudományi projekt fő része. Az adat-előkészítés olyan feladatokból áll, amelyek az adatok megismételhető folyamatban történő előkészítését szolgálják az üzleti elemzésben való használatra, beleértve az adatgyűjtést, az adattárolást és -kezelést, az adattisztítást és a funkciótervezés korai szakaszait.

 
Legalább három általános eszköz létezik, amelyeket az adatcsoportok használhatnak az adatkezelési feladatok elvégzésére:

  • Az SQL, amelyet számos big data platform, például a Spark támogat, kiválóan alkalmas a durva adatok szűrésére és nyers forrásokból, például Data Lake fájlgyűjteményekből történő gyűjtésre.
  • A Pandas könyvtárral rendelkező Python népszerűsége és szolgáltatásai egyre növekszik
  • Az R, konkrétan a dplyr csomagot használva, egy összefüggő funkciókészletet kínál, amelyet más R könyvtárak hatalmas nyílt forráskódú gyűjteménye támogat.

A három közül való választás valószínűleg a szervezetben rendelkezésre álló készségektől, a rendelkezésre álló infrastruktúrától és kódbázistól, valamint a használathoz szükséges fejlett modellektől függ. Ebben a cikkben az R használatának okaira összpontosítunk, és egy praktikus referencialapot biztosítunk.

A 2016-ban bemutatott dplyr néhány fontos funkcióval rendelkezik, amelyek kiváló eszközzé teszik az adatok előkészítéséhez R nyelvben.

  • Adatkapcsolatok szinte bármilyen adatforráshoz vagy az iparban használt fájlformátumhoz.
  • A dplyr harmonikus csomagként készült, amely sok olyan feladatot leegyszerűsít, amelyek zavaróak vagy zavaróak lehetnek, ha más csomagokat szeretne összeállítani az R világból.
  • A szkriptek könnyen integrálhatók a verziókezeléssel és a Dev Ops gyakorlatokkal
  • Az adatok egyszerű átadása nagy teljesítményű R-könyvtárakba az AI/ML modellekkel való integráció érdekében

A következő „Gyorsreferencia” útmutató mintát ad a dplyr megközelítésekből az adat-előkészítés egyes lépéseihez. Ez nem a dplyr funkciók vagy opciók kimerítő listája, hanem inkább egy kiindulópont.

Ábra
Kattintson a nagy felbontásért

 

Töltse le a Gyorsreferencia PDF-et innen.

Egy évtizeddel ezelőtt az R volt az egyetlen szereplő az adattudományban, de a Python és az SQL közötti megnövekedett verseny csak jobbá tette a helyzetet, mivel az egyik ökoszisztémában bevezetett funkciók gyorsan átmásolódnak vagy átkerülnek a másikba. A széles R-felhasználói közösség már régóta dolgozik azon, hogy könyvtáraik életben maradjanak és fejlődjenek, így biztosítva, hogy az Ön R-be történő befektetése még egy évtizedben releváns lesz. Egy napon a jövőben talán a dplyr és a Tidyverse már nem lesz a legjobb választás az adatok előkészítéséhez. De egyelőre kiváló választást tesznek (néhány kínos szintaktikai elem ellenére, mint például a %>% pipe!)

Kísérő bejegyzés: Adatok előkészítése SQL-ben, csalólappal!

 
Bio: Stan Pugsley adattárházi és analitikai tanácsadó Eide Bailly technológiai tanácsadás székhelye Salt Lake City, UT. Emellett adjunktus oktató a University of Utah Eccles School of Businessben. Elérheti a szerzőt E-mailben.

Kapcsolódó:

Forrás: https://www.kdnuggets.com/2021/10/data-preparation-r-dplyr-cheat-sheet.html

Időbélyeg:

Még több KDnuggets