Adat-előkészítés R-ben dplyr segítségével, Cheat Sheet-tel!

= Előző üzenet

Következő üzenet =>

Címkék: Puska, Adatok előkészítése, R

Használja ki az R's dplyr hatékony adatrögzítő eszközeit az adatok tisztításához és előkészítéséhez.

By Stan Pugsley, adattárházi és elemzési tanácsadó.

Hozzászólások

Korábban már írtam arról, hogy akár tetszik, akár nem, az adatok előkészítése minden adattudományi projekt fő része. Az adat-előkészítés olyan feladatokból áll, amelyek az adatok megismételhető folyamatban történő előkészítését szolgálják az üzleti elemzésben való használatra, beleértve az adatgyűjtést, az adattárolást és -kezelést, az adattisztítást és a funkciótervezés korai szakaszait.

Legalább három általános eszköz létezik, amelyeket az adatcsoportok használhatnak az adatkezelési feladatok elvégzésére:

Az SQL, amelyet számos big data platform, például a Spark támogat, kiválóan alkalmas a durva adatok szűrésére és nyers forrásokból, például Data Lake fájlgyűjteményekből történő gyűjtésre.
A Pandas könyvtárral rendelkező Python népszerűsége és szolgáltatásai egyre növekszik
Az R, konkrétan a dplyr csomagot használva, egy összefüggő funkciókészletet kínál, amelyet más R könyvtárak hatalmas nyílt forráskódú gyűjteménye támogat.

A három közül való választás valószínűleg a szervezetben rendelkezésre álló készségektől, a rendelkezésre álló infrastruktúrától és kódbázistól, valamint a használathoz szükséges fejlett modellektől függ. Ebben a cikkben az R használatának okaira összpontosítunk, és egy praktikus referencialapot biztosítunk.

A 2016-ban bemutatott dplyr néhány fontos funkcióval rendelkezik, amelyek kiváló eszközzé teszik az adatok előkészítéséhez R nyelvben.

Adatkapcsolatok szinte bármilyen adatforráshoz vagy az iparban használt fájlformátumhoz.
A dplyr harmonikus csomagként készült, amely sok olyan feladatot leegyszerűsít, amelyek zavaróak vagy zavaróak lehetnek, ha más csomagokat szeretne összeállítani az R világból.
A szkriptek könnyen integrálhatók a verziókezeléssel és a Dev Ops gyakorlatokkal
Az adatok egyszerű átadása nagy teljesítményű R-könyvtárakba az AI/ML modellekkel való integráció érdekében

A következő „Gyorsreferencia” útmutató mintát ad a dplyr megközelítésekből az adat-előkészítés egyes lépéseihez. Ez nem a dplyr funkciók vagy opciók kimerítő listája, hanem inkább egy kiindulópont.

Kattintson a nagy felbontásért

Töltse le a Gyorsreferencia PDF-et innen.

Egy évtizeddel ezelőtt az R volt az egyetlen szereplő az adattudományban, de a Python és az SQL közötti megnövekedett verseny csak jobbá tette a helyzetet, mivel az egyik ökoszisztémában bevezetett funkciók gyorsan átmásolódnak vagy átkerülnek a másikba. A széles R-felhasználói közösség már régóta dolgozik azon, hogy könyvtáraik életben maradjanak és fejlődjenek, így biztosítva, hogy az Ön R-be történő befektetése még egy évtizedben releváns lesz. Egy napon a jövőben talán a dplyr és a Tidyverse már nem lesz a legjobb választás az adatok előkészítéséhez. De egyelőre kiváló választást tesznek (néhány kínos szintaktikai elem ellenére, mint például a %>% pipe!)

Kísérő bejegyzés: Adatok előkészítése SQL-ben, csalólappal!

Bio: Stan Pugsley adattárházi és analitikai tanácsadó Eide Bailly technológiai tanácsadás székhelye Salt Lake City, UT. Emellett adjunktus oktató a University of Utah Eccles School of Businessben. Elérheti a szerzőt E-mailben.

Kapcsolódó:

= Előző üzenet

Következő üzenet =>

Legnépszerűbb történetek az elmúlt 30 napból

Legnepszerubb
Hogyan építsünk fel erős adattudományi portfóliót kezdőként Adattudományi SQL interjúkérdések vezető technológiai cégektől Kilenc olyan eszköz, amelyet bárcsak elsajátítottam volna a gépi tanulás doktori fokozata előtt Út a Full Stack Data Science felé 8 kötelező Git-parancs adattudósok számára

Leginkább megosztott
Hogyan lehet megtalálni a gyenge pontokat a gépi tanulási modellekben Út a Full Stack Data Science felé 38 ingyenes Coursera for Data Science tanfolyam Hogyan legyünk adattudósok STEM végzettség nélkül? 20 gépi tanulási projekt, amely felveszi Önt