Cheat Sheet ile dplyr kullanarak R'de Veri Hazırlama!

Kaynak Düğüm: 1878484

Cheat Sheet ile dplyr kullanarak R'de Veri Hazırlama!

Verilerinizi temizlemek ve hazırlamak için R'nin dplyr'ındaki güçlü veri tartışma araçlarından yararlanın.


ResimBeğensek de beğenmesek de, veri hazırlamanın her veri bilimi projesinin önemli bir parçası olduğunu daha önce yazmıştım. Veri hazırlama, veri toplama, veri depolama ve işleme, veri temizleme ve özellik mühendisliğinin erken aşamaları dahil olmak üzere iş analitiğinde kullanım için tekrarlanabilir bir süreçte verileri hazırlama görevlerinden oluşur.

 
Veri ekiplerinin bu veri karıştırma görevlerini yapmak için kullanabileceği en az üç yaygın araç vardır:

  • Spark gibi birçok büyük veri platformu tarafından desteklenen SQL, veri gölü dosya koleksiyonları gibi ham kaynaklardan kaba veri filtreleme ve toplama yapmak için mükemmeldir.
  • Pandas kitaplığı ile Python, popülerlik ve özellikler açısından büyüyor
  • Özellikle dplyr paketini kullanan R, diğer R kitaplıklarının muazzam açık kaynak koleksiyonu tarafından desteklenen uyumlu bir dizi işlev sunar.

Bu üçü arasından yapacağınız seçim büyük olasılıkla kuruluşunuzda mevcut olan becerilere, mevcut altyapı ve kod tabanına ve kullanılması gereken gelişmiş modellere bağlı olacaktır. Bu makale için R kullanma nedenlerine odaklanacağız ve kullanışlı bir referans sayfası sağlayacağız.

2016'da tanıtılan dplyr, onu R'de veri hazırlığı için mükemmel bir araç haline getiren bazı önemli özelliklere sahiptir.

  • Endüstride kullanılan hemen hemen tüm veri kaynakları veya dosya biçimleri için veri bağlantıları.
  • dplyr, R dünyasındaki diğer paketleri bir araya getirmeniz durumunda karışık veya kafa karıştırıcı olabilecek birçok görevi basitleştiren uyumlu bir paket olarak oluşturulmuştur.
  • Komut dosyaları, sürüm kontrolü ve Dev Ops uygulamalarıyla kolayca entegre edilir
  • AI/ML modelleriyle entegrasyon için verileri güçlü R kitaplıklarına kolayca aktarın

Aşağıdaki “Hızlı Başvuru” kılavuzu, veri hazırlamadaki adımların her birine dplyr yaklaşımlarının bir örneğini verecektir. Bu, dplyr işlevlerinin veya seçeneklerinin kapsamlı bir listesi değil, bir başlangıç ​​noktasıdır.

şekil
Yüksek çözünürlük için tıklayın

 

Hızlı Başvuru PDF'sini buradan indirin.

On yıl önce R, veri bilimi için tek oyuncuydu, ancak Python ve SQL'den artan rekabet, bir ekosistemde tanıtılan özellikler hızla kopyalandığından veya diğerine taşındığından, onu yalnızca daha iyi hale getirdi. Geniş R kullanıcı topluluğu, kütüphanelerinin canlı ve gelişmekte olduğundan emin olmak için çalışma geçmişine sahiptir ve R'ye yaptığınız yatırımın önümüzdeki on yıl içinde geçerli olmasını sağlar. Gelecekte bir gün, belki de dplyr ve Tidyverse artık veri hazırlığı için en iyi seçim olmayacak. Ancak şimdilik mükemmel bir seçim yapıyorlar (%>% borusu gibi birkaç garip sözdizimi öğesine rağmen!)

Tamamlayıcı gönderi: Cheat Sheet ile SQL'de Veri Hazırlama!

 
Bio: Stan Pugsley bir veri ambarı ve analitik danışmanıdır. Eide Bailly Teknoloji Danışmanlığı Salt Lake City, UT merkezli. Kendisi aynı zamanda Utah Eccles Üniversitesi İşletme Fakültesi'nde yardımcı öğretim üyesidir. Yazara ulaşabilirsiniz e-posta yoluyla.

İlgili:

Kaynak: https://www.kdnuggets.com/2021/10/data-preparation-r-dplyr-cheat-sheet.html

Zaman Damgası:

Den fazla KDNuggets