Cheat Sheet ile dplyr kullanarak R'de Veri Hazırlama!
Verilerinizi temizlemek ve hazırlamak için R'nin dplyr'ındaki güçlü veri tartışma araçlarından yararlanın.
Beğensek de beğenmesek de, veri hazırlamanın her veri bilimi projesinin önemli bir parçası olduğunu daha önce yazmıştım. Veri hazırlama, veri toplama, veri depolama ve işleme, veri temizleme ve özellik mühendisliğinin erken aşamaları dahil olmak üzere iş analitiğinde kullanım için tekrarlanabilir bir süreçte verileri hazırlama görevlerinden oluşur.
Veri ekiplerinin bu veri karıştırma görevlerini yapmak için kullanabileceği en az üç yaygın araç vardır:
- Spark gibi birçok büyük veri platformu tarafından desteklenen SQL, veri gölü dosya koleksiyonları gibi ham kaynaklardan kaba veri filtreleme ve toplama yapmak için mükemmeldir.
- Pandas kitaplığı ile Python, popülerlik ve özellikler açısından büyüyor
- Özellikle dplyr paketini kullanan R, diğer R kitaplıklarının muazzam açık kaynak koleksiyonu tarafından desteklenen uyumlu bir dizi işlev sunar.
Bu üçü arasından yapacağınız seçim büyük olasılıkla kuruluşunuzda mevcut olan becerilere, mevcut altyapı ve kod tabanına ve kullanılması gereken gelişmiş modellere bağlı olacaktır. Bu makale için R kullanma nedenlerine odaklanacağız ve kullanışlı bir referans sayfası sağlayacağız.
2016'da tanıtılan dplyr, onu R'de veri hazırlığı için mükemmel bir araç haline getiren bazı önemli özelliklere sahiptir.
- Endüstride kullanılan hemen hemen tüm veri kaynakları veya dosya biçimleri için veri bağlantıları.
- dplyr, R dünyasındaki diğer paketleri bir araya getirmeniz durumunda karışık veya kafa karıştırıcı olabilecek birçok görevi basitleştiren uyumlu bir paket olarak oluşturulmuştur.
- Komut dosyaları, sürüm kontrolü ve Dev Ops uygulamalarıyla kolayca entegre edilir
- AI/ML modelleriyle entegrasyon için verileri güçlü R kitaplıklarına kolayca aktarın
Aşağıdaki “Hızlı Başvuru” kılavuzu, veri hazırlamadaki adımların her birine dplyr yaklaşımlarının bir örneğini verecektir. Bu, dplyr işlevlerinin veya seçeneklerinin kapsamlı bir listesi değil, bir başlangıç noktasıdır.
Yüksek çözünürlük için tıklayın
Hızlı Başvuru PDF'sini buradan indirin.
On yıl önce R, veri bilimi için tek oyuncuydu, ancak Python ve SQL'den artan rekabet, bir ekosistemde tanıtılan özellikler hızla kopyalandığından veya diğerine taşındığından, onu yalnızca daha iyi hale getirdi. Geniş R kullanıcı topluluğu, kütüphanelerinin canlı ve gelişmekte olduğundan emin olmak için çalışma geçmişine sahiptir ve R'ye yaptığınız yatırımın önümüzdeki on yıl içinde geçerli olmasını sağlar. Gelecekte bir gün, belki de dplyr ve Tidyverse artık veri hazırlığı için en iyi seçim olmayacak. Ancak şimdilik mükemmel bir seçim yapıyorlar (%>% borusu gibi birkaç garip sözdizimi öğesine rağmen!)
Tamamlayıcı gönderi: Cheat Sheet ile SQL'de Veri Hazırlama!
Bio: Stan Pugsley bir veri ambarı ve analitik danışmanıdır. Eide Bailly Teknoloji Danışmanlığı Salt Lake City, UT merkezli. Kendisi aynı zamanda Utah Eccles Üniversitesi İşletme Fakültesi'nde yardımcı öğretim üyesidir. Yazara ulaşabilirsiniz e-posta yoluyla.
İlgili:
30 Gün İçindeki En Çok Okunan Haberler | |||||
---|---|---|---|---|---|
|
|
Kaynak: https://www.kdnuggets.com/2021/10/data-preparation-r-dplyr-cheat-sheet.html
- "
- 2016
- edinme
- arasında
- analytics
- göre
- İYİ
- büyük Veri
- inşa etmek
- iş
- iş zekası
- Şehir
- Temizlik
- kod
- ortak
- topluluk
- rekabet
- Bağlantılar
- danışman
- Coursera
- veri
- Veri Gölü
- veri bilimi
- veri bilimcisi
- veri saklama
- veri ambarı
- gün
- dev
- ekosistem
- Mühendislik
- Özellikler(Hazırlık aşamasında)
- Özellikler
- şekil
- odak
- biçim
- Ücretsiz
- tam
- gelecek
- Git
- harika
- Büyüyen
- rehberlik
- kullanma
- kullanışlı
- Yüksek
- tarih
- HTTPS
- görüntü
- Dahil olmak üzere
- sanayi
- Altyapı
- bütünleşme
- İstihbarat
- görüşme
- yatırım
- IT
- öğrenme
- Kaldıraç
- Kütüphane
- Liste
- makine öğrenme
- büyük
- Teklifler
- Opsiyonlar
- kuruluşlar
- Diğer
- Platformlar
- oyuncu
- portföy
- Mesajlar
- proje
- Projeler
- Python
- Çiğ
- nedenleri
- Okul
- Bilim
- set
- becerileri
- SQL
- kök
- hafızası
- hikayeler
- destekli
- teknoloji
- Teknoloji
- Gelecek
- üst
- üniversite
- utah
- sürüm kontrolü
- görüntüleme
- depo
- Dünya
- X