Persiapan Data di R menggunakan dplyr, dengan Cheat Sheet!

Node Sumber: 1878484

Persiapan Data di R menggunakan dplyr, dengan Cheat Sheet!

Manfaatkan alat perselisihan data yang kuat di dplyr R untuk membersihkan dan menyiapkan data Anda.


GambarSaya telah menulis sebelumnya bahwa suka atau tidak suka, persiapan data adalah bagian utama dari setiap proyek ilmu data. Persiapan data terdiri dari tugas untuk menyiapkan data dalam proses berulang untuk digunakan dalam analisis bisnis, termasuk akuisisi data, penyimpanan dan penanganan data, pembersihan data, dan tahap awal rekayasa fitur.

 
Setidaknya ada tiga alat umum yang dapat digunakan tim data untuk melakukan tugas perselisihan data tersebut:

  • SQL, yang didukung oleh banyak platform data besar seperti Spark, sangat baik untuk melakukan penyaringan dan pengumpulan data kasar dari sumber mentah seperti pengumpulan file data lake
  • Python, dengan perpustakaan Pandas, semakin populer dan memiliki fitur
  • R, secara khusus menggunakan paket dplyr, menawarkan serangkaian fungsi yang kohesif yang didukung oleh koleksi sumber terbuka yang sangat besar dari pustaka R lainnya.

Pilihan Anda di antara ketiganya kemungkinan akan bergantung pada keterampilan yang tersedia di organisasi Anda, infrastruktur dan basis kode yang tersedia, dan model lanjutan yang diperlukan untuk digunakan. Untuk artikel ini, kami akan fokus pada alasan menggunakan R, dan menyediakan lembar referensi yang praktis.

dplyr, diperkenalkan pada tahun 2016, memiliki beberapa fitur penting yang menjadikannya alat yang sangat baik untuk persiapan data di R.

  • Koneksi data untuk hampir semua sumber data atau format file yang digunakan dalam industri.
  • dplyr dibangun sebagai paket yang harmonis, menyederhanakan banyak tugas yang dapat menjadi berantakan atau membingungkan jika Anda mengumpulkan paket lain dari dunia R.
  • Skrip mudah diintegrasikan dengan kontrol versi dan praktik Dev Ops
  • Penyerahan data yang mudah ke pustaka R yang andal untuk integrasi dengan model AI/ML

Panduan “Referensi Cepat” berikut akan memberikan contoh pendekatan dplyr untuk setiap langkah dalam persiapan data. Ini tidak dimaksudkan sebagai daftar fungsi atau opsi dplyr yang lengkap, melainkan sebagai titik awal.

Angka
Klik untuk resolusi tinggi

 

Unduh PDF Referensi Cepat di sini.

Satu dekade yang lalu, R adalah satu-satunya pemain untuk ilmu data, tetapi meningkatnya persaingan dari Python dan SQL hanya membuatnya lebih baik, karena fitur yang diperkenalkan di satu ekosistem dengan cepat disalin atau dipindahkan ke ekosistem lain. Komunitas pengguna R yang luas memiliki sejarah kerja memastikan perpustakaan mereka hidup dan berkembang, memastikan bahwa investasi Anda di R akan relevan dalam dekade berikutnya. Suatu hari nanti, mungkin dplyr, dan Tidyverse, tidak akan lagi menjadi pilihan terbaik untuk persiapan data. Tetapi untuk saat ini mereka membuat pilihan yang sangat baik (meskipun ada beberapa elemen sintaks yang canggung seperti pipa %>%!)

Pos pengiring: Persiapan Data di SQL, dengan Cheat Sheet!

 
Bio: Stan Pugley adalah gudang data dan konsultan analitik dengan Konsultasi Teknologi Eide Bailly berbasis di Salt Lake City, UT. Dia juga seorang anggota fakultas tambahan di University of Utah Eccles School of Business. Anda dapat menghubungi penulisnya melalui email.

Terkait:

Sumber: https://www.kdnuggets.com/2021/10/data-preparation-r-dplyr-cheat-sheet.html

Stempel Waktu:

Lebih dari KDnugget