Persiapan Data di R menggunakan dplyr, dengan Cheat Sheet!

= Previous post

Next post =>

Tags: Lembar Curang, Persiapan data, R

Manfaatkan alat perselisihan data yang kuat di dplyr R untuk membersihkan dan menyiapkan data Anda.

By Stan Pugley, Konsultan Data Warehouse dan Analitik.

komentar

Saya telah menulis sebelumnya bahwa suka atau tidak suka, persiapan data adalah bagian utama dari setiap proyek ilmu data. Persiapan data terdiri dari tugas untuk menyiapkan data dalam proses berulang untuk digunakan dalam analisis bisnis, termasuk akuisisi data, penyimpanan dan penanganan data, pembersihan data, dan tahap awal rekayasa fitur.

Setidaknya ada tiga alat umum yang dapat digunakan tim data untuk melakukan tugas perselisihan data tersebut:

SQL, yang didukung oleh banyak platform data besar seperti Spark, sangat baik untuk melakukan penyaringan dan pengumpulan data kasar dari sumber mentah seperti pengumpulan file data lake
Python, dengan perpustakaan Pandas, semakin populer dan memiliki fitur
R, secara khusus menggunakan paket dplyr, menawarkan serangkaian fungsi yang kohesif yang didukung oleh koleksi sumber terbuka yang sangat besar dari pustaka R lainnya.

Pilihan Anda di antara ketiganya kemungkinan akan bergantung pada keterampilan yang tersedia di organisasi Anda, infrastruktur dan basis kode yang tersedia, dan model lanjutan yang diperlukan untuk digunakan. Untuk artikel ini, kami akan fokus pada alasan menggunakan R, dan menyediakan lembar referensi yang praktis.

dplyr, diperkenalkan pada tahun 2016, memiliki beberapa fitur penting yang menjadikannya alat yang sangat baik untuk persiapan data di R.

Koneksi data untuk hampir semua sumber data atau format file yang digunakan dalam industri.
dplyr dibangun sebagai paket yang harmonis, menyederhanakan banyak tugas yang dapat menjadi berantakan atau membingungkan jika Anda mengumpulkan paket lain dari dunia R.
Skrip mudah diintegrasikan dengan kontrol versi dan praktik Dev Ops
Penyerahan data yang mudah ke pustaka R yang andal untuk integrasi dengan model AI/ML

Panduan “Referensi Cepat” berikut akan memberikan contoh pendekatan dplyr untuk setiap langkah dalam persiapan data. Ini tidak dimaksudkan sebagai daftar fungsi atau opsi dplyr yang lengkap, melainkan sebagai titik awal.

Klik untuk resolusi tinggi

Unduh PDF Referensi Cepat di sini.

Satu dekade yang lalu, R adalah satu-satunya pemain untuk ilmu data, tetapi meningkatnya persaingan dari Python dan SQL hanya membuatnya lebih baik, karena fitur yang diperkenalkan di satu ekosistem dengan cepat disalin atau dipindahkan ke ekosistem lain. Komunitas pengguna R yang luas memiliki sejarah kerja memastikan perpustakaan mereka hidup dan berkembang, memastikan bahwa investasi Anda di R akan relevan dalam dekade berikutnya. Suatu hari nanti, mungkin dplyr, dan Tidyverse, tidak akan lagi menjadi pilihan terbaik untuk persiapan data. Tetapi untuk saat ini mereka membuat pilihan yang sangat baik (meskipun ada beberapa elemen sintaks yang canggung seperti pipa %>%!)

Pos pengiring: Persiapan Data di SQL, dengan Cheat Sheet!

Bio: Stan Pugley adalah gudang data dan konsultan analitik dengan Konsultasi Teknologi Eide Bailly berbasis di Salt Lake City, UT. Dia juga seorang anggota fakultas tambahan di University of Utah Eccles School of Business. Anda dapat menghubungi penulisnya melalui email.

Terkait:

= Previous post

Next post =>

Cerita Top Melewati 30 Hari

Paling Populer
Cara Membangun Portofolio Ilmu Data yang Kuat sebagai Pemula Pertanyaan wawancara SQL ilmu data dari perusahaan teknologi top Sembilan Alat yang Saya Ingin Kuasai Sebelum PhD saya dalam Pembelajaran Mesin Jalan menuju Ilmu Data Tumpukan Penuh 8 Perintah Git yang Harus Dimiliki untuk Ilmuwan Data

Paling Banyak Dibagikan
Cara Menemukan Kelemahan dalam Model Pembelajaran Mesin Anda Jalan menuju Ilmu Data Tumpukan Penuh 38 Kursus Gratis di Coursera untuk Ilmu Data Bagaimana menjadi Ilmuwan Data tanpa gelar STEM 20 Proyek Pembelajaran Mesin yang Akan Membuat Anda Dipekerjakan