إعداد البيانات في R باستخدام dplyr ، مع ورقة الغش!
استفد من أدوات معالجة البيانات القوية في dplyr الخاص بـ R لتنظيف بياناتك وإعدادها.
لقد كتبت من قبل ذلك سواء أحببنا ذلك أم لا ، فإن إعداد البيانات يعد جزءًا رئيسيًا من كل مشروع لعلوم البيانات. يتكون إعداد البيانات من مهام لإعداد البيانات في عملية قابلة للتكرار لاستخدامها في تحليلات الأعمال ، بما في ذلك الحصول على البيانات ، وتخزين البيانات ومعالجتها ، وتنظيف البيانات ، والمراحل المبكرة من هندسة الميزات.
هناك ثلاث أدوات شائعة على الأقل يمكن لفرق البيانات استخدامها للقيام بمهام معالجة البيانات هذه:
- يعد SQL ، المدعوم من قبل العديد من منصات البيانات الضخمة مثل Spark ، ممتازًا لإجراء تصفية البيانات التقريبية وجمعها من مصادر أولية مثل مجموعات ملفات بحيرة البيانات
- تزداد شعبية وميزات Python مع مكتبة Pandas
- يوفر R ، تحديدًا باستخدام حزمة dplyr ، مجموعة متماسكة من الوظائف مدعومة بمجموعة هائلة مفتوحة المصدر من مكتبات R أخرى.
من المحتمل أن يعتمد اختيارك من بين هؤلاء الثلاثة على المهارات المتاحة في مؤسستك ، والبنية التحتية وقاعدة التعليمات البرمجية المتاحة ، والنماذج المتقدمة المطلوبة لاستخدامها. في هذه المقالة ، سنركز على أسباب استخدام R ، ونقدم ورقة مرجعية سهلة الاستخدام.
يحتوي dplyr ، الذي تم تقديمه في عام 2016 ، على بعض الميزات المهمة التي تجعله أداة ممتازة لإعداد البيانات في R.
- اتصالات البيانات لأي مصدر بيانات أو تنسيق ملف مستخدم في الصناعة تقريبًا.
- تم إنشاء dplyr كحزمة متناغمة ، مما يبسط العديد من المهام التي يمكن أن تكون فوضوية أو مربكة إذا كنت تريد تجميع حزم أخرى من عالم R.
- يتم دمج البرامج النصية بسهولة مع التحكم في الإصدار وممارسات Dev Ops
- تسليم البيانات بسهولة إلى مكتبات R القوية للتكامل مع نماذج AI / ML
سيقدم دليل "المرجع السريع" التالي عينة من أساليب dplyr لكل خطوة من خطوات إعداد البيانات. لا يُقصد من هذه أن تكون قائمة شاملة لوظائف أو خيارات dplyr، بل هي نقطة بداية.
انقر للحصول على دقة عالية
قم بتنزيل المرجع السريع PDF هنا.
قبل عقد من الزمان ، كان R هو اللاعب الوحيد في علم البيانات ، لكن المنافسة المتزايدة من Python و SQL جعلت الأمر أفضل فقط ، حيث يتم نسخ الميزات المقدمة في أحد الأنظمة البيئية بسرعة أو نقلها إلى نظام آخر. لدى مجتمع مستخدمي R الواسع تاريخ من العمل تأكد من أن مكتباتهم حية ومتطورة ، مما يضمن أن استثمارك في R سيكون ذا صلة في عقد آخر. يومًا ما في المستقبل ، ربما لن يكون dplyr و Tidyverse هو الخيار الأفضل لإعداد البيانات. لكن في الوقت الحالي هم يتخذون خيارًا ممتازًا (على الرغم من بعض عناصر بناء الجملة المحرجة مثل٪>٪ pipe!)
مشاركة مصاحبة: تحضير البيانات في SQL ، مع Cheat Sheet!
السيرة الذاتية: ستان بوغسلي هو مستودع بيانات واستشاري تحليلات مع إيدي بايلي للاستشارات التكنولوجية مقرها في سولت ليك سيتي ، يوتا. وهو أيضًا عضو هيئة تدريس مساعد في كلية إدارة الأعمال بجامعة يوتا إيكلز. يمكنك الوصول إلى المؤلف عن طريق البريد الإلكتروني.
هذا الموضوع ذو علاقة بـ:
أهم الأخبار في الثلاثين يومًا الماضية | |||||
---|---|---|---|---|---|
|
|
المصدر: https://www.kdnuggets.com/2021/10/data-preparation-r-dplyr-cheat-sheet.html
- "
- 2016
- استحواذ
- من بين
- تحليلات
- البند
- أفضل
- البيانات الكبيرة
- نساعدك في بناء
- الأعمال
- ذكاء الأعمال
- المدينة
- سوائل التنظيف
- الكود
- مشترك
- مجتمع
- منافسة
- التواصل
- consultants
- كورسيرا
- البيانات
- بحيرة البيانات
- علم البيانات
- عالم البيانات
- تخزين البيانات
- مستودع البيانات
- يوم
- ديف
- النظام الإيكولوجي
- الهندسة
- الميزات
- المميزات
- الشكل
- تركز
- شكل
- مجانًا
- بالإضافة إلى
- مستقبل
- بوابة
- عظيم
- متزايد
- توجيه
- معالجة
- في المتناول
- مرتفع
- تاريخ
- HTTPS
- صورة
- بما فيه
- العالمية
- البنية التحتية
- التكامل
- رؤيتنا
- المقابلة الشخصية
- استثمار
- IT
- تعلم
- الرافعة المالية
- المكتبة
- لينكدين:
- قائمة
- آلة التعلم
- رائد
- عروض
- مزيد من الخيارات
- منظمة
- أخرى
- منصات التداول
- لاعب
- محفظة
- المنشورات
- تنفيذ المشاريع
- مشروع ناجح
- بايثون
- الخام
- الأسباب
- المدرسة
- علوم
- طقم
- مهارات
- SQL
- جذع
- تخزين
- قصص
- مدعومة
- التكنولوجيا
- تكنولوجيا
- المستقبل
- تيشرت
- جامعة
- يوتا
- التحكم في الإصدار
- التصور
- المخزن
- العالم
- X