إعداد البيانات في R باستخدام dplyr ، مع ورقة الغش!

= السابقة آخر

بعد آخر =>

الوسوم (تاج): ورقة الغش, تحضير البيانات, R

استفد من أدوات معالجة البيانات القوية في dplyr الخاص بـ R لتنظيف بياناتك وإعدادها.

By ستان بوغسلي، مستشار مستودع البيانات والتحليلات.

تعليقات

لقد كتبت من قبل ذلك سواء أحببنا ذلك أم لا ، فإن إعداد البيانات يعد جزءًا رئيسيًا من كل مشروع لعلوم البيانات. يتكون إعداد البيانات من مهام لإعداد البيانات في عملية قابلة للتكرار لاستخدامها في تحليلات الأعمال ، بما في ذلك الحصول على البيانات ، وتخزين البيانات ومعالجتها ، وتنظيف البيانات ، والمراحل المبكرة من هندسة الميزات.

هناك ثلاث أدوات شائعة على الأقل يمكن لفرق البيانات استخدامها للقيام بمهام معالجة البيانات هذه:

يعد SQL ، المدعوم من قبل العديد من منصات البيانات الضخمة مثل Spark ، ممتازًا لإجراء تصفية البيانات التقريبية وجمعها من مصادر أولية مثل مجموعات ملفات بحيرة البيانات
تزداد شعبية وميزات Python مع مكتبة Pandas
يوفر R ، تحديدًا باستخدام حزمة dplyr ، مجموعة متماسكة من الوظائف مدعومة بمجموعة هائلة مفتوحة المصدر من مكتبات R أخرى.

من المحتمل أن يعتمد اختيارك من بين هؤلاء الثلاثة على المهارات المتاحة في مؤسستك ، والبنية التحتية وقاعدة التعليمات البرمجية المتاحة ، والنماذج المتقدمة المطلوبة لاستخدامها. في هذه المقالة ، سنركز على أسباب استخدام R ، ونقدم ورقة مرجعية سهلة الاستخدام.

يحتوي dplyr ، الذي تم تقديمه في عام 2016 ، على بعض الميزات المهمة التي تجعله أداة ممتازة لإعداد البيانات في R.

اتصالات البيانات لأي مصدر بيانات أو تنسيق ملف مستخدم في الصناعة تقريبًا.
تم إنشاء dplyr كحزمة متناغمة ، مما يبسط العديد من المهام التي يمكن أن تكون فوضوية أو مربكة إذا كنت تريد تجميع حزم أخرى من عالم R.
يتم دمج البرامج النصية بسهولة مع التحكم في الإصدار وممارسات Dev Ops
تسليم البيانات بسهولة إلى مكتبات R القوية للتكامل مع نماذج AI / ML

سيقدم دليل "المرجع السريع" التالي عينة من أساليب dplyr لكل خطوة من خطوات إعداد البيانات. لا يُقصد من هذه أن تكون قائمة شاملة لوظائف أو خيارات dplyr، بل هي نقطة بداية.

انقر للحصول على دقة عالية

قم بتنزيل المرجع السريع PDF هنا.

قبل عقد من الزمان ، كان R هو اللاعب الوحيد في علم البيانات ، لكن المنافسة المتزايدة من Python و SQL جعلت الأمر أفضل فقط ، حيث يتم نسخ الميزات المقدمة في أحد الأنظمة البيئية بسرعة أو نقلها إلى نظام آخر. لدى مجتمع مستخدمي R الواسع تاريخ من العمل تأكد من أن مكتباتهم حية ومتطورة ، مما يضمن أن استثمارك في R سيكون ذا صلة في عقد آخر. يومًا ما في المستقبل ، ربما لن يكون dplyr و Tidyverse هو الخيار الأفضل لإعداد البيانات. لكن في الوقت الحالي هم يتخذون خيارًا ممتازًا (على الرغم من بعض عناصر بناء الجملة المحرجة مثل٪>٪ pipe!)

مشاركة مصاحبة: تحضير البيانات في SQL ، مع Cheat Sheet!

السيرة الذاتية: ستان بوغسلي هو مستودع بيانات واستشاري تحليلات مع إيدي بايلي للاستشارات التكنولوجية مقرها في سولت ليك سيتي ، يوتا. وهو أيضًا عضو هيئة تدريس مساعد في كلية إدارة الأعمال بجامعة يوتا إيكلز. يمكنك الوصول إلى المؤلف عن طريق البريد الإلكتروني.

هذا الموضوع ذو علاقة بـ: