أعاد نشره أفلاطون

المتابعون: 0

20 مشروعًا لتعلم الآلة من شأنها أن تجعلك موظفًا

الوسوم (تاج): التوظيف, تعلم آلة, حملات التبرع

إذا كنت ترغب في اقتحام سوق العمل في التعلم الآلي وعلوم البيانات ، فستحتاج إلى إثبات كفاءة مهاراتك ، خاصة إذا كنت تدرس ذاتيًا من خلال الدورات التدريبية والمعسكرات التدريبية عبر الإنترنت. تعد محفظة المشروع طريقة رائعة لممارسة حرفتك الجديدة وتقديم دليل مقنع على أن الموظف يجب أن يوظفك على المنافسة.

تعليقات

By خوشبو شاه، Content Manager في ProjectPro.

تزدهر صناعة الذكاء الاصطناعي والتعلم الآلي بشكل لم يسبق له مثيل. اعتبارًا من عام 2021 ، ستؤدي الزيادة في استخدام الذكاء الاصطناعي عبر الشركات إلى إنشاء 2.9 تريليون دولار من قيمة الأعمال. لقد قام الذكاء الاصطناعي بأتمتة العديد من الصناعات في جميع أنحاء العالم وغيرت طريقة عملها. تدمج معظم الشركات الكبيرة الذكاء الاصطناعي لزيادة الإنتاجية في سير عملها ، وقد شهدت صناعات مثل التسويق والرعاية الصحية نقلة نوعية بسبب دمج الذكاء الاصطناعي.

مصدر الصورة: Unsplash

نتيجة لذلك ، كان هناك طلب متزايد في السنوات القليلة الماضية على متخصصي الذكاء الاصطناعي. كانت هناك زيادة بنسبة 100٪ تقريبًا في الوظائف الشاغرة المتعلقة بالذكاء الاصطناعي والتعلم الآلي من 2015 إلى 2018. وقد نما هذا العدد منذ ذلك الحين ومن المتوقع أن يرتفع في عام 2021.

إذا كنت تتطلع إلى اقتحام صناعة التعلم الآلي ، فإن الخبر السار هو أنه لا يوجد نقص في الوظائف المتاحة. تحتاج الشركات إلى قوة عاملة موهوبة قادرة على قيادة التحول إلى التعلم الآلي. ومع ذلك ، يتم اختراق سوق العمل من قبل الأشخاص الذين يرغبون في اقتحام صناعة البيانات. نظرًا لعدم وجود برنامج درجة محدد مخصص للطلاب الذين يرغبون في تعلم التعلم الآلي ، فإن العديد من ممارسي ML الطموحين يدرسون بأنفسهم.

يوجد أكثر من 4 ملايين طالب مسجلين في دورة Andrew Ng للتعلم الآلي عبر الإنترنت.

لسوء الحظ ، يساعدك التسجيل في الدورات التدريبية عبر الإنترنت أو الحصول على Bootcamp للتعلم الآلي على تعلم المفاهيم النظرية ولكنه لا يجهزك لوظيفة في الصناعة. هناك الكثير من العمل العملي الذي يتعين القيام به ، بعد أن تعلمت النظرية. لنفترض أنك تعرف أساسيات خوارزميات التعلم الآلي - فأنت تفهم كيفية عمل نماذج الانحدار والتصنيف ، وتعرف الأنواع المختلفة لطرق التجميع.

كيف ستتمرن على المهارات التي تعلمتها لحل مشكلة واقعية؟ الجواب البسيط هو: ممارسة وممارسة وممارسة متنوعة مشاريع التعلم الآلي.

بمجرد الانتهاء من تعلم المفاهيم النظرية ، يجب أن تبدأ العمل على مشاريع الذكاء الاصطناعي والتعلم الآلي. ستمنحك هذه المشاريع الممارسة اللازمة لصقل مهاراتك في المجال ، وفي الوقت نفسه ، تعد قيمة مضافة كبيرة إلى محفظة التعلم الآلي الخاصة بك.

بدون الكثير من اللغط ، دعنا نستكشف بعض أفكار مشروع ML التي لن تجعل محفظتك تبدو جيدة فحسب ، بل ستحسن أيضًا مهاراتك في التعلم الآلي بشكل كبير. هذه قائمة منسقة لبعض من أفضل مشاريع التعلم الآلي للطلاب وممارسي التعلم الآلي الطموحين والأفراد من المجالات غير التقنية. يمكنك العمل في هذه المشاريع بغض النظر عن خلفيتك ، طالما أن لديك بعض الترميز والمعرفة بمهارات التعلم الآلي. هذه قائمة بمشاريع التعلم الآلي للمبتدئين والمتقدمين.

إذا كنت جديدًا في صناعة البيانات ولديك خبرة قليلة في مشاريع الحياة الواقعية ، فابدأ بمشروعات تعلم الآلة على مستوى المبتدئين قبل الانتقال إلى المشروعات الأكثر تحديًا.

مشاريع التعلم الآلي للمبتدئين

1. توقع كاجل تيتانيك

يعد المشروع الأول في هذه القائمة أحد أكثر مشاريع ML مباشرة التي يمكنك القيام بها. يوصى بهذا المشروع لإكمال المبتدئين في صناعة البيانات. تتوفر مجموعة بيانات Titanic على Kaggle ، ويرد أدناه رابط تنزيلها.

مجموعة البيانات هذه خاصة بالركاب الذين سافروا على متن التايتانيك. يحتوي على تفاصيل مثل عمر الركاب وأجرة التذكرة والمقصورة والجنس. بناءً على هذه المعلومات ، ستحتاج إلى التنبؤ بما إذا كان هؤلاء الركاب قد نجوا أم لا.

إنها مشكلة تصنيف ثنائية بسيطة ، وكل ما عليك فعله هو التنبؤ بما إذا كان راكب معين قد نجا. أفضل شيء في مجموعة البيانات هذه هو أن جميع عمليات المعالجة المسبقة تتم من أجلك. لديك مجموعة بيانات جيدة ونظيفة لتدريب نموذج التعلم الآلي الخاص بك.

نظرًا لأن هذه مشكلة تصنيف ، يمكنك اختيار استخدام الخوارزميات مثل الانحدار اللوجستي وأشجار القرار والغابات العشوائية لبناء النموذج التنبئي. يمكنك أيضًا اختيار نماذج تعزيز التدرج مثل مصنف XGBoost لمشروع التعلم الآلي على مستوى المبتدئين للحصول على نتائج أفضل.

بيانات: مجموعة بيانات Kaggle Titanic

2. توقع سعر المنزل

تعتبر بيانات أسعار المنازل أيضًا رائعة للبدء بها إذا كنت مبتدئًا في تعلم الآلة. سيستخدم هذا المشروع مجموعة بيانات تسعير المنزل المتاحة على Kaggle. المتغير المستهدف في مجموعة البيانات هذه هو سعر منزل معين ، والذي ستحتاج إليه للتنبؤ باستخدام معلومات مثل مساحة المنزل وعدد غرف النوم وعدد الحمامات والمرافق.

إنها مشكلة انحدار ، ويمكنك استخدام تقنيات مثل الانحدار الخطي لبناء النموذج. يمكنك أيضًا اتباع نهج أكثر تقدمًا واستخدام معامل الانحدار العشوائي للغابات أو زيادة التدرج للتنبؤ بأسعار المنازل.

تحتوي مجموعة البيانات هذه على 80 عمودًا ، باستثناء المتغير الهدف. ستحتاج إلى استخدام بعض تقنيات تقليل الأبعاد لاختيار الميزات يدويًا نظرًا لأن إضافة العديد من المتغيرات يمكن أن يؤدي إلى ضعف أداء النموذج الخاص بك.

هناك أيضًا العديد من المتغيرات الفئوية في مجموعة البيانات ، لذلك تحتاج إلى التعامل معها بشكل صحيح باستخدام تقنيات مثل الترميز الساخن أو ترميز الملصقات.

بعد بناء النموذج الخاص بك ، يمكنك إرسال توقعاتك إلى مسابقة تسعير المنزل في Kaggle ، حيث لا تزال مفتوحة. أفضل RMSE حققه المنافسون هو 0 ، وقد حقق العديد من الأشخاص نتائج جيدة مثل 0.15 بمساعدة تقنيات الانحدار وتعزيز التدرج.

بيانات: مجموعة بيانات توقع أسعار منزل Kaggle

3. توقع جودة النبيذ

تحظى مجموعة بيانات التنبؤ بجودة النبيذ أيضًا بشعبية كبيرة بين المبتدئين في صناعة البيانات. في هذا المشروع ، ستستخدم الحموضة الثابتة والحموضة المتطايرة والكحول والكثافة للتنبؤ بجودة النبيذ الأحمر.

يمكن التعامل مع هذا على أنه مشكلة تصنيف أو انحدار. ال جودة النبيذ متغير تحتاج إلى توقعه في نطاقات مجموعة البيانات من 0 إلى 10 ، حتى تتمكن من بناء نموذج انحدار للتنبؤ به. هناك طريقة أخرى يمكنك اتباعها وهي تقسيم القيم (من 0 إلى 10) إلى فترات منفصلة وتحويلها إلى متغيرات فئوية. يمكنك إنشاء ثلاث فئات ، على سبيل المثال - منخفضة ومتوسطة و عالي.

يمكنك بعد ذلك بناء مصنف شجرة قرار أو أي نموذج تصنيف لعمل التوقع. إنها مجموعة بيانات نظيفة ومباشرة نسبيًا لممارسة مهارات التعلم الآلي الخاصة بك وتصنيف الانحدار.

بيانات: مجموعة بيانات جودة النبيذ الأحمر Kaggle

4. التنبؤ بأمراض القلب

إذا كنت تبحث عن استكشاف مجموعة بيانات في مجال الرعاية الصحية ، فهذه مجموعة بيانات رائعة على مستوى المبتدئين لتبدأ بها. تُستخدم مجموعة البيانات هذه للتنبؤ بخطر الإصابة بأمراض القلب التاجية لمدة 10 سنوات (مرض القلب التاجي). المتغيرات التابعة في مجموعة البيانات هذه هي عوامل خطر الإصابة بأمراض القلب ، بما في ذلك مرض السكري والتدخين وارتفاع ضغط الدم ومستويات الكوليسترول المرتفعة.

المتغير المستقل هو خطر الإصابة بأمراض القلب التاجية لمدة 10 سنوات. إنها مشكلة تصنيف ثنائي ، والمتغير المستهدف هو إما 0 أو 1-0 للمرضى الذين لم يصابوا أبدًا بأمراض القلب و 1 للمرضى الذين أصيبوا بها. يمكنك اختيار بعض الميزات في مجموعة البيانات هذه لتحديد الميزات التي تساهم بشكل أكبر في خطر الإصابة بأمراض القلب. بعد ذلك ، يمكنك ملاءمة نموذج التصنيف للمتغيرات المستقلة.

مجموعة البيانات هذه غير متوازنة للغاية لأن العديد من المرضى في مجموعة البيانات هذه فعلوا ذلك ليس يصاب بأمراض القلب. يجب التعامل مع مجموعة البيانات غير المتوازنة باستخدام التقنيات الهندسية للميزات الصحيحة مثل الإفراط في أخذ العينات أو ضبط الوزن أو نقص العينات. إذا لم يتم التعامل معه بشكل صحيح ، فسوف ينتهي بك الأمر بنموذج يتنبأ ببساطة بفئة الأغلبية لكل نقطة بيانات ولا يمكنه تحديد المرضى الذين فعل يصاب بأمراض القلب. هذه مجموعة بيانات ممتازة بالنسبة لك لممارسة مهاراتك في هندسة الميزات والتعلم الآلي.

بيانات: مجموعة بيانات مرض القلب Kaggle

5. تصنيف أرقام MNIST

• منيست مجموعة البيانات هي نقطة انطلاقك في مجال التعلم العميق. تتكون مجموعة البيانات هذه من صور ذات تدرجات رمادية لأرقام مكتوبة بخط اليد من 0 إلى 9. مهمتك هي تحديد الرقم باستخدام خوارزمية التعلم العميق. هذه مشكلة تصنيف متعددة الفئات مع عشرة فئات إخراج محتملة. يمكنك استخدام CNN (الشبكة العصبية التلافيفية) لإجراء هذا التصنيف.

تم إنشاء مجموعة بيانات MNIST داخل مكتبة Keras في Python. كل ما عليك فعله هو تثبيت Keras ، واستيراد المكتبة ، وتحميل مجموعة البيانات. تحتوي مجموعة البيانات هذه على حوالي 60,000،80 صورة بحيث يمكنك استخدام حوالي 20٪ من هذه الصور للتدريب و XNUMX٪ أخرى للاختبار.

بيانات: مجموعة بيانات Kaggle Digit Recognizer

6. تحليل المشاعر لبيانات تويتر

تتوفر العديد من مجموعات بيانات تحليل المشاعر على موقع Kaggle. يُطلق على واحدة من أكثر مجموعات البيانات شيوعًا اسم sentiment140 ، والذي يحتوي على 1.6 مليون تغريدة تمت معالجتها مسبقًا. هذه مجموعة بيانات رائعة لتبدأ بها إذا كنت جديدًا في تحليل المشاعر.

تم وضع تعليقات توضيحية على هذه التغريدات ، والمتغير المستهدف هو المشاعر. القيم الفريدة في هذا العمود هي 0 (سالب) و 2 (محايد) و 4 (موجب).

بعد المعالجة المسبقة لهذه التغريدات وتحويلها إلى متجهات ، يمكنك استخدام نموذج تصنيف لتدريبها على المشاعر المرتبطة بها. يمكنك استخدام الخوارزميات مثل الانحدار اللوجستي أو مصنف شجرة القرار أو مصنف XGBoost لهذه المهمة.

بديل آخر هو استخدام نموذج التعلم العميق مثل LSTM للتوصل إلى توقع المشاعر. ومع ذلك ، يعد هذا نهجًا أكثر تحديًا إلى حد ما ويقع ضمن فئة المشروع المتقدم.

يمكنك أيضًا استخدام مجموعة البيانات المسماة هذه كأساس لمهام تحليل المشاعر المستقبلية.

إذا كان لديك أي تغريدات تريد جمعها وإجراء تحليل للمشاعر عليها ، يمكنك استخدام نموذج تم تدريبه مسبقًا على العاطفة 140 لعمل تنبؤات مستقبلية.

بيانات: Kaggle Sentiment140 مجموعة بيانات

7. التنبؤ بمرض السكري الهندي بيما

تُستخدم مجموعة بيانات Pima Indian Diabetes للتنبؤ بما إذا كان المريض مصابًا بمرض السكري بناءً على القياسات التشخيصية.

بناءً على متغيرات مثل مؤشر كتلة الجسم والعمر والأنسولين ، سيتنبأ النموذج بمرض السكري لدى المرضى. تحتوي مجموعة البيانات هذه على تسعة متغيرات - ثمانية متغيرات مستقلة ومتغير هدف واحد.

المتغير الهدف هوداء السكري'، لذلك سوف تتوقع 1 لوجود مرض السكري أو 0 لعدم وجود مرض السكري.

هذه مشكلة تصنيف لتجربة نماذج مثل الانحدار اللوجستي أو مصنف شجرة القرار أو مصنف الغابة العشوائي.

جميع المتغيرات المستقلة في مجموعة البيانات هذه رقمية ، لذا فهذه مجموعة بيانات رائعة لتبدأ بها إذا كان لديك الحد الأدنى من الخبرة الهندسية للميزات.

هذه مجموعة بيانات Kaggle مفتوحة للمبتدئين. هناك العديد من البرامج التعليمية عبر الإنترنت التي ترشدك خلال حل الترميز في Python و R. تعد هذه البرامج التعليمية الخاصة بأجهزة الكمبيوتر الدفترية طريقة رائعة للتعلم وتسخير يديك حتى تتمكن من الانتقال إلى مشاريع أكثر تعقيدًا.

بيانات: مجموعة بيانات Kaggle Pima الهندية لمرض السكري

8. تصنيف سرطان الثدي

تعد مجموعة بيانات تصنيف سرطان الثدي على Kaggle طريقة ممتازة أخرى لممارسة مهارات التعلم الآلي والذكاء الاصطناعي.

معظم مشاكل التعلم الآلي الخاضعة للإشراف في العالم الحقيقي هي مشاكل تصنيف مثل هذه المشكلة. يتمثل التحدي الرئيسي في تحديد سرطان الثدي في عدم القدرة على التمييز بين الأورام الحميدة (غير السرطانية) والخبيثة (السرطانية). تحتوي مجموعة البيانات على متغيرات مثل "radius_mean" و "area_mean" من الورم ، وستحتاج إلى التصنيف بناءً على هذه الميزات إذا كان الورم سرطانيًا أم لا. من السهل نسبيًا التعامل مع مجموعة البيانات هذه نظرًا لعدم وجود حاجة لإجراء أي معالجة مسبقة للبيانات الهامة. إنها أيضًا مجموعة بيانات متوازنة ، مما يجعل مهمتك أكثر قابلية للإدارة حيث لا تحتاج إلى القيام بالكثير من هندسة الميزات.

يمكن أن يمنحك تدريب مصنف انحدار لوجستي بسيط على مجموعة البيانات هذه دقة تصل إلى 0.90.

بيانات: مجموعة بيانات تصنيف Kaggle لسرطان الثدي

9. توقعات شباك التذاكر TMDB

تعد مجموعة بيانات Kaggle طريقة رائعة لممارسة مهاراتك في الانحدار. يتكون من حوالي 7000 فيلم ، وستحتاج إلى استخدام المتغيرات الموجودة للتنبؤ بإيرادات الفيلم.

تتضمن نقاط البيانات الموجودة فريق التمثيل وطاقم العمل والميزانية واللغات وتواريخ الإصدار. هناك 23 متغيرًا في مجموعة البيانات ، أحدها هو المتغير المستهدف.

يمكن أن يمنحك نموذج الانحدار الخطي الأساسي تربيع R يزيد عن 0.60 ، لذا يمكنك استخدام هذا كنموذج تنبؤ أساسي. حاول التغلب على هذه النتيجة باستخدام تقنيات مثل XGBoost regression أو Light GBM.

تعد مجموعة البيانات هذه أكثر تعقيدًا قليلاً من المجموعة السابقة نظرًا لأن بعض الأعمدة بها بيانات موجودة في القواميس المتداخلة. تحتاج إلى إجراء بعض المعالجة المسبقة الإضافية لاستخراج هذه البيانات بتنسيق قابل للاستخدام لتدريب نموذج عليها.

يعد التنبؤ بالإيرادات مشروعًا رائعًا لعرضه في محفظتك ، لأنه يوفر قيمة تجارية لمجموعة متنوعة من المجالات خارج صناعة السينما.

بيانات: مجموعة بيانات التنبؤ من Kaggle TMDB Box Office

10. تقسيم العملاء في بايثون

تعد مجموعة بيانات تجزئة العملاء على Kaggle طريقة رائعة للبدء في التعلم الآلي غير الخاضع للإشراف. تتكون مجموعة البيانات هذه من تفاصيل العملاء مثل العمر والجنس والدخل السنوي ودرجة الإنفاق.

تحتاج إلى استخدام هذه المتغيرات لبناء شرائح العملاء. يجب تجميع العملاء المتشابهين في مجموعات متشابهة. يمكنك استخدام الخوارزميات مثل K-Means clustering أو المجموعات الهرمية لهذه المهمة. يمكن أن توفر نماذج تجزئة العملاء قيمة تجارية.

غالبًا ما تريد الشركات فصل عملائها للتوصل إلى تقنيات تسويق مختلفة لكل نوع من أنواع العملاء.

تشمل الأهداف الرئيسية لمجموعة البيانات هذه ما يلي:

تحقيق تقسيم العملاء باستخدام تقنيات التعلم الآلي
حدد العملاء المستهدفين لاستراتيجيات التسويق المختلفة
افهم كيف تعمل استراتيجيات التسويق في العالم الحقيقي

يمكن أن يساعد بناء نموذج تجميع لهذه المهمة في إبراز محفظتك ، ويعد التقسيم مهارة رائعة يجب أن تمتلكها إذا كنت تتطلع إلى الحصول على وظيفة مرتبطة بالذكاء الاصطناعي في صناعة التسويق.

بيانات: مجموعة بيانات تجزئة العملاء في Kaggle Mall

مشاريع التعلم الآلي للمستوى المتوسط / المتقدم لسيرتك الذاتية

بمجرد الانتهاء من العمل على مشاريع التعلم الآلي البسيطة مثل تلك المذكورة أعلاه ، يمكنك الانتقال إلى مشاريع أكثر صعوبة.

1. التنبؤ بالمبيعات

التنبؤ بالسلاسل الزمنية هو أسلوب للتعلم الآلي يستخدم في كثير من الأحيان في الصناعة. استخدام البيانات السابقة للتنبؤ بالمبيعات المستقبلية له عدد كبير من حالات استخدام الأعمال. يمكن استخدام مجموعة بيانات Kaggle Demand Forecasting لممارسة هذا المشروع.

تحتوي مجموعة البيانات هذه على 5 سنوات من بيانات المبيعات ، وستحتاج إلى توقع المبيعات للأشهر الثلاثة القادمة. هناك عشرة متاجر مختلفة مدرجة في مجموعة البيانات ، وهناك 50 عنصرًا في كل متجر.

للتنبؤ بالمبيعات ، يمكنك تجربة طرق مختلفة - ARIMA أو Vector Autoregression أو التعلم العميق. إحدى الطرق التي يمكنك استخدامها لهذا المشروع هي قياس الزيادة في المبيعات لكل شهر وتسجيلها. بعد ذلك ، قم ببناء النموذج بناءً على الفرق بين مبيعات الشهر السابق ومبيعات الشهر الحالي. يمكن أن يؤدي أخذ عوامل مثل العطلات والموسمية في الاعتبار إلى تحسين أداء نموذج التعلم الآلي الخاص بك.

بيانات: التنبؤ بالطلب على عنصر متجر Kaggle

2. خدمة العملاء Chatbot

يستخدم chatbot لخدمة العملاء تقنيات الذكاء الاصطناعي والتعلم الآلي للرد على العملاء ، مع أخذ دور الممثل البشري. يجب أن يكون الشات بوت قادرًا على الإجابة على أسئلة بسيطة لتلبية احتياجات العملاء.

يوجد حاليًا ثلاثة أنواع من روبوتات المحادثة التي يمكنك إنشاؤها:

روبوتات المحادثة المستندة إلى القواعد - روبوتات المحادثة هذه ليست ذكية. يتم تغذيتها بمجموعة من القواعد المحددة مسبقًا والرد فقط على المستخدمين بناءً على هذه القواعد. يتم أيضًا تزويد بعض روبوتات المحادثة بمجموعة محددة مسبقًا من الأسئلة والأجوبة ولا يمكنها الإجابة على الاستفسارات التي تقع خارج هذا المجال.
روبوتات المحادثة المستقلة - تستخدم روبوتات المحادثة المستقلة التعلم الآلي لمعالجة طلب المستخدم وتحليله وتقديم الردود وفقًا لذلك.
روبوتات المحادثة NLP - يمكن لروبوتات المحادثة هذه فهم الأنماط في الكلمات والتمييز بين مجموعات الكلمات المختلفة. هم الأكثر تقدمًا من بين جميع أنواع روبوتات الدردشة الثلاثة ، حيث يمكنهم التوصل إلى ما سيقولونه بعد ذلك بناءً على أنماط الكلمات التي تم تدريبهم عليها.

روبوت المحادثة في البرمجة اللغوية العصبية (NLP) هو فكرة مثيرة للاهتمام لمشروع التعلم الآلي. ستحتاج إلى مجموعة كلمات موجودة لتدريب نموذجك عليها ، ويمكنك بسهولة العثور على مكتبات Python للقيام بذلك. يمكنك أيضًا الحصول على قاموس محدد مسبقًا يحتوي على قائمة من أزواج الأسئلة والأجوبة التي ترغب في تدريب نموذجك عليها.

3. نظام الكشف عن الكائنات الحية البرية

إذا كنت تعيش في منطقة بها مشاهدات متكررة للحيوانات البرية ، فمن المفيد تنفيذ نظام للكشف عن الكائنات للتعرف على وجودها في منطقتك. اتبع هذه الخطوات لبناء نظام مثل هذا:

قم بتركيب كاميرات في المنطقة التي تريد مراقبتها.
قم بتنزيل جميع لقطات الفيديو وحفظها.
قم بإنشاء تطبيق Python لتحليل الصور الواردة وتحديد الحيوانات البرية.

قامت Microsoft ببناء واجهة برمجة تطبيقات للتعرف على الصور باستخدام البيانات التي تم جمعها من كاميرات الحياة البرية. أطلقوا نموذجًا مفتوح المصدر مدربًا مسبقًا لهذا الغرض يسمى MegaDetector.

يمكنك استخدام هذا النموذج المدرب مسبقًا في تطبيق Python الخاص بك للتعرف على الحيوانات البرية من الصور التي تم جمعها. إنه أحد أكثر مشاريع ML إثارة التي تم ذكرها حتى الآن وهو سهل التنفيذ نظرًا لتوفر نموذج مدرب مسبقًا لهذا الغرض.

API: ميغا ديتيكتور

4. نظام سبوتيفي للتوصية بالموسيقى

يستخدم Spotify الذكاء الاصطناعي للتوصية بالموسيقى لمستخدميه. يمكنك محاولة بناء نظام توصية بناءً على البيانات المتاحة للجمهور على Spotify.

يحتوي Spotify على واجهة برمجة تطبيقات يمكنك استخدامها لاسترداد البيانات الصوتية - يمكنك العثور على ميزات مثل سنة الإصدار والمفتاح والشهرة والفنان. للوصول إلى واجهة برمجة التطبيقات هذه في Python ، يمكنك استخدام مكتبة تسمى Spotipy.

يمكنك أيضًا استخدام مجموعة بيانات Spotify على Kaggle التي تضم حوالي 600 ألف صف. باستخدام مجموعات البيانات هذه ، يمكنك اقتراح أفضل بديل للموسيقي المفضل لكل مستخدم. يمكنك أيضًا الخروج بتوصيات الأغاني بناءً على المحتوى والنوع المفضل لكل مستخدم.

يمكن بناء نظام التوصية هذا باستخدام مجموعات K-Means - سيتم تجميع نقاط بيانات مماثلة. يمكنك أن توصي المستخدم النهائي بأغاني ذات مسافة أدنى داخل المجموعة بينها.

بمجرد إنشاء نظام التوصية ، يمكنك أيضًا تحويله إلى تطبيق Python بسيط ونشره. يمكنك حث المستخدمين على إدخال أغانيهم المفضلة على Spotify ، ثم عرض توصيات النموذج الخاص بك على الشاشة التي لها أعلى تشابه مع الأغاني التي استمتعوا بها.

بيانات: مجموعة بيانات Kaggle Spotify

5. تحليل سلة السوق

تحليل سلة السوق هو أسلوب شائع يستخدمه تجار التجزئة لتحديد العناصر التي يمكن بيعها معًا.

فمثلا:

قبل عامين ، حدد محلل بحث وجود علاقة بين مبيعات البيرة وحفاضات الأطفال. في معظم الأوقات ، كلما دخل أحد العملاء إلى المتجر لشراء بيرة ، قام أيضًا بشراء حفاضات معًا.

نتيجة لذلك ، بدأت المتاجر في بيع البيرة وحفاضات الأطفال معًا في نفس الممر كاستراتيجية تسويق لزيادة المبيعات. وقد نجحت.

كان من المفترض أن البيرة وحفاضات الأطفال لديهما ارتباط كبير حيث يشتريها الذكور معًا في كثير من الأحيان. كان الرجال يدخلون المتجر لشراء الجعة ، إلى جانب العديد من الأدوات المنزلية الأخرى لأسرهم (بما في ذلك الحفاضات). يبدو هذا ارتباطًا مستحيلًا إلى حد ما ، لكنه حدث بالفعل.

يمكن أن يساعد تحليل سلة السوق الشركات على تحديد الارتباطات الخفية بين العناصر التي يتم شراؤها بشكل متكرر معًا. يمكن لهذه المتاجر بعد ذلك وضع أغراضها بطريقة تسمح للأشخاص بالعثور عليها بسهولة.

يمكنك استخدام مجموعة بيانات Market Basket Optimization على Kaggle لبناء نموذجك وتدريبه. الخوارزمية الأكثر استخدامًا لإجراء تحليل سلة السوق هي خوارزمية Apriori.

بيانات: مجموعة بيانات تحسين سلة سوق Kaggle

6. مدة رحلة تاكسي مدينة نيويورك

تحتوي مجموعة البيانات على متغيرات تشمل إحداثيات البداية والنهاية لرحلة التاكسي والوقت وعدد الركاب. الهدف من مشروع ML هذا هو التنبؤ بمدة الرحلة بكل هذه المتغيرات. إنها مشكلة انحدار.

يجب معالجة المتغيرات مثل الوقت والإحداثيات مسبقًا بشكل مناسب وتحويلها إلى تنسيق مفهوم. هذا المشروع ليس مباشرًا كما يبدو. تحتوي مجموعة البيانات هذه أيضًا على بعض القيم المتطرفة التي تجعل التنبؤ أكثر تعقيدًا ، لذلك ستحتاج إلى التعامل مع هذا باستخدام تقنيات هندسة الميزات.

معايير التقييم لمسابقة NYC Taxi Trip Kaggle هذه هي RMSLE أو خطأ السجل التربيعي لمتوسط الجذر. حصل أعلى إرسال على Kaggle على درجة RMSLE قدرها 0.29 ، ونموذج Kaggle الأساسي له RMSLE يبلغ 0.89.

يمكنك استخدام أي خوارزمية انحدار لحل مشروع Kaggle هذا ، ولكن المنافسين الأفضل أداءً في هذا التحدي إما استخدموا نماذج تعزيز التدرج أو تقنيات التعلم العميق.

بيانات: مجموعة بيانات مدة رحلة تاكسي Kaggle NYC

7. كشف البريد العشوائي في الوقت الحقيقي

في هذا المشروع ، يمكنك استخدام تقنيات التعلم الآلي للتمييز بين الرسائل العشوائية (غير الشرعية) ورسائل الهام (الشرعية).

لتحقيق ذلك ، يمكنك استخدام مجموعة بيانات Kaggle SMS Spam Collection. تحتوي مجموعة البيانات هذه على مجموعة من حوالي 5 آلاف رسالة تم تصنيفها على أنها رسائل غير مرغوب فيها أو هام.

يمكنك اتخاذ الخطوات التالية لإنشاء نظام للكشف عن الرسائل غير المرغوب فيها في الوقت الفعلي:

استخدم مجموعة بيانات SMS Spam Collection الخاصة بـ Kaggle لتدريب نموذج التعلم الآلي.
قم بإنشاء خادم غرفة محادثة بسيط في Python.
انشر نموذج التعلم الآلي على خادم غرفة الدردشة وتأكد من أن كل حركة المرور الواردة تمر عبر النموذج.
السماح للرسائل بالمرور فقط إذا تم تصنيفها على أنها لحم خنزير. إذا كانت رسائل غير مرغوب فيها ، فقم بإرجاع رسالة خطأ بدلاً من ذلك.

لبناء نموذج التعلم الآلي ، تحتاج أولاً إلى المعالجة المسبقة للرسائل النصية الموجودة في مجموعة بيانات SMS Spam Collection الخاصة بـ Kaggle. بعد ذلك ، قم بتحويل هذه الرسائل إلى حقيبة من الكلمات بحيث يمكن بسهولة تمريرها إلى نموذج التصنيف الخاص بك للتنبؤ.

بيانات: مجموعة بيانات Kaggle SMS Spam Collection

8. مايرز بريجز شخصية التنبؤ التطبيق

يمكنك إنشاء تطبيق للتنبؤ بنوع شخصية المستخدم بناءً على ما يقوله.

يصنف مؤشر نوع مايرز بريجز الأفراد إلى 16 نوعًا مختلفًا من الشخصيات. إنه أحد أشهر اختبارات الشخصية في العالم.

إذا حاولت العثور على نوع شخصيتك على الإنترنت ، فستجد العديد من الاختبارات عبر الإنترنت. بعد الإجابة على حوالي 20-30 سؤالاً ، سيتم تحديد نوع الشخصية لك.

ومع ذلك ، في هذا المشروع ، يمكنك استخدام التعلم الآلي للتنبؤ بنوع شخصية أي شخص بناءً على جملة واحدة فقط.

فيما يلي الخطوات التي يمكنك اتخاذها لتحقيق ذلك:

قم ببناء نموذج تصنيف متعدد الفئات وتدريبه على مجموعة بيانات Myers-Briggs على Kaggle. يتضمن ذلك المعالجة المسبقة للبيانات (إزالة كلمات التوقف والأحرف غير الضرورية) وبعض هندسة الميزات. يمكنك استخدام نموذج التعلم الضحل مثل الانحدار اللوجستي أو نموذج التعلم العميق مثل LSTM لهذا الغرض.
يمكنك إنشاء تطبيق يسمح للمستخدمين بإدخال أي جملة من اختيارهم.
احفظ أوزان نموذج التعلم الآلي ودمج النموذج مع تطبيقك. بعد أن يدخل المستخدم النهائي كلمة ، اعرض نوع شخصيته على الشاشة بعد أن يقوم النموذج بالتنبؤ.

بيانات: مجموعة بيانات Kaggle MBTI

9. نظام التعرف على الحالة المزاجية + نظام التوصية

هل شعرت بالحزن يومًا ما وشعرت بالحاجة إلى مشاهدة شيء مضحك لإسعادك؟ أو هل شعرت يومًا بالإحباط الشديد لدرجة أنك بحاجة إلى الاسترخاء ومشاهدة شيء يبعث على الاسترخاء؟

هذا المشروع عبارة عن مزيج من مشروعين صغيرين.

يمكنك إنشاء تطبيق يتعرف على الحالة المزاجية للمستخدم بناءً على لقطات الويب الحية واقتراح فيلم بناءً على تعبير المستخدم.

لإنشاء هذا ، يمكنك اتباع الخطوات التالية:

أنشئ تطبيقًا يمكنه استقبال بث فيديو مباشر.
استخدم واجهة برمجة تطبيقات التعرف على الوجوه في Python لاكتشاف الوجوه والعواطف على الكائنات في موجز الفيديو.
بعد تصنيف هذه المشاعر إلى فئات مختلفة ، ابدأ في بناء نظام التوصية. يمكن أن تكون هذه مجموعة من القيم المشفرة لكل عاطفة ، مما يعني أنك لست بحاجة إلى إشراك التعلم الآلي في التوصيات.
بمجرد الانتهاء من إنشاء التطبيق ، يمكنك نشره على Heroku أو Dash أو خادم ويب.

API: واجهة برمجة تطبيقات التعرف على الوجه

10. تحليل آراء يوتيوب التعليق

في هذا المشروع ، يمكنك إنشاء لوحة تحكم لتحليل الشعور العام لمستخدمي YouTube المشهورين.

يشاهد أكثر من 2 مليار مستخدم مقاطع فيديو YouTube مرة واحدة على الأقل شهريًا. يحصل مستخدمو YouTube المشهورون على مئات المليارات من المشاهدات بمحتواهم. ومع ذلك ، فإن العديد من هؤلاء المؤثرين تعرضوا لانتقادات بسبب الخلافات في الماضي ، والتصور العام يتغير باستمرار.

يمكنك بناء نموذج لتحليل المشاعر وإنشاء لوحة معلومات لتصور المشاعر حول المشاهير بمرور الوقت.

لإنشاء هذا ، يمكنك اتباع الخطوات التالية:

كشط تعليقات مستخدمي YouTube الذين تريد تحليلهم على مقاطع الفيديو.
استخدم نموذج تحليل المشاعر المدرب مسبقًا لعمل تنبؤات بشأن كل تعليق.
تصور تنبؤات النموذج على لوحة القيادة. يمكنك أيضًا إنشاء تطبيق لوحة معلومات باستخدام مكتبات مثل Dash (Python) أو Shiny (R).
يمكنك جعل لوحة المعلومات تفاعلية من خلال السماح للمستخدمين بتصفية المشاعر حسب الإطار الزمني واسم YouTuber ونوع الفيديو.

API: مكشطة تعليق يوتيوب

نبذة عامة

صناعة التعلم الآلي كبيرة ومليئة بالفرص. إذا كنت ترغب في اقتحام الصناعة بدون خلفية تعليمية رسمية ، فإن أفضل طريقة لإظهار أن لديك المهارات اللازمة للقيام بالمهمة هي من خلال المشاريع.

يعد جانب التعلم الآلي لمعظم المشاريع المذكورة أعلاه بسيطًا جدًا. نظرًا لإضفاء الطابع الديمقراطي على التعلم الآلي ، يمكن تحقيق عملية بناء النموذج بسهولة من خلال النماذج المدربة مسبقًا وواجهات برمجة التطبيقات.

ساعدت مشاريع الذكاء الاصطناعي مفتوحة المصدر مثل Keras و FastAI أيضًا في تسريع عملية بناء النموذج. الجزء الصعب من التعلم الآلي و مشاريع علوم البيانات هو جمع البيانات والمعالجة المسبقة والنشر. إذا حصلت على وظيفة في التعلم الآلي ، فسيكون من السهل جدًا إنشاء معظم الخوارزميات. سوف يستغرق الأمر يومًا أو يومين فقط لإنشاء نموذج تنبؤ بالمبيعات. ستقضي معظم وقتك في العثور على مصادر البيانات المناسبة ووضع النماذج الخاصة بك في الإنتاج لاشتقاق قيمة الأعمال.

أصلي. تم إعادة النشر بإذن.

هذا الموضوع ذو علاقة بـ:

= السابقة آخر

بعد آخر =>

أهم الأخبار في الثلاثين يومًا الماضية

الاكثر شهره

الأكثر مشاركة
ملخص الكتاب المفتوح عن الآلة والتعلم العميق علماء البيانات بدون مهارات هندسة البيانات سيواجهون الحقيقة القاسية شرح اختبار الفرضية ورقة الغش في علوم البيانات 2.0 8 أفكار مشروع التعلم العميق للمبتدئين