بازنشر افلاطون

دنبال: 0

20 پروژه یادگیری ماشینی که شما را استخدام می کند

اگر می‌خواهید وارد بازار کار یادگیری ماشین و علم داده شوید، باید مهارت‌های خود را نشان دهید، مخصوصاً اگر از طریق دوره‌های آنلاین و بوت‌کمپ‌ها خودآموز هستید. پورتفولیو پروژه راهی عالی برای تمرین حرفه جدید شما و ارائه شواهد قانع کننده ای است که نشان می دهد یک کارمند باید شما را در رقابت استخدام کند.

نظرات

By خوشبو شاه، مدیر محتوا در ProjectPro.

صنعت هوش مصنوعی و یادگیری ماشینی مانند قبل در حال رونق است. از سال 2021، افزایش استفاده از هوش مصنوعی در بین مشاغل، 2.9 تریلیون دلار ارزش تجاری ایجاد خواهد کرد. هوش مصنوعی بسیاری از صنایع را در سرتاسر جهان خودکار کرده و نحوه عملکرد آنها را تغییر داده است. اکثر شرکت‌های بزرگ هوش مصنوعی را برای به حداکثر رساندن بهره‌وری در گردش کار خود وارد می‌کنند و صنایعی مانند بازاریابی و مراقبت‌های بهداشتی به دلیل تجمیع هوش مصنوعی دستخوش یک تغییر پارادایم شده‌اند.

منبع تصویر: می Unsplash

به همین دلیل، در چند سال گذشته تقاضای فزاینده ای برای متخصصان هوش مصنوعی وجود داشته است. از سال 100 تا 2015، تقریباً 2018٪ افزایش در آگهی‌های شغلی مرتبط با هوش مصنوعی و یادگیری ماشین وجود داشته است. این تعداد از آن زمان افزایش یافته است و پیش‌بینی می‌شود در سال 2021 افزایش یابد.

اگر به دنبال ورود به صنعت یادگیری ماشینی هستید، خبر خوب این است که کمبود شغل وجود ندارد. شرکت ها به نیروی کار با استعدادی نیاز دارند که بتواند در تغییر به سمت یادگیری ماشینی پیشگام باشد. با این حال، بازار کار توسط افرادی نفوذ می کند که می خواهند به صنعت داده نفوذ کنند. از آنجایی که هیچ برنامه مدرک خاصی برای دانش‌آموزانی که می‌خواهند یادگیری ماشینی را یاد بگیرند، ارائه نمی‌شود، بسیاری از مشتاقان شاغل در ML خودآموز هستند.

بیش از 4 میلیون دانش آموز در دوره آنلاین یادگیری ماشین Andrew Ng ثبت نام کرده اند.

متأسفانه، ثبت نام در دوره های آنلاین یا شرکت در بوت کمپ یادگیری ماشینی به شما کمک می کند تا مفاهیم نظری را یاد بگیرید، اما شما را برای شغلی در صنعت آماده نمی کند. با آموختن تئوری، کارهای عملی بیشتری باید انجام شود. فرض کنید اصول الگوریتم‌های یادگیری ماشین را می‌دانید — نحوه عملکرد مدل‌های رگرسیون و طبقه‌بندی را می‌دانید و انواع مختلف روش‌های خوشه‌بندی را می‌شناسید.

چگونه می خواهید مهارت هایی را که برای حل یک مشکل واقعی آموخته اید تمرین کنید؟ پاسخ ساده این است: تمرین، تمرین، و تمرین متنوع پروژه های یادگیری ماشینی.

پس از اتمام یادگیری مفاهیم نظری، باید کار روی پروژه های هوش مصنوعی و یادگیری ماشین را شروع کنید. این پروژه‌ها تمرین لازم را برای تقویت مهارت‌های خود در این زمینه به شما می‌دهند و در عین حال ارزش زیادی به مجموعه یادگیری ماشین شما می‌افزایند.

بدون بحث زیاد، بیایید برخی از ایده های پروژه ML را بررسی کنیم که نه تنها نمونه کار شما را خوب جلوه می دهد، بلکه مهارت های یادگیری ماشینی شما را نیز به میزان قابل توجهی بهبود می بخشد. این فهرستی از برخی از بهترین پروژه‌های یادگیری ماشینی برای دانش‌آموزان، شاغلین یادگیری ماشینی و افرادی از حوزه‌های غیرفنی است. شما می‌توانید بدون در نظر گرفتن پیشینه‌تان روی این پروژه‌ها کار کنید، به شرطی که در زمینه کدنویسی و مهارت‌های یادگیری ماشین اطلاعات کافی داشته باشید. این لیستی از پروژه های یادگیری ماشینی سطح مبتدی و پیشرفته است.

اگر در صنعت داده تازه کار هستید و تجربه کمی در پروژه های واقعی دارید، قبل از اینکه به سراغ پروژه های چالش برانگیز بروید، با پروژه های ML سطح مبتدی شروع کنید.

پروژه های یادگیری ماشین برای مبتدیان

1. Kaggle تایتانیک پیش بینی

اولین پروژه در این لیست یکی از ساده ترین پروژه های ML است که می توانید انجام دهید. این پروژه برای تکمیل مبتدیان در صنعت داده توصیه می شود. مجموعه داده تایتانیک در Kaggle موجود است و لینک دانلود آن در زیر آمده است.

این مجموعه داده شامل مسافرانی است که با کشتی تایتانیک سفر کرده اند. دارای جزئیاتی مانند سن مسافر، کرایه بلیط، کابین و جنسیت است. بر اساس این اطلاعات، باید پیش بینی کنید که آیا این مسافران زنده مانده اند یا خیر.

این یک مشکل طبقه بندی باینری ساده است و تنها کاری که باید انجام دهید این است که پیش بینی کنید آیا یک مسافر خاص زنده مانده است یا خیر. بهترین چیز در مورد این مجموعه داده این است که تمام پیش پردازش ها برای شما انجام می شود. شما یک مجموعه داده خوب و تمیز برای آموزش مدل یادگیری ماشینی خود دارید.

از آنجایی که این یک مشکل طبقه‌بندی است، می‌توانید از الگوریتم‌هایی مانند رگرسیون لجستیک، درخت‌های تصمیم‌گیری و جنگل‌های تصادفی برای ساخت مدل پیش‌بینی استفاده کنید. همچنین می‌توانید مدل‌های تقویت گرادیان مانند طبقه‌بندی‌کننده XGBoost را برای این پروژه یادگیری ماشینی سطح مبتدی انتخاب کنید تا نتایج بهتری بگیرید.

مجموعه داده: مجموعه داده کاگل تایتانیک

2. پیش بینی قیمت خانه

اگر در یادگیری ماشینی مبتدی هستید، داده های قیمت خانه نیز برای شروع عالی است. این پروژه از مجموعه داده قیمت خانه موجود در Kaggle استفاده خواهد کرد. متغیر هدف در این مجموعه داده، قیمت یک خانه خاص است، که باید با استفاده از اطلاعاتی مانند مساحت خانه، تعداد اتاق خواب، تعداد حمام، و وسایل برقی پیش بینی کنید.

این یک مشکل رگرسیونی است و می توانید از تکنیک هایی مانند رگرسیون خطی برای ساخت مدل استفاده کنید. همچنین می توانید رویکرد پیشرفته تری داشته باشید و از یک رگرسیون تصادفی جنگل یا تقویت گرادیان برای پیش بینی قیمت خانه استفاده کنید.

این مجموعه داده دارای 80 ستون است، به استثنای متغیر هدف. شما باید از تکنیک‌های کاهش ابعاد برای انتخاب دستی ویژگی‌ها استفاده کنید، زیرا اضافه کردن متغیرهای زیاد می‌تواند باعث عملکرد ضعیف مدل شما شود.

همچنین متغیرهای طبقه‌بندی زیادی در مجموعه داده وجود دارد، بنابراین باید با استفاده از تکنیک‌هایی مانند رمزگذاری تک داغ یا رمزگذاری برچسب، به درستی با آنها برخورد کنید.

پس از ساخت مدل خود، می توانید پیش بینی های خود را به رقابت قیمت گذاری خانه در Kaggle ارسال کنید، زیرا هنوز باز است. بهترین RMSE بدست آمده توسط رقبا 0 است و بسیاری از افراد با کمک تکنیک های رگرسیون و تقویت گرادیان به نتایج خوبی مانند 0.15 دست یافته اند.

مجموعه داده: مجموعه داده های پیش بینی قیمت خانه Kaggle

3. پیش بینی کیفیت شراب

مجموعه داده پیش بینی کیفیت شراب نیز در میان مبتدیان صنعت داده بسیار محبوب است. در این پروژه از اسیدیته ثابت، اسیدیته فرار، الکل و چگالی برای پیش بینی کیفیت شراب قرمز استفاده خواهید کرد.

این را می توان به عنوان یک مشکل طبقه بندی یا رگرسیون در نظر گرفت. را کیفیت شراب متغیری که باید در مجموعه داده ها از 0 تا 10 پیش بینی کنید، بنابراین می توانید یک مدل رگرسیون برای پیش بینی بسازید. روش دیگری که می توانید اتخاذ کنید این است که مقادیر (از 0 تا 10) را به فواصل گسسته تقسیم کنید و آنها را به متغیرهای طبقه بندی تبدیل کنید. شما می توانید سه دسته ایجاد کنید، به عنوان مثال - کم، متوسط، و بلند.

سپس می توانید یک طبقه بندی درخت تصمیم یا هر مدل طبقه بندی برای پیش بینی بسازید. این یک مجموعه داده نسبتاً تمیز و ساده برای تمرین مهارت های یادگیری ماشینی رگرسیون و طبقه بندی شما است.

مجموعه داده: مجموعه داده های کیفیت شراب قرمز Kaggle

4. پیش بینی بیماری قلبی

اگر به دنبال کشف یک مجموعه داده در صنعت مراقبت های بهداشتی هستید، این یک مجموعه داده عالی برای شروع در سطح مبتدی است. این مجموعه داده برای پیش بینی خطر 10 ساله CHD (بیماری کرونری قلب) استفاده می شود. متغیرهای وابسته در این مجموعه داده عوامل خطر بیماری قلبی از جمله دیابت، سیگار کشیدن، فشار خون بالا و سطح کلسترول بالا هستند.

متغیر مستقل ریسک 10 ساله CHD است. این یک مشکل طبقه بندی باینری است و متغیر هدف برای بیمارانی که هرگز به بیماری قلبی مبتلا نشده اند 0 یا 1-0 و برای بیمارانی که دچار بیماری قلبی شده اند 1 است. می‌توانید برخی از ویژگی‌ها را در این مجموعه داده انتخاب کنید تا ویژگی‌هایی را که بیشتر در خطر ابتلا به قلب نقش دارند، شناسایی کنید. سپس، می توانید یک مدل طبقه بندی را بر روی متغیرهای مستقل قرار دهید.

این مجموعه داده بسیار نامتعادل است زیرا بسیاری از بیماران در این مجموعه داده این کار را انجام داده اند نه ابتلا به بیماری قلبی یک مجموعه داده نامتعادل باید با استفاده از تکنیک‌های مهندسی ویژگی‌های مناسب مانند نمونه‌برداری بیش از حد، تنظیم وزن یا کم‌نمونه‌سازی مدیریت شود. اگر به درستی با آن برخورد نشود، به مدلی دست خواهید یافت که به سادگی کلاس اکثریت را برای هر نقطه داده پیش بینی می کند و نمی تواند بیمارانی را که انجام داد ابتلا به بیماری قلبی این یک مجموعه داده عالی برای شماست تا مهارت های مهندسی ویژگی و یادگیری ماشین خود را تمرین کنید.

مجموعه داده: مجموعه داده های بیماری قلبی کاگل

5. طبقه بندی رقمی MNIST

La منيست مجموعه داده ها پله شما در زمینه یادگیری عمیق است. این مجموعه داده شامل تصاویر خاکستری از ارقام دست نویس از 0 تا 9 است. وظیفه شما شناسایی رقم با استفاده از یک الگوریتم یادگیری عمیق است. این یک مشکل طبقه بندی چند کلاسه با ده کلاس خروجی ممکن است. برای انجام این طبقه بندی می توانید از CNN (شبکه عصبی کانولوشنال) استفاده کنید.

مجموعه داده MNIST در کتابخانه Keras در پایتون ساخته شده است. تنها کاری که باید انجام دهید این است که Keras را نصب کنید، کتابخانه را وارد کنید و مجموعه داده را بارگذاری کنید. این مجموعه داده حدود 60,000 تصویر دارد به طوری که می توانید حدود 80 درصد از این تصاویر را برای آموزش و 20 درصد دیگر را برای آزمایش استفاده کنید.

مجموعه داده: مجموعه داده های Kaggle Digit Recognizer

6. تحلیل احساسات داده های توییتر

مجموعه داده‌های تحلیل احساسات توییتر زیادی در Kaggle وجود دارد. یکی از محبوب ترین مجموعه داده ها sentiment140 نام دارد که شامل 1.6 میلیون توییت از پیش پردازش شده است. اگر در تحلیل احساسات تازه کار هستید، این یک مجموعه داده عالی برای شروع است.

این توییت ها حاشیه نویسی شده اند و متغیر هدف احساسات است. مقادیر منحصر به فرد در این ستون 0 (منفی)، 2 (خنثی) و 4 (مثبت) است.

پس از پیش پردازش این توییت‌ها و تبدیل آن‌ها به بردار، می‌توانید از یک مدل طبقه‌بندی برای آموزش آن‌ها با احساسات مرتبط خود استفاده کنید. برای این کار می توانید از الگوریتم هایی مانند رگرسیون لجستیک، طبقه بندی درخت تصمیم یا طبقه بندی کننده XGBoost استفاده کنید.

جایگزین دیگر استفاده از یک مدل یادگیری عمیق مانند LSTM برای پیش بینی احساسات است. با این حال، این رویکرد کمی چالش برانگیزتر است و در دسته پروژه های پیشرفته قرار می گیرد.

همچنین می‌توانید از این مجموعه داده برچسب‌گذاری‌شده به‌عنوان پایه‌ای برای کارهای تحلیل احساسات آینده استفاده کنید.

اگر توییت‌هایی دارید که می‌خواهید جمع‌آوری کنید و روی آن تحلیل احساسات انجام دهید، می‌توانید از مدلی استفاده کنید که قبلاً در sentiment140 آموزش داده شده است تا پیش‌بینی‌های آینده را انجام دهید.

مجموعه داده: مجموعه داده Kaggle Sentiment140

7. پیش بینی دیابت هندی پیما

مجموعه داده‌های دیابت هندی Pima برای پیش‌بینی اینکه آیا بیمار مبتلا به دیابت بر اساس اندازه‌گیری‌های تشخیصی است یا خیر، استفاده می‌شود.

این مدل بر اساس متغیرهایی مانند BMI، سن و انسولین، دیابت را در بیماران پیش‌بینی می‌کند. این مجموعه داده دارای نه متغیر است - هشت متغیر مستقل و یک متغیر هدف.

متغیر هدف "دیابت'، بنابراین شما 1 را برای وجود دیابت یا 0 را برای عدم وجود دیابت پیش بینی خواهید کرد.

این یک مشکل طبقه بندی برای آزمایش با مدل هایی مانند رگرسیون لجستیک، طبقه بندی درخت تصمیم، یا طبقه بندی جنگل تصادفی است.

همه متغیرهای مستقل در این مجموعه داده عددی هستند، بنابراین اگر حداقل تجربه مهندسی ویژگی را دارید، این مجموعه داده عالی برای شروع است.

این یک مجموعه داده Kaggle است که برای مبتدیان باز است. آموزش های آنلاین زیادی وجود دارد که شما را در کدنویسی راه حل در پایتون و R راهنمایی می کند. این آموزش های نوت بوک راهی عالی برای یادگیری و کثیف کردن دستان شما هستند تا بتوانید به پروژه های پیچیده تر بروید.

مجموعه داده: مجموعه داده های دیابت هندی Kaggle Pima

8. طبقه بندی سرطان سینه

مجموعه داده طبقه بندی سرطان سینه در Kaggle روش عالی دیگری برای تمرین یادگیری ماشینی و مهارت های هوش مصنوعی است.

اکثر مشکلات یادگیری ماشینی تحت نظارت در دنیای واقعی، مشکلات طبقه بندی مانند این هستند. یک چالش کلیدی در شناسایی سرطان سینه، ناتوانی در تمایز بین تومورهای خوش خیم (غیر سرطانی) و بدخیم (سرطانی) است. مجموعه داده دارای متغیرهایی مانند «شعاع_میانگین» و «مساحت_میانگین» تومور است، و شما باید بر اساس این ویژگی‌ها طبقه‌بندی کنید که آیا تومور سرطانی است یا خیر. کار با این مجموعه داده نسبتاً آسان است زیرا نیازی به انجام پیش پردازش داده قابل توجهی نیست. همچنین یک مجموعه داده متعادل است که وظیفه شما را قابل مدیریت تر می کند زیرا نیازی به انجام مهندسی ویژگی های زیادی ندارید.

آموزش یک طبقه بندی کننده رگرسیون لجستیک ساده بر روی این مجموعه داده می تواند دقتی تا 0.90 به شما بدهد.

مجموعه داده: مجموعه داده های طبقه بندی سرطان سینه Kaggle

9. پیش بینی باکس آفیس TMDB

این مجموعه داده Kaggle یک راه عالی برای تمرین مهارت های رگرسیون شما است. این شامل حدود 7000 فیلم است و شما باید از متغیرهای موجود برای پیش بینی درآمد فیلم استفاده کنید.

نقاط داده موجود شامل بازیگران، خدمه، بودجه، زبان ها و تاریخ انتشار است. 23 متغیر در مجموعه داده وجود دارد که یکی از آنها متغیر هدف است.

یک مدل رگرسیون خطی پایه می تواند یک R-squared بیش از 0.60 به شما بدهد، بنابراین می توانید از آن به عنوان مدل پیش بینی پایه خود استفاده کنید. سعی کنید با استفاده از تکنیک هایی مانند رگرسیون XGBoost یا Light GBM این امتیاز را شکست دهید.

این مجموعه داده کمی پیچیده‌تر از مجموعه قبلی است، زیرا برخی از ستون‌ها داده‌هایی در فرهنگ لغت‌های تودرتو دارند. برای استخراج این داده ها در قالبی قابل استفاده برای آموزش یک مدل بر روی آن، باید پیش پردازش بیشتری انجام دهید.

پیش‌بینی درآمد یک پروژه عالی برای نمایش در مجموعه شماست، زیرا ارزش تجاری را برای حوزه‌های مختلف خارج از صنعت فیلم فراهم می‌کند.

مجموعه داده: مجموعه داده های پیش بینی باکس آفیس Kaggle TMDB

10. بخش بندی مشتری در پایتون

مجموعه داده تقسیم‌بندی مشتری در Kaggle یک راه عالی برای شروع یادگیری ماشینی بدون نظارت است. این مجموعه داده شامل جزئیات مشتری مانند سن، جنسیت، درآمد سالانه و امتیاز هزینه آنها است.

شما باید از این متغیرها برای ایجاد بخش های مشتری استفاده کنید. مشتریانی که شبیه هم هستند باید در خوشه های مشابه گروه بندی شوند. می توانید از الگوریتم هایی مانند خوشه بندی K-Means یا خوشه بندی سلسله مراتبی برای این کار استفاده کنید. مدل‌های تقسیم‌بندی مشتری می‌توانند ارزش تجاری را ارائه دهند.

شرکت ها اغلب می خواهند مشتریان خود را جدا کنند تا برای هر نوع مشتری تکنیک های بازاریابی متفاوتی ارائه دهند.

اهداف اصلی این مجموعه داده عبارتند از:

دستیابی به تقسیم بندی مشتری با استفاده از تکنیک های یادگیری ماشین
مشتریان هدف خود را برای استراتژی های بازاریابی مختلف شناسایی کنید
درک نحوه عملکرد استراتژی های بازاریابی در دنیای واقعی

ایجاد یک مدل خوشه‌بندی برای این کار می‌تواند به پرتفوی شما کمک کند، و اگر به دنبال شغلی مرتبط با هوش مصنوعی در صنعت بازاریابی هستید، تقسیم‌بندی مهارت بسیار خوبی است.

مجموعه داده: مجموعه داده های تقسیم بندی مشتریان مرکز خرید Kaggle

پروژه های یادگیری ماشین سطح متوسط/پیشرفته برای رزومه شما

پس از اتمام کار بر روی پروژه های یادگیری ماشینی ساده مانند موارد ذکر شده در بالا، می توانید به پروژه های چالش برانگیزتر بروید.

1. پیش بینی فروش

پیش‌بینی سری زمانی یک تکنیک یادگیری ماشینی است که اغلب در صنعت استفاده می‌شود. استفاده از داده‌های گذشته برای پیش‌بینی فروش آینده، موارد استفاده تجاری زیادی دارد. برای تمرین این پروژه می توان از مجموعه داده پیش بینی تقاضای Kaggle استفاده کرد.

این مجموعه داده دارای داده های فروش 5 ساله است و شما باید فروش را برای سه ماه آینده پیش بینی کنید. ده فروشگاه مختلف در مجموعه داده فهرست شده است و 50 مورد در هر فروشگاه وجود دارد.

برای پیش‌بینی فروش، می‌توانید روش‌های مختلفی را امتحان کنید - ARIMA، خودرگرسیون برداری یا یادگیری عمیق. یکی از روش هایی که می توانید برای این پروژه استفاده کنید، اندازه گیری افزایش فروش برای هر ماه و ثبت آن است. سپس، مدل را بر اساس تفاوت بین فروش ماه قبل و ماه فعلی بسازید. در نظر گرفتن عواملی مانند تعطیلات و فصلی بودن می تواند عملکرد مدل یادگیری ماشین شما را بهبود بخشد.

مجموعه داده: پیش بینی تقاضای کالای فروشگاه Kaggle

2. چت بات خدمات مشتری

یک چت ربات خدمات مشتری از هوش مصنوعی و تکنیک های یادگیری ماشین برای پاسخ دادن به مشتریان استفاده می کند و نقش یک نماینده انسانی را بر عهده می گیرد. یک چت بات باید بتواند به سوالات ساده پاسخ دهد تا نیازهای مشتری را برآورده کند.

در حال حاضر سه نوع چت ربات وجود دارد که می توانید بسازید:

چت ربات های مبتنی بر قانون - این چت ربات ها هوشمند نیستند. آنها با مجموعه ای از قوانین از پیش تعریف شده تغذیه می شوند و فقط بر اساس این قوانین به کاربران پاسخ می دهند. برخی از چت‌بات‌ها نیز با مجموعه‌ای از پرسش‌ها و پاسخ‌های از پیش تعریف‌شده ارائه می‌شوند و نمی‌توانند به پرسش‌هایی که خارج از این دامنه هستند پاسخ دهند.
ربات‌های چت مستقل – چت‌ربات‌های مستقل از یادگیری ماشینی برای پردازش و تجزیه و تحلیل درخواست کاربر و ارائه پاسخ‌های متناسب استفاده می‌کنند.
ربات های چت NLP - این چت ربات ها می توانند الگوهای کلمات را درک کنند و بین ترکیب های مختلف کلمات تمایز قائل شوند. آنها از هر سه نوع ربات چت پیشرفته ترین هستند، زیرا می توانند بر اساس الگوهای کلماتی که بر روی آنها آموزش دیده اند به آنچه که در مرحله بعد باید بگویند، بیایند.

یک ربات چت NLP یک ایده پروژه یادگیری ماشینی جالب است. برای آموزش مدل خود به مجموعه ای از کلمات نیاز دارید و برای انجام این کار می توانید به راحتی کتابخانه های پایتون را پیدا کنید. همچنین می‌توانید یک فرهنگ لغت از پیش تعریف‌شده با فهرستی از جفت‌های پرسش و پاسخی داشته باشید که می‌خواهید مدل خود را آموزش دهید.

3. سیستم تشخیص اشیاء حیات وحش

اگر در منطقه ای زندگی می کنید که مکرر حیوانات وحشی مشاهده می شود، پیاده سازی یک سیستم تشخیص اشیا برای شناسایی حضور آنها در منطقه شما مفید است. برای ساختن سیستمی مانند این مراحل زیر را دنبال کنید:

دوربین ها را در منطقه ای که می خواهید نظارت کنید نصب کنید.
تمام فیلم های ویدئویی را دانلود کرده و ذخیره کنید.
یک برنامه پایتون برای تجزیه و تحلیل تصاویر دریافتی و شناسایی حیوانات وحشی ایجاد کنید.

مایکروسافت با استفاده از داده های جمع آوری شده از دوربین های حیات وحش، یک API تشخیص تصویر ساخته است. آنها برای این منظور یک مدل از پیش آموزش دیده منبع باز به نام MegaDetector منتشر کردند.

شما می توانید از این مدل از پیش آموزش دیده در برنامه پایتون خود برای شناسایی حیوانات وحشی از تصاویر جمع آوری شده استفاده کنید. این یکی از هیجان انگیزترین پروژه های ML است که تاکنون ذکر شده است و به دلیل در دسترس بودن یک مدل از پیش آموزش دیده برای این منظور، اجرای آن بسیار ساده است.

API ها: مگا دتکتور

4. Spotify Music Recommender System

Spotify از هوش مصنوعی برای توصیه موسیقی به کاربران خود استفاده می کند. می‌توانید یک سیستم توصیه‌گر را بر اساس داده‌های در دسترس عموم در Spotify ایجاد کنید.

Spotify یک API دارد که می‌توانید از آن برای بازیابی داده‌های صوتی استفاده کنید — می‌توانید ویژگی‌هایی مانند سال انتشار، کلید، محبوبیت و هنرمند را پیدا کنید. برای دسترسی به این API در پایتون، می توانید از کتابخانه ای به نام Spotipy استفاده کنید.

همچنین می توانید از مجموعه داده Spotify در Kaggle استفاده کنید که حدود 600 هزار ردیف دارد. با استفاده از این مجموعه داده ها می توانید بهترین جایگزین را برای نوازنده مورد علاقه هر کاربر پیشنهاد دهید. همچنین می توانید بر اساس محتوا و ژانر مورد علاقه هر کاربر، توصیه هایی برای آهنگ ارائه دهید.

این سیستم توصیه‌گر را می‌توان با استفاده از خوشه‌بندی K-Means ساخت - نقاط داده مشابه گروه‌بندی می‌شوند. می توانید آهنگ هایی را با حداقل فاصله درون خوشه ای بین آنها به کاربر نهایی توصیه کنید.

هنگامی که سیستم توصیه‌کننده را ساختید، می‌توانید آن را به یک برنامه ساده پایتون تبدیل کرده و آن را مستقر کنید. می‌توانید از کاربران بخواهید آهنگ‌های مورد علاقه‌شان را در Spotify وارد کنند، سپس مدل‌های پیشنهادی خود را روی صفحه نمایش دهند که بیشترین شباهت را به آهنگ‌هایی دارند که از آن‌ها لذت می‌بردند.

مجموعه داده: Kaggle Spotify Dataset

5. تحلیل سبد بازار

تجزیه و تحلیل سبد بازار یک تکنیک محبوب است که توسط خرده فروشان برای شناسایی اقلامی که می توانند با هم فروخته شوند استفاده می کنند.

مثلا:

چند سال پیش، یک تحلیلگر تحقیقاتی ارتباط بین فروش آبجو و پوشک را شناسایی کرد. بیشتر اوقات، هر زمان که مشتری برای خرید آبجو وارد فروشگاه می شد، با هم پوشک می خرید.

به همین دلیل، فروشگاه ها شروع به فروش آبجو و پوشک با هم در یک راهرو به عنوان یک استراتژی بازاریابی برای افزایش فروش کردند. و کار کرد.

فرض بر این بود که آبجو و پوشک همبستگی بالایی دارند زیرا مردان اغلب آنها را با هم می‌خریدند. مردان برای خرید یک آبجو، همراه با چندین مورد دیگر برای خانواده (از جمله پوشک) وارد فروشگاه می شدند. به نظر می رسد این یک همبستگی تقریباً غیرممکن است، اما این اتفاق افتاد.

تجزیه و تحلیل سبد بازار می تواند به شرکت ها کمک کند تا همبستگی های پنهان بین اقلامی که اغلب با هم خریداری می شوند را شناسایی کنند. سپس این فروشگاه‌ها می‌توانند اقلام خود را به گونه‌ای قرار دهند که به افراد امکان می‌دهد راحت‌تر آنها را پیدا کنند.

می توانید از مجموعه داده های بهینه سازی سبد بازار در Kaggle برای ساخت و آموزش مدل خود استفاده کنید. متداول ترین الگوریتم مورد استفاده برای انجام تحلیل سبد بازار، الگوریتم Apriori است.

مجموعه داده: مجموعه داده های بهینه سازی سبد بازار Kaggle

6. مدت زمان سفر تاکسی نیویورک

مجموعه داده دارای متغیرهایی است که شامل مختصات شروع و پایان یک سفر تاکسی، زمان و تعداد مسافران است. هدف این پروژه ML پیش بینی مدت زمان سفر با همه این متغیرها است. مشکل رگرسیون است.

متغیرهایی مانند زمان و مختصات باید به طور مناسب از قبل پردازش شده و به قالب قابل فهم تبدیل شوند. این پروژه آنقدر که به نظر می رسد ساده نیست. این مجموعه داده همچنین دارای برخی موارد دور از ذهن است که پیش‌بینی را پیچیده‌تر می‌کند، بنابراین باید با تکنیک‌های مهندسی ویژگی‌ها آن را مدیریت کنید.

معیار ارزیابی برای این مسابقه تاکسی کاگل در نیویورک RMSLE یا خطای Log میانگین مربعات ریشه است. ارسالی برتر در Kaggle امتیاز RMSLE 0.29 را دریافت کرد و مدل پایه Kaggle دارای RMSLE 0.89 است.

شما می توانید از هر الگوریتم رگرسیون برای حل این پروژه Kaggle استفاده کنید، اما رقبای با بالاترین عملکرد این چالش یا از مدل های تقویت گرادیان یا تکنیک های یادگیری عمیق استفاده کرده اند.

مجموعه داده: مجموعه داده مدت سفر تاکسی Kaggle NYC

7. تشخیص هرزنامه در زمان واقعی

در این پروژه می توانید از تکنیک های یادگیری ماشینی برای تمایز بین پیام های اسپم (نامشروع) و ham (مشروع) استفاده کنید.

برای رسیدن به این هدف، می توانید از مجموعه داده های مجموعه هرزنامه پیامک Kaggle استفاده کنید. این مجموعه داده شامل مجموعه ای از تقریباً 5K پیام است که به عنوان هرزنامه یا ham برچسب گذاری شده اند.

شما می توانید مراحل زیر را برای ایجاد یک سیستم تشخیص هرزنامه در زمان واقعی انجام دهید:

از مجموعه داده های مجموعه هرزنامه پیامک Kaggle برای آموزش یک مدل یادگیری ماشینی استفاده کنید.
یک سرور چت روم ساده در پایتون ایجاد کنید.
مدل یادگیری ماشینی را در سرور اتاق چت خود مستقر کنید و اطمینان حاصل کنید که تمام ترافیک ورودی از مدل عبور می کند.
فقط در صورتی به پیام‌ها اجازه دهید که به عنوان ژامبون طبقه‌بندی شوند. اگر آنها هرزنامه هستند، به جای آن یک پیام خطا برگردانید.

برای ساخت مدل یادگیری ماشینی، ابتدا باید پیام های متنی موجود در مجموعه داده های مجموعه هرزنامه پیامک Kaggle را از قبل پردازش کنید. سپس، این پیام ها را به کیسه ای از کلمات تبدیل کنید تا به راحتی به مدل طبقه بندی شما برای پیش بینی منتقل شوند.

مجموعه داده: مجموعه داده های مجموعه هرزنامه پیامک Kaggle

8. اپلیکیشن پیش بینی شخصیت مایرز-بریگز

می‌توانید برنامه‌ای ایجاد کنید تا تیپ شخصیتی کاربر را بر اساس گفته‌های آن‌ها پیش‌بینی کند.

شاخص تیپ مایرز-بریگز افراد را به 16 تیپ شخصیتی مختلف دسته بندی می کند. این یکی از محبوب ترین تست های شخصیت در جهان است.

اگر سعی کنید تیپ شخصیتی خود را در اینترنت بیابید، آزمون های آنلاین زیادی پیدا خواهید کرد. پس از پاسخ دادن به حدود 20 تا 30 سوال، به یک تیپ شخصیتی اختصاص داده می شوید.

با این حال، در این پروژه، می‌توانید از یادگیری ماشینی برای پیش‌بینی تیپ شخصیتی افراد فقط بر اساس یک جمله استفاده کنید.

در اینجا مراحلی وجود دارد که می توانید برای رسیدن به این هدف بردارید:

یک مدل طبقه بندی چند کلاسه بسازید و آن را بر روی مجموعه داده Myers-Briggs در Kaggle آموزش دهید. این شامل پیش پردازش داده ها (حذف کلمات توقف و کاراکترهای غیر ضروری) و برخی مهندسی ویژگی است. برای این منظور می توانید از یک مدل یادگیری کم عمق مانند رگرسیون لجستیک یا یک مدل یادگیری عمیق مانند LSTM استفاده کنید.
شما می توانید برنامه ای ایجاد کنید که به کاربران امکان می دهد هر جمله ای را که انتخاب می کنند وارد کنند.
وزن مدل یادگیری ماشین خود را ذخیره کنید و مدل را با برنامه خود ادغام کنید. پس از اینکه کاربر نهایی کلمه ای را وارد کرد، پس از اینکه مدل پیش بینی کرد، تیپ شخصیتی او را روی صفحه نمایش دهید.

مجموعه داده: مجموعه داده نوع Kaggle MBTI

9. سیستم تشخیص حالت + سیستم توصیه کننده

آیا تا به حال غمگین شده اید و احساس می کنید که نیاز به تماشای یک چیز خنده دار دارید تا شما را خوشحال کند؟ یا آیا تا به حال آنقدر احساس ناامیدی کرده اید که نیاز به استراحت و تماشای چیزی آرامش بخش داشته باشید؟

این پروژه ترکیبی از دو پروژه کوچکتر است.

می‌توانید برنامه‌ای بسازید که حال و هوای کاربر را بر اساس فیلم زنده وب و پیشنهاد فیلم بر اساس بیان کاربر تشخیص دهد.

برای ساخت این، می توانید مراحل زیر را انجام دهید:

برنامه ای ایجاد کنید که بتواند فید ویدیوی زنده را دریافت کند.
از API تشخیص چهره پایتون برای تشخیص چهره ها و احساسات روی اشیاء در فید ویدیو استفاده کنید.
پس از طبقه بندی این احساسات به دسته های مختلف، شروع به ساختن سیستم توصیه کننده کنید. این می‌تواند مجموعه‌ای از مقادیر رمزگذاری‌شده برای هر احساس باشد، به این معنی که نیازی به استفاده از یادگیری ماشین برای توصیه‌ها ندارید.
پس از اتمام ساخت برنامه، می توانید آن را روی Heroku، Dash یا یک وب سرور مستقر کنید.

API ها: Face Recognition API

10. تجزیه و تحلیل احساسات نظرات YouTube

در این پروژه، می توانید داشبوردی ایجاد کنید که احساسات کلی یوتیوبرهای محبوب را تجزیه و تحلیل می کند.

بیش از 2 میلیارد کاربر حداقل یک بار در ماه ویدیوهای YouTube را تماشا می کنند. یوتیوبرهای محبوب با محتوای خود صدها میلیارد بازدید به دست می آورند. با این حال، بسیاری از این اینفلوئنسرها به دلیل جنجال‌هایی در گذشته مورد انتقاد قرار گرفته‌اند و درک عمومی دائما در حال تغییر است.

می توانید یک مدل تحلیل احساسات بسازید و داشبوردی ایجاد کنید تا احساسات اطراف افراد مشهور را در طول زمان تجسم کنید.

برای ساخت این، می توانید مراحل زیر را انجام دهید:

نظرات ویدیوهای YouTubers را که می خواهید تجزیه و تحلیل کنید، بنویسید.
از یک مدل تحلیل احساسات از پیش آموزش دیده برای پیش بینی هر نظر استفاده کنید.
پیش بینی های مدل را روی داشبورد تجسم کنید. حتی می توانید با استفاده از کتابخانه هایی مانند Dash (Python) یا Shiny (R) یک برنامه داشبورد ایجاد کنید.
می‌توانید با اجازه دادن به کاربران برای فیلتر کردن احساسات بر اساس چارچوب زمانی، نام YouTuber و ژانر ویدیو، داشبورد را تعاملی کنید.

API ها: Scraper نظر YouTube

خلاصه

صنعت یادگیری ماشینی بزرگ و پر از فرصت است. اگر می‌خواهید بدون پیش‌زمینه آموزشی رسمی وارد این صنعت شوید، بهترین راه برای نشان دادن مهارت‌های لازم برای انجام کار، از طریق پروژه‌ها است.

جنبه یادگیری ماشینی اکثر پروژه های ذکر شده در بالا بسیار ساده است. با توجه به دموکراتیزه شدن یادگیری ماشین، فرآیند ساخت مدل را می توان به راحتی از طریق مدل های از پیش آموزش دیده و API ها به دست آورد.

پروژه های هوش مصنوعی منبع باز مانند Keras و FastAI نیز به سرعت بخشیدن به فرآیند ساخت مدل کمک کرده اند. بخش دشوار این یادگیری ماشینی و پروژه های علم داده جمع آوری داده ها، پیش پردازش و استقرار است. اگر در یادگیری ماشین شغلی پیدا کنید، ساخت اکثر الگوریتم ها بسیار ساده خواهد بود. ایجاد یک مدل پیش بینی فروش فقط یک یا دو روز طول می کشد. شما بیشتر وقت خود را صرف یافتن منابع داده مناسب و تولید مدل های خود برای به دست آوردن ارزش تجاری خواهید کرد.

اصلی. مجدداً با اجازه دوباره ارسال شد.

مرتبط:

= پست قبلی

پست بعدی =>

داستانهای برتر 30 روز گذشته

محبوبترین

بیشترین اشتراکگذاری شده
کتاب باز مجموعه ماشین و یادگیری عمیق دانشمندان داده بدون مهارت مهندسی داده با حقیقت تلخ روبرو خواهند شد آزمون فرضیه توضیح داده شد برگه تقلب علم داده 2.0 8 ایده پروژه یادگیری عمیق برای مبتدیان