20 پروژه یادگیری ماشینی که شما را استخدام می کند
اگر میخواهید وارد بازار کار یادگیری ماشین و علم داده شوید، باید مهارتهای خود را نشان دهید، مخصوصاً اگر از طریق دورههای آنلاین و بوتکمپها خودآموز هستید. پورتفولیو پروژه راهی عالی برای تمرین حرفه جدید شما و ارائه شواهد قانع کننده ای است که نشان می دهد یک کارمند باید شما را در رقابت استخدام کند.
By خوشبو شاه، مدیر محتوا در ProjectPro.
صنعت هوش مصنوعی و یادگیری ماشینی مانند قبل در حال رونق است. از سال 2021، افزایش استفاده از هوش مصنوعی در بین مشاغل، 2.9 تریلیون دلار ارزش تجاری ایجاد خواهد کرد. هوش مصنوعی بسیاری از صنایع را در سرتاسر جهان خودکار کرده و نحوه عملکرد آنها را تغییر داده است. اکثر شرکتهای بزرگ هوش مصنوعی را برای به حداکثر رساندن بهرهوری در گردش کار خود وارد میکنند و صنایعی مانند بازاریابی و مراقبتهای بهداشتی به دلیل تجمیع هوش مصنوعی دستخوش یک تغییر پارادایم شدهاند.
منبع تصویر: می Unsplash
به همین دلیل، در چند سال گذشته تقاضای فزاینده ای برای متخصصان هوش مصنوعی وجود داشته است. از سال 100 تا 2015، تقریباً 2018٪ افزایش در آگهیهای شغلی مرتبط با هوش مصنوعی و یادگیری ماشین وجود داشته است. این تعداد از آن زمان افزایش یافته است و پیشبینی میشود در سال 2021 افزایش یابد.
اگر به دنبال ورود به صنعت یادگیری ماشینی هستید، خبر خوب این است که کمبود شغل وجود ندارد. شرکت ها به نیروی کار با استعدادی نیاز دارند که بتواند در تغییر به سمت یادگیری ماشینی پیشگام باشد. با این حال، بازار کار توسط افرادی نفوذ می کند که می خواهند به صنعت داده نفوذ کنند. از آنجایی که هیچ برنامه مدرک خاصی برای دانشآموزانی که میخواهند یادگیری ماشینی را یاد بگیرند، ارائه نمیشود، بسیاری از مشتاقان شاغل در ML خودآموز هستند.
بیش از 4 میلیون دانش آموز در دوره آنلاین یادگیری ماشین Andrew Ng ثبت نام کرده اند.
متأسفانه، ثبت نام در دوره های آنلاین یا شرکت در بوت کمپ یادگیری ماشینی به شما کمک می کند تا مفاهیم نظری را یاد بگیرید، اما شما را برای شغلی در صنعت آماده نمی کند. با آموختن تئوری، کارهای عملی بیشتری باید انجام شود. فرض کنید اصول الگوریتمهای یادگیری ماشین را میدانید — نحوه عملکرد مدلهای رگرسیون و طبقهبندی را میدانید و انواع مختلف روشهای خوشهبندی را میشناسید.
چگونه می خواهید مهارت هایی را که برای حل یک مشکل واقعی آموخته اید تمرین کنید؟ پاسخ ساده این است: تمرین، تمرین، و تمرین متنوع پروژه های یادگیری ماشینی.
پس از اتمام یادگیری مفاهیم نظری، باید کار روی پروژه های هوش مصنوعی و یادگیری ماشین را شروع کنید. این پروژهها تمرین لازم را برای تقویت مهارتهای خود در این زمینه به شما میدهند و در عین حال ارزش زیادی به مجموعه یادگیری ماشین شما میافزایند.
بدون بحث زیاد، بیایید برخی از ایده های پروژه ML را بررسی کنیم که نه تنها نمونه کار شما را خوب جلوه می دهد، بلکه مهارت های یادگیری ماشینی شما را نیز به میزان قابل توجهی بهبود می بخشد. این فهرستی از برخی از بهترین پروژههای یادگیری ماشینی برای دانشآموزان، شاغلین یادگیری ماشینی و افرادی از حوزههای غیرفنی است. شما میتوانید بدون در نظر گرفتن پیشینهتان روی این پروژهها کار کنید، به شرطی که در زمینه کدنویسی و مهارتهای یادگیری ماشین اطلاعات کافی داشته باشید. این لیستی از پروژه های یادگیری ماشینی سطح مبتدی و پیشرفته است.
اگر در صنعت داده تازه کار هستید و تجربه کمی در پروژه های واقعی دارید، قبل از اینکه به سراغ پروژه های چالش برانگیز بروید، با پروژه های ML سطح مبتدی شروع کنید.
پروژه های یادگیری ماشین برای مبتدیان
1. Kaggle تایتانیک پیش بینی
اولین پروژه در این لیست یکی از ساده ترین پروژه های ML است که می توانید انجام دهید. این پروژه برای تکمیل مبتدیان در صنعت داده توصیه می شود. مجموعه داده تایتانیک در Kaggle موجود است و لینک دانلود آن در زیر آمده است.
این مجموعه داده شامل مسافرانی است که با کشتی تایتانیک سفر کرده اند. دارای جزئیاتی مانند سن مسافر، کرایه بلیط، کابین و جنسیت است. بر اساس این اطلاعات، باید پیش بینی کنید که آیا این مسافران زنده مانده اند یا خیر.
این یک مشکل طبقه بندی باینری ساده است و تنها کاری که باید انجام دهید این است که پیش بینی کنید آیا یک مسافر خاص زنده مانده است یا خیر. بهترین چیز در مورد این مجموعه داده این است که تمام پیش پردازش ها برای شما انجام می شود. شما یک مجموعه داده خوب و تمیز برای آموزش مدل یادگیری ماشینی خود دارید.
از آنجایی که این یک مشکل طبقهبندی است، میتوانید از الگوریتمهایی مانند رگرسیون لجستیک، درختهای تصمیمگیری و جنگلهای تصادفی برای ساخت مدل پیشبینی استفاده کنید. همچنین میتوانید مدلهای تقویت گرادیان مانند طبقهبندیکننده XGBoost را برای این پروژه یادگیری ماشینی سطح مبتدی انتخاب کنید تا نتایج بهتری بگیرید.
مجموعه داده: مجموعه داده کاگل تایتانیک
2. پیش بینی قیمت خانه
اگر در یادگیری ماشینی مبتدی هستید، داده های قیمت خانه نیز برای شروع عالی است. این پروژه از مجموعه داده قیمت خانه موجود در Kaggle استفاده خواهد کرد. متغیر هدف در این مجموعه داده، قیمت یک خانه خاص است، که باید با استفاده از اطلاعاتی مانند مساحت خانه، تعداد اتاق خواب، تعداد حمام، و وسایل برقی پیش بینی کنید.
این یک مشکل رگرسیونی است و می توانید از تکنیک هایی مانند رگرسیون خطی برای ساخت مدل استفاده کنید. همچنین می توانید رویکرد پیشرفته تری داشته باشید و از یک رگرسیون تصادفی جنگل یا تقویت گرادیان برای پیش بینی قیمت خانه استفاده کنید.
این مجموعه داده دارای 80 ستون است، به استثنای متغیر هدف. شما باید از تکنیکهای کاهش ابعاد برای انتخاب دستی ویژگیها استفاده کنید، زیرا اضافه کردن متغیرهای زیاد میتواند باعث عملکرد ضعیف مدل شما شود.
همچنین متغیرهای طبقهبندی زیادی در مجموعه داده وجود دارد، بنابراین باید با استفاده از تکنیکهایی مانند رمزگذاری تک داغ یا رمزگذاری برچسب، به درستی با آنها برخورد کنید.
پس از ساخت مدل خود، می توانید پیش بینی های خود را به رقابت قیمت گذاری خانه در Kaggle ارسال کنید، زیرا هنوز باز است. بهترین RMSE بدست آمده توسط رقبا 0 است و بسیاری از افراد با کمک تکنیک های رگرسیون و تقویت گرادیان به نتایج خوبی مانند 0.15 دست یافته اند.
مجموعه داده: مجموعه داده های پیش بینی قیمت خانه Kaggle
3. پیش بینی کیفیت شراب
مجموعه داده پیش بینی کیفیت شراب نیز در میان مبتدیان صنعت داده بسیار محبوب است. در این پروژه از اسیدیته ثابت، اسیدیته فرار، الکل و چگالی برای پیش بینی کیفیت شراب قرمز استفاده خواهید کرد.
این را می توان به عنوان یک مشکل طبقه بندی یا رگرسیون در نظر گرفت. را کیفیت شراب متغیری که باید در مجموعه داده ها از 0 تا 10 پیش بینی کنید، بنابراین می توانید یک مدل رگرسیون برای پیش بینی بسازید. روش دیگری که می توانید اتخاذ کنید این است که مقادیر (از 0 تا 10) را به فواصل گسسته تقسیم کنید و آنها را به متغیرهای طبقه بندی تبدیل کنید. شما می توانید سه دسته ایجاد کنید، به عنوان مثال - کم، متوسط، و بلند.
سپس می توانید یک طبقه بندی درخت تصمیم یا هر مدل طبقه بندی برای پیش بینی بسازید. این یک مجموعه داده نسبتاً تمیز و ساده برای تمرین مهارت های یادگیری ماشینی رگرسیون و طبقه بندی شما است.
مجموعه داده: مجموعه داده های کیفیت شراب قرمز Kaggle
4. پیش بینی بیماری قلبی
اگر به دنبال کشف یک مجموعه داده در صنعت مراقبت های بهداشتی هستید، این یک مجموعه داده عالی برای شروع در سطح مبتدی است. این مجموعه داده برای پیش بینی خطر 10 ساله CHD (بیماری کرونری قلب) استفاده می شود. متغیرهای وابسته در این مجموعه داده عوامل خطر بیماری قلبی از جمله دیابت، سیگار کشیدن، فشار خون بالا و سطح کلسترول بالا هستند.
متغیر مستقل ریسک 10 ساله CHD است. این یک مشکل طبقه بندی باینری است و متغیر هدف برای بیمارانی که هرگز به بیماری قلبی مبتلا نشده اند 0 یا 1-0 و برای بیمارانی که دچار بیماری قلبی شده اند 1 است. میتوانید برخی از ویژگیها را در این مجموعه داده انتخاب کنید تا ویژگیهایی را که بیشتر در خطر ابتلا به قلب نقش دارند، شناسایی کنید. سپس، می توانید یک مدل طبقه بندی را بر روی متغیرهای مستقل قرار دهید.
این مجموعه داده بسیار نامتعادل است زیرا بسیاری از بیماران در این مجموعه داده این کار را انجام داده اند نه ابتلا به بیماری قلبی یک مجموعه داده نامتعادل باید با استفاده از تکنیکهای مهندسی ویژگیهای مناسب مانند نمونهبرداری بیش از حد، تنظیم وزن یا کمنمونهسازی مدیریت شود. اگر به درستی با آن برخورد نشود، به مدلی دست خواهید یافت که به سادگی کلاس اکثریت را برای هر نقطه داده پیش بینی می کند و نمی تواند بیمارانی را که انجام داد ابتلا به بیماری قلبی این یک مجموعه داده عالی برای شماست تا مهارت های مهندسی ویژگی و یادگیری ماشین خود را تمرین کنید.
مجموعه داده: مجموعه داده های بیماری قلبی کاگل
5. طبقه بندی رقمی MNIST
La منيست مجموعه داده ها پله شما در زمینه یادگیری عمیق است. این مجموعه داده شامل تصاویر خاکستری از ارقام دست نویس از 0 تا 9 است. وظیفه شما شناسایی رقم با استفاده از یک الگوریتم یادگیری عمیق است. این یک مشکل طبقه بندی چند کلاسه با ده کلاس خروجی ممکن است. برای انجام این طبقه بندی می توانید از CNN (شبکه عصبی کانولوشنال) استفاده کنید.
مجموعه داده MNIST در کتابخانه Keras در پایتون ساخته شده است. تنها کاری که باید انجام دهید این است که Keras را نصب کنید، کتابخانه را وارد کنید و مجموعه داده را بارگذاری کنید. این مجموعه داده حدود 60,000 تصویر دارد به طوری که می توانید حدود 80 درصد از این تصاویر را برای آموزش و 20 درصد دیگر را برای آزمایش استفاده کنید.
مجموعه داده: مجموعه داده های Kaggle Digit Recognizer
6. تحلیل احساسات داده های توییتر
مجموعه دادههای تحلیل احساسات توییتر زیادی در Kaggle وجود دارد. یکی از محبوب ترین مجموعه داده ها sentiment140 نام دارد که شامل 1.6 میلیون توییت از پیش پردازش شده است. اگر در تحلیل احساسات تازه کار هستید، این یک مجموعه داده عالی برای شروع است.
این توییت ها حاشیه نویسی شده اند و متغیر هدف احساسات است. مقادیر منحصر به فرد در این ستون 0 (منفی)، 2 (خنثی) و 4 (مثبت) است.
پس از پیش پردازش این توییتها و تبدیل آنها به بردار، میتوانید از یک مدل طبقهبندی برای آموزش آنها با احساسات مرتبط خود استفاده کنید. برای این کار می توانید از الگوریتم هایی مانند رگرسیون لجستیک، طبقه بندی درخت تصمیم یا طبقه بندی کننده XGBoost استفاده کنید.
جایگزین دیگر استفاده از یک مدل یادگیری عمیق مانند LSTM برای پیش بینی احساسات است. با این حال، این رویکرد کمی چالش برانگیزتر است و در دسته پروژه های پیشرفته قرار می گیرد.
همچنین میتوانید از این مجموعه داده برچسبگذاریشده بهعنوان پایهای برای کارهای تحلیل احساسات آینده استفاده کنید.
اگر توییتهایی دارید که میخواهید جمعآوری کنید و روی آن تحلیل احساسات انجام دهید، میتوانید از مدلی استفاده کنید که قبلاً در sentiment140 آموزش داده شده است تا پیشبینیهای آینده را انجام دهید.
مجموعه داده: مجموعه داده Kaggle Sentiment140
7. پیش بینی دیابت هندی پیما
مجموعه دادههای دیابت هندی Pima برای پیشبینی اینکه آیا بیمار مبتلا به دیابت بر اساس اندازهگیریهای تشخیصی است یا خیر، استفاده میشود.
این مدل بر اساس متغیرهایی مانند BMI، سن و انسولین، دیابت را در بیماران پیشبینی میکند. این مجموعه داده دارای نه متغیر است - هشت متغیر مستقل و یک متغیر هدف.
متغیر هدف "دیابت'، بنابراین شما 1 را برای وجود دیابت یا 0 را برای عدم وجود دیابت پیش بینی خواهید کرد.
این یک مشکل طبقه بندی برای آزمایش با مدل هایی مانند رگرسیون لجستیک، طبقه بندی درخت تصمیم، یا طبقه بندی جنگل تصادفی است.
همه متغیرهای مستقل در این مجموعه داده عددی هستند، بنابراین اگر حداقل تجربه مهندسی ویژگی را دارید، این مجموعه داده عالی برای شروع است.
این یک مجموعه داده Kaggle است که برای مبتدیان باز است. آموزش های آنلاین زیادی وجود دارد که شما را در کدنویسی راه حل در پایتون و R راهنمایی می کند. این آموزش های نوت بوک راهی عالی برای یادگیری و کثیف کردن دستان شما هستند تا بتوانید به پروژه های پیچیده تر بروید.
مجموعه داده: مجموعه داده های دیابت هندی Kaggle Pima
8. طبقه بندی سرطان سینه
مجموعه داده طبقه بندی سرطان سینه در Kaggle روش عالی دیگری برای تمرین یادگیری ماشینی و مهارت های هوش مصنوعی است.
اکثر مشکلات یادگیری ماشینی تحت نظارت در دنیای واقعی، مشکلات طبقه بندی مانند این هستند. یک چالش کلیدی در شناسایی سرطان سینه، ناتوانی در تمایز بین تومورهای خوش خیم (غیر سرطانی) و بدخیم (سرطانی) است. مجموعه داده دارای متغیرهایی مانند «شعاع_میانگین» و «مساحت_میانگین» تومور است، و شما باید بر اساس این ویژگیها طبقهبندی کنید که آیا تومور سرطانی است یا خیر. کار با این مجموعه داده نسبتاً آسان است زیرا نیازی به انجام پیش پردازش داده قابل توجهی نیست. همچنین یک مجموعه داده متعادل است که وظیفه شما را قابل مدیریت تر می کند زیرا نیازی به انجام مهندسی ویژگی های زیادی ندارید.
آموزش یک طبقه بندی کننده رگرسیون لجستیک ساده بر روی این مجموعه داده می تواند دقتی تا 0.90 به شما بدهد.
مجموعه داده: مجموعه داده های طبقه بندی سرطان سینه Kaggle
9. پیش بینی باکس آفیس TMDB
این مجموعه داده Kaggle یک راه عالی برای تمرین مهارت های رگرسیون شما است. این شامل حدود 7000 فیلم است و شما باید از متغیرهای موجود برای پیش بینی درآمد فیلم استفاده کنید.
نقاط داده موجود شامل بازیگران، خدمه، بودجه، زبان ها و تاریخ انتشار است. 23 متغیر در مجموعه داده وجود دارد که یکی از آنها متغیر هدف است.
یک مدل رگرسیون خطی پایه می تواند یک R-squared بیش از 0.60 به شما بدهد، بنابراین می توانید از آن به عنوان مدل پیش بینی پایه خود استفاده کنید. سعی کنید با استفاده از تکنیک هایی مانند رگرسیون XGBoost یا Light GBM این امتیاز را شکست دهید.
این مجموعه داده کمی پیچیدهتر از مجموعه قبلی است، زیرا برخی از ستونها دادههایی در فرهنگ لغتهای تودرتو دارند. برای استخراج این داده ها در قالبی قابل استفاده برای آموزش یک مدل بر روی آن، باید پیش پردازش بیشتری انجام دهید.
پیشبینی درآمد یک پروژه عالی برای نمایش در مجموعه شماست، زیرا ارزش تجاری را برای حوزههای مختلف خارج از صنعت فیلم فراهم میکند.
مجموعه داده: مجموعه داده های پیش بینی باکس آفیس Kaggle TMDB
10. بخش بندی مشتری در پایتون
مجموعه داده تقسیمبندی مشتری در Kaggle یک راه عالی برای شروع یادگیری ماشینی بدون نظارت است. این مجموعه داده شامل جزئیات مشتری مانند سن، جنسیت، درآمد سالانه و امتیاز هزینه آنها است.
شما باید از این متغیرها برای ایجاد بخش های مشتری استفاده کنید. مشتریانی که شبیه هم هستند باید در خوشه های مشابه گروه بندی شوند. می توانید از الگوریتم هایی مانند خوشه بندی K-Means یا خوشه بندی سلسله مراتبی برای این کار استفاده کنید. مدلهای تقسیمبندی مشتری میتوانند ارزش تجاری را ارائه دهند.
شرکت ها اغلب می خواهند مشتریان خود را جدا کنند تا برای هر نوع مشتری تکنیک های بازاریابی متفاوتی ارائه دهند.
اهداف اصلی این مجموعه داده عبارتند از:
- دستیابی به تقسیم بندی مشتری با استفاده از تکنیک های یادگیری ماشین
- مشتریان هدف خود را برای استراتژی های بازاریابی مختلف شناسایی کنید
- درک نحوه عملکرد استراتژی های بازاریابی در دنیای واقعی
ایجاد یک مدل خوشهبندی برای این کار میتواند به پرتفوی شما کمک کند، و اگر به دنبال شغلی مرتبط با هوش مصنوعی در صنعت بازاریابی هستید، تقسیمبندی مهارت بسیار خوبی است.
مجموعه داده: مجموعه داده های تقسیم بندی مشتریان مرکز خرید Kaggle
پروژه های یادگیری ماشین سطح متوسط/پیشرفته برای رزومه شما
پس از اتمام کار بر روی پروژه های یادگیری ماشینی ساده مانند موارد ذکر شده در بالا، می توانید به پروژه های چالش برانگیزتر بروید.
1. پیش بینی فروش
پیشبینی سری زمانی یک تکنیک یادگیری ماشینی است که اغلب در صنعت استفاده میشود. استفاده از دادههای گذشته برای پیشبینی فروش آینده، موارد استفاده تجاری زیادی دارد. برای تمرین این پروژه می توان از مجموعه داده پیش بینی تقاضای Kaggle استفاده کرد.
این مجموعه داده دارای داده های فروش 5 ساله است و شما باید فروش را برای سه ماه آینده پیش بینی کنید. ده فروشگاه مختلف در مجموعه داده فهرست شده است و 50 مورد در هر فروشگاه وجود دارد.
برای پیشبینی فروش، میتوانید روشهای مختلفی را امتحان کنید - ARIMA، خودرگرسیون برداری یا یادگیری عمیق. یکی از روش هایی که می توانید برای این پروژه استفاده کنید، اندازه گیری افزایش فروش برای هر ماه و ثبت آن است. سپس، مدل را بر اساس تفاوت بین فروش ماه قبل و ماه فعلی بسازید. در نظر گرفتن عواملی مانند تعطیلات و فصلی بودن می تواند عملکرد مدل یادگیری ماشین شما را بهبود بخشد.
مجموعه داده: پیش بینی تقاضای کالای فروشگاه Kaggle
2. چت بات خدمات مشتری
یک چت ربات خدمات مشتری از هوش مصنوعی و تکنیک های یادگیری ماشین برای پاسخ دادن به مشتریان استفاده می کند و نقش یک نماینده انسانی را بر عهده می گیرد. یک چت بات باید بتواند به سوالات ساده پاسخ دهد تا نیازهای مشتری را برآورده کند.
در حال حاضر سه نوع چت ربات وجود دارد که می توانید بسازید:
- چت ربات های مبتنی بر قانون - این چت ربات ها هوشمند نیستند. آنها با مجموعه ای از قوانین از پیش تعریف شده تغذیه می شوند و فقط بر اساس این قوانین به کاربران پاسخ می دهند. برخی از چتباتها نیز با مجموعهای از پرسشها و پاسخهای از پیش تعریفشده ارائه میشوند و نمیتوانند به پرسشهایی که خارج از این دامنه هستند پاسخ دهند.
- رباتهای چت مستقل – چترباتهای مستقل از یادگیری ماشینی برای پردازش و تجزیه و تحلیل درخواست کاربر و ارائه پاسخهای متناسب استفاده میکنند.
- ربات های چت NLP - این چت ربات ها می توانند الگوهای کلمات را درک کنند و بین ترکیب های مختلف کلمات تمایز قائل شوند. آنها از هر سه نوع ربات چت پیشرفته ترین هستند، زیرا می توانند بر اساس الگوهای کلماتی که بر روی آنها آموزش دیده اند به آنچه که در مرحله بعد باید بگویند، بیایند.
یک ربات چت NLP یک ایده پروژه یادگیری ماشینی جالب است. برای آموزش مدل خود به مجموعه ای از کلمات نیاز دارید و برای انجام این کار می توانید به راحتی کتابخانه های پایتون را پیدا کنید. همچنین میتوانید یک فرهنگ لغت از پیش تعریفشده با فهرستی از جفتهای پرسش و پاسخی داشته باشید که میخواهید مدل خود را آموزش دهید.
3. سیستم تشخیص اشیاء حیات وحش
اگر در منطقه ای زندگی می کنید که مکرر حیوانات وحشی مشاهده می شود، پیاده سازی یک سیستم تشخیص اشیا برای شناسایی حضور آنها در منطقه شما مفید است. برای ساختن سیستمی مانند این مراحل زیر را دنبال کنید:
- دوربین ها را در منطقه ای که می خواهید نظارت کنید نصب کنید.
- تمام فیلم های ویدئویی را دانلود کرده و ذخیره کنید.
- یک برنامه پایتون برای تجزیه و تحلیل تصاویر دریافتی و شناسایی حیوانات وحشی ایجاد کنید.
مایکروسافت با استفاده از داده های جمع آوری شده از دوربین های حیات وحش، یک API تشخیص تصویر ساخته است. آنها برای این منظور یک مدل از پیش آموزش دیده منبع باز به نام MegaDetector منتشر کردند.
شما می توانید از این مدل از پیش آموزش دیده در برنامه پایتون خود برای شناسایی حیوانات وحشی از تصاویر جمع آوری شده استفاده کنید. این یکی از هیجان انگیزترین پروژه های ML است که تاکنون ذکر شده است و به دلیل در دسترس بودن یک مدل از پیش آموزش دیده برای این منظور، اجرای آن بسیار ساده است.
API ها: مگا دتکتور
4. Spotify Music Recommender System
Spotify از هوش مصنوعی برای توصیه موسیقی به کاربران خود استفاده می کند. میتوانید یک سیستم توصیهگر را بر اساس دادههای در دسترس عموم در Spotify ایجاد کنید.
Spotify یک API دارد که میتوانید از آن برای بازیابی دادههای صوتی استفاده کنید — میتوانید ویژگیهایی مانند سال انتشار، کلید، محبوبیت و هنرمند را پیدا کنید. برای دسترسی به این API در پایتون، می توانید از کتابخانه ای به نام Spotipy استفاده کنید.
همچنین می توانید از مجموعه داده Spotify در Kaggle استفاده کنید که حدود 600 هزار ردیف دارد. با استفاده از این مجموعه داده ها می توانید بهترین جایگزین را برای نوازنده مورد علاقه هر کاربر پیشنهاد دهید. همچنین می توانید بر اساس محتوا و ژانر مورد علاقه هر کاربر، توصیه هایی برای آهنگ ارائه دهید.
این سیستم توصیهگر را میتوان با استفاده از خوشهبندی K-Means ساخت - نقاط داده مشابه گروهبندی میشوند. می توانید آهنگ هایی را با حداقل فاصله درون خوشه ای بین آنها به کاربر نهایی توصیه کنید.
هنگامی که سیستم توصیهکننده را ساختید، میتوانید آن را به یک برنامه ساده پایتون تبدیل کرده و آن را مستقر کنید. میتوانید از کاربران بخواهید آهنگهای مورد علاقهشان را در Spotify وارد کنند، سپس مدلهای پیشنهادی خود را روی صفحه نمایش دهند که بیشترین شباهت را به آهنگهایی دارند که از آنها لذت میبردند.
مجموعه داده: Kaggle Spotify Dataset
5. تحلیل سبد بازار
تجزیه و تحلیل سبد بازار یک تکنیک محبوب است که توسط خرده فروشان برای شناسایی اقلامی که می توانند با هم فروخته شوند استفاده می کنند.
مثلا:
چند سال پیش، یک تحلیلگر تحقیقاتی ارتباط بین فروش آبجو و پوشک را شناسایی کرد. بیشتر اوقات، هر زمان که مشتری برای خرید آبجو وارد فروشگاه می شد، با هم پوشک می خرید.
به همین دلیل، فروشگاه ها شروع به فروش آبجو و پوشک با هم در یک راهرو به عنوان یک استراتژی بازاریابی برای افزایش فروش کردند. و کار کرد.
فرض بر این بود که آبجو و پوشک همبستگی بالایی دارند زیرا مردان اغلب آنها را با هم میخریدند. مردان برای خرید یک آبجو، همراه با چندین مورد دیگر برای خانواده (از جمله پوشک) وارد فروشگاه می شدند. به نظر می رسد این یک همبستگی تقریباً غیرممکن است، اما این اتفاق افتاد.
تجزیه و تحلیل سبد بازار می تواند به شرکت ها کمک کند تا همبستگی های پنهان بین اقلامی که اغلب با هم خریداری می شوند را شناسایی کنند. سپس این فروشگاهها میتوانند اقلام خود را به گونهای قرار دهند که به افراد امکان میدهد راحتتر آنها را پیدا کنند.
می توانید از مجموعه داده های بهینه سازی سبد بازار در Kaggle برای ساخت و آموزش مدل خود استفاده کنید. متداول ترین الگوریتم مورد استفاده برای انجام تحلیل سبد بازار، الگوریتم Apriori است.
مجموعه داده: مجموعه داده های بهینه سازی سبد بازار Kaggle
6. مدت زمان سفر تاکسی نیویورک
مجموعه داده دارای متغیرهایی است که شامل مختصات شروع و پایان یک سفر تاکسی، زمان و تعداد مسافران است. هدف این پروژه ML پیش بینی مدت زمان سفر با همه این متغیرها است. مشکل رگرسیون است.
متغیرهایی مانند زمان و مختصات باید به طور مناسب از قبل پردازش شده و به قالب قابل فهم تبدیل شوند. این پروژه آنقدر که به نظر می رسد ساده نیست. این مجموعه داده همچنین دارای برخی موارد دور از ذهن است که پیشبینی را پیچیدهتر میکند، بنابراین باید با تکنیکهای مهندسی ویژگیها آن را مدیریت کنید.
معیار ارزیابی برای این مسابقه تاکسی کاگل در نیویورک RMSLE یا خطای Log میانگین مربعات ریشه است. ارسالی برتر در Kaggle امتیاز RMSLE 0.29 را دریافت کرد و مدل پایه Kaggle دارای RMSLE 0.89 است.
شما می توانید از هر الگوریتم رگرسیون برای حل این پروژه Kaggle استفاده کنید، اما رقبای با بالاترین عملکرد این چالش یا از مدل های تقویت گرادیان یا تکنیک های یادگیری عمیق استفاده کرده اند.
مجموعه داده: مجموعه داده مدت سفر تاکسی Kaggle NYC
7. تشخیص هرزنامه در زمان واقعی
در این پروژه می توانید از تکنیک های یادگیری ماشینی برای تمایز بین پیام های اسپم (نامشروع) و ham (مشروع) استفاده کنید.
برای رسیدن به این هدف، می توانید از مجموعه داده های مجموعه هرزنامه پیامک Kaggle استفاده کنید. این مجموعه داده شامل مجموعه ای از تقریباً 5K پیام است که به عنوان هرزنامه یا ham برچسب گذاری شده اند.
شما می توانید مراحل زیر را برای ایجاد یک سیستم تشخیص هرزنامه در زمان واقعی انجام دهید:
- از مجموعه داده های مجموعه هرزنامه پیامک Kaggle برای آموزش یک مدل یادگیری ماشینی استفاده کنید.
- یک سرور چت روم ساده در پایتون ایجاد کنید.
- مدل یادگیری ماشینی را در سرور اتاق چت خود مستقر کنید و اطمینان حاصل کنید که تمام ترافیک ورودی از مدل عبور می کند.
- فقط در صورتی به پیامها اجازه دهید که به عنوان ژامبون طبقهبندی شوند. اگر آنها هرزنامه هستند، به جای آن یک پیام خطا برگردانید.
برای ساخت مدل یادگیری ماشینی، ابتدا باید پیام های متنی موجود در مجموعه داده های مجموعه هرزنامه پیامک Kaggle را از قبل پردازش کنید. سپس، این پیام ها را به کیسه ای از کلمات تبدیل کنید تا به راحتی به مدل طبقه بندی شما برای پیش بینی منتقل شوند.
مجموعه داده: مجموعه داده های مجموعه هرزنامه پیامک Kaggle
8. اپلیکیشن پیش بینی شخصیت مایرز-بریگز
میتوانید برنامهای ایجاد کنید تا تیپ شخصیتی کاربر را بر اساس گفتههای آنها پیشبینی کند.
شاخص تیپ مایرز-بریگز افراد را به 16 تیپ شخصیتی مختلف دسته بندی می کند. این یکی از محبوب ترین تست های شخصیت در جهان است.
اگر سعی کنید تیپ شخصیتی خود را در اینترنت بیابید، آزمون های آنلاین زیادی پیدا خواهید کرد. پس از پاسخ دادن به حدود 20 تا 30 سوال، به یک تیپ شخصیتی اختصاص داده می شوید.
با این حال، در این پروژه، میتوانید از یادگیری ماشینی برای پیشبینی تیپ شخصیتی افراد فقط بر اساس یک جمله استفاده کنید.
در اینجا مراحلی وجود دارد که می توانید برای رسیدن به این هدف بردارید:
- یک مدل طبقه بندی چند کلاسه بسازید و آن را بر روی مجموعه داده Myers-Briggs در Kaggle آموزش دهید. این شامل پیش پردازش داده ها (حذف کلمات توقف و کاراکترهای غیر ضروری) و برخی مهندسی ویژگی است. برای این منظور می توانید از یک مدل یادگیری کم عمق مانند رگرسیون لجستیک یا یک مدل یادگیری عمیق مانند LSTM استفاده کنید.
- شما می توانید برنامه ای ایجاد کنید که به کاربران امکان می دهد هر جمله ای را که انتخاب می کنند وارد کنند.
- وزن مدل یادگیری ماشین خود را ذخیره کنید و مدل را با برنامه خود ادغام کنید. پس از اینکه کاربر نهایی کلمه ای را وارد کرد، پس از اینکه مدل پیش بینی کرد، تیپ شخصیتی او را روی صفحه نمایش دهید.
مجموعه داده: مجموعه داده نوع Kaggle MBTI
9. سیستم تشخیص حالت + سیستم توصیه کننده
آیا تا به حال غمگین شده اید و احساس می کنید که نیاز به تماشای یک چیز خنده دار دارید تا شما را خوشحال کند؟ یا آیا تا به حال آنقدر احساس ناامیدی کرده اید که نیاز به استراحت و تماشای چیزی آرامش بخش داشته باشید؟
این پروژه ترکیبی از دو پروژه کوچکتر است.
میتوانید برنامهای بسازید که حال و هوای کاربر را بر اساس فیلم زنده وب و پیشنهاد فیلم بر اساس بیان کاربر تشخیص دهد.
برای ساخت این، می توانید مراحل زیر را انجام دهید:
- برنامه ای ایجاد کنید که بتواند فید ویدیوی زنده را دریافت کند.
- از API تشخیص چهره پایتون برای تشخیص چهره ها و احساسات روی اشیاء در فید ویدیو استفاده کنید.
- پس از طبقه بندی این احساسات به دسته های مختلف، شروع به ساختن سیستم توصیه کننده کنید. این میتواند مجموعهای از مقادیر رمزگذاریشده برای هر احساس باشد، به این معنی که نیازی به استفاده از یادگیری ماشین برای توصیهها ندارید.
- پس از اتمام ساخت برنامه، می توانید آن را روی Heroku، Dash یا یک وب سرور مستقر کنید.
API ها: Face Recognition API
10. تجزیه و تحلیل احساسات نظرات YouTube
در این پروژه، می توانید داشبوردی ایجاد کنید که احساسات کلی یوتیوبرهای محبوب را تجزیه و تحلیل می کند.
بیش از 2 میلیارد کاربر حداقل یک بار در ماه ویدیوهای YouTube را تماشا می کنند. یوتیوبرهای محبوب با محتوای خود صدها میلیارد بازدید به دست می آورند. با این حال، بسیاری از این اینفلوئنسرها به دلیل جنجالهایی در گذشته مورد انتقاد قرار گرفتهاند و درک عمومی دائما در حال تغییر است.
می توانید یک مدل تحلیل احساسات بسازید و داشبوردی ایجاد کنید تا احساسات اطراف افراد مشهور را در طول زمان تجسم کنید.
برای ساخت این، می توانید مراحل زیر را انجام دهید:
- نظرات ویدیوهای YouTubers را که می خواهید تجزیه و تحلیل کنید، بنویسید.
- از یک مدل تحلیل احساسات از پیش آموزش دیده برای پیش بینی هر نظر استفاده کنید.
- پیش بینی های مدل را روی داشبورد تجسم کنید. حتی می توانید با استفاده از کتابخانه هایی مانند Dash (Python) یا Shiny (R) یک برنامه داشبورد ایجاد کنید.
- میتوانید با اجازه دادن به کاربران برای فیلتر کردن احساسات بر اساس چارچوب زمانی، نام YouTuber و ژانر ویدیو، داشبورد را تعاملی کنید.
API ها: Scraper نظر YouTube
خلاصه
صنعت یادگیری ماشینی بزرگ و پر از فرصت است. اگر میخواهید بدون پیشزمینه آموزشی رسمی وارد این صنعت شوید، بهترین راه برای نشان دادن مهارتهای لازم برای انجام کار، از طریق پروژهها است.
جنبه یادگیری ماشینی اکثر پروژه های ذکر شده در بالا بسیار ساده است. با توجه به دموکراتیزه شدن یادگیری ماشین، فرآیند ساخت مدل را می توان به راحتی از طریق مدل های از پیش آموزش دیده و API ها به دست آورد.
پروژه های هوش مصنوعی منبع باز مانند Keras و FastAI نیز به سرعت بخشیدن به فرآیند ساخت مدل کمک کرده اند. بخش دشوار این یادگیری ماشینی و پروژه های علم داده جمع آوری داده ها، پیش پردازش و استقرار است. اگر در یادگیری ماشین شغلی پیدا کنید، ساخت اکثر الگوریتم ها بسیار ساده خواهد بود. ایجاد یک مدل پیش بینی فروش فقط یک یا دو روز طول می کشد. شما بیشتر وقت خود را صرف یافتن منابع داده مناسب و تولید مدل های خود برای به دست آوردن ارزش تجاری خواهید کرد.
اصلی. مجدداً با اجازه دوباره ارسال شد.
مرتبط:
منبع: https://www.kdnuggets.com/2021/09/20-machine-learning-projects-hired.html
- "
- &
- 000
- 2021
- 9
- دسترسی
- حساب
- اضافی
- AI
- الکل
- الگوریتم
- الگوریتم
- معرفی
- اجازه دادن
- تحلیل
- روانکاو
- حیوانات
- API
- رابط های برنامه کاربردی
- نرم افزار
- کاربرد
- برنامه های
- محدوده
- دور و بر
- هوش مصنوعی
- هنرمند
- سمعی
- خودکار
- دسترس پذیری
- کیسه کلمات
- خط مقدم
- مبانی
- آبجو
- بهترین
- بیلیون
- خون
- تقویت
- جعبه
- دفتر جعبه
- سرطان پستان
- ساختن
- بنا
- کسب و کار
- کسب و کار
- خرید
- دوربین
- سرطان
- موارد
- مشاهیر
- به چالش
- chatbot
- chatbots
- طبقه بندی
- CNN
- برنامه نویسی
- ستون
- نظرات
- شرکت
- رقابت
- رقبای
- تثبیت
- محتوا
- شبکه عصبی حلقوی
- زن و شوهر
- خدمات مشتری
- مشتریان
- خط تیره
- داشبورد
- داده ها
- علم اطلاعات
- تاریخ
- روز
- مقدار
- درخت تصمیم
- یادگیری عمیق
- تقاضا
- پیش بینی تقاضا
- کشف
- دیابت
- DID
- رقمی
- رقم
- مرض
- فاصله
- حوزه
- آموزش
- احساسات
- مهندسی
- وارد می شود
- اکسل
- تجربه
- تجربه
- چهره
- تشخیص چهره
- چهره ها
- خانواده
- ویژگی
- امکانات
- تغذیه
- فیلم
- آتش
- نام خانوادگی
- مناسب
- به دنبال
- قالب
- کامل
- خنده دار
- آینده
- جنس
- اهداف
- خوب
- سیاه و سفید
- بزرگ
- بهداشت و درمان
- صنعت بهداشت و درمان
- زیاد
- استخدام
- تعطیلات
- خانه
- خانواده
- چگونه
- HTTPS
- صدها نفر
- اندیشه
- شناسایی
- شناسایی
- تصویر
- شناسایی تصویر
- از جمله
- درآمد
- افزایش
- لوازم
- صنعت
- تاثیرگذاران
- اطلاعات
- اطلاعات
- تعاملی
- اینترنت
- IT
- کار
- شغل ها
- کراس
- کلید
- زبان ها
- بزرگ
- یاد گرفتن
- آموخته
- یادگیری
- سطح
- کتابخانه
- سبک
- ارتباط دادن
- لینک
- فهرست
- بار
- طولانی
- فراگیری ماشین
- تکنیک های یادگیری ماشین
- اکثریت
- ساخت
- بازار
- بازار یابی (Marketing)
- صنعت بازاریابی
- اندازه
- متوسط
- مردان
- مایکروسافت
- میلیون
- ML
- مدل
- ماه
- حالت
- محبوبترین
- حرکت
- سینما
- فیلم ها
- موسیقی
- نوازنده
- شبکه
- عصبی
- شبکه های عصبی
- اخبار
- nlp
- نیویورک
- تشخیص شی
- ارائه
- آنلاین
- دوره های آنلاین
- باز کن
- فرصت ها
- دیگر
- نمونه
- pacientes
- مردم
- کارایی
- شخصیت
- محبوب
- مقام
- پیش گویی
- پیش بینی
- در حال حاضر
- فشار
- قیمت
- پیش بینی قیمت
- قیمت گذاری
- تولید
- بهره وری
- حرفه ای
- برنامه
- پروژه
- پروژه ها
- عمومی
- پــایتــون
- کیفیت
- دنیای واقعی
- زمان واقعی
- رگرسیون
- تحقیق
- نتایج
- خرده فروشان
- درامد
- خطر
- عوامل خطر
- قوانین
- حراجی
- علم
- دانشمندان
- پرده
- احساس
- تنظیم
- تغییر
- ساده
- مهارت ها
- SMS
- So
- فروخته شده
- حل
- اسپم
- سرعت
- خرج کردن
- هزینه
- Spotify
- شروع
- آغاز شده
- opbevare
- پرده
- داستان
- استراتژی
- سیستم
- هدف
- تست
- تست
- مبانی
- جهان
- زمان
- بالا
- ترافیک
- آموزش
- آموزش
- توییتر
- کاربران
- آب و برق
- ارزش
- تصویری
- فیلم های
- تماشا کردن
- وب
- وب سرور
- WHO
- حیوانات وحشی
- شراب
- در داخل
- کلمات
- مهاجرت کاری
- گردش کار
- نیروی کار
- جهان
- X
- سال
- سال
- یوتیوب
- youtuber