Перевидано Платоном

читають: 0

20 проектів машинного навчання, які допоможуть вам прийняти роботу

Ключові слова: кар'єра, машинне навчання, Проекти

Якщо ви хочете пробитися на ринок праці машинного навчання та науки про дані, то вам потрібно буде продемонструвати кваліфікацію своїх навичок, особливо якщо ви займаєтеся самоучкою за допомогою онлайн-курсів і буткемпів. Портфоліо проектів — це чудовий спосіб попрактикувати свою нове ремесло та запропонувати переконливі докази того, що співробітник повинен найняти вас замість конкуренції.

коментарі

By Хушбу -шах, контент-менеджер в ProjectPro.

Індустрія штучного інтелекту та машинного навчання процвітає як ніколи раніше. Станом на 2021 рік збільшення використання штучного інтелекту в підприємствах створить 2.9 трильйона доларів вартості бізнесу. ШІ автоматизував багато галузей по всьому світу та змінив спосіб їх роботи. Більшість великих компаній використовують штучний інтелект, щоб максимізувати продуктивність у своєму робочому процесі, а такі галузі, як маркетинг і охорона здоров’я, зазнали зміни парадигми через консолідацію AI.

Джерело зображення: Unsplash

У зв’язку з цим останніми роками зростає попит на професіоналів у сфері штучного інтелекту. З 100 по 2015 рік кількість вакансій, пов’язаних із штучним інтелектом та машинним навчанням, збільшилася майже на 2018%. З тих пір ця кількість зросла і, за прогнозами, зросте у 2021 році.

Якщо ви прагнете пробитися в індустрію машинного навчання, хороша новина полягає в тому, що не вистачає робочих місць. Компанії потребують талановитої робочої сили, яка здатна піонером переходу на машинне навчання. Однак на ринок праці проникають люди, які хочуть пробитися в індустрію даних. Оскільки жодна спеціальна освітня програма не обслуговувала студентів, які хочуть вивчати машинне навчання, багато бажаючих практиків ML є самоучками.

На онлайн-курс машинного навчання Ендрю Нга навчається понад 4 мільйони студентів.

На жаль, зарахування на онлайн-курси або проходження Bootcamp з машинного навчання допоможе вам вивчити теоретичні поняття, але не готує вас до роботи в галузі. Вивчивши теорію, потрібно ще багато практичних робіт. Скажімо, ви знаєте основи алгоритмів машинного навчання — ви розумієте, як працюють моделі регресії та класифікації, і ви знаєте різні типи методів кластеризації.

Як ви збираєтеся практикувати навички, які ви навчилися, щоб вирішити реальну проблему? Відповідь проста: практика, практика і практика різноманітні проекти машинного навчання.

Після того, як ви закінчите вивчати теоретичні поняття, ви повинні почати працювати над проектами AI та машинного навчання. Ці проекти дадуть вам практику, необхідну для відточування ваших навичок у цій галузі, і водночас є чудовим додатком до вашого портфоліо машинного навчання.

Без зайвих зусиль, давайте розглянемо деякі ідеї проектів ML, які не тільки зроблять ваше портфоліо гарним, але й значно покращать ваші навички машинного навчання. Це підбірний список деяких з найкращих проектів машинного навчання для студентів, початківців практиків машинного навчання та осіб із нетехнічних областей. Ви можете працювати над цими проектами незалежно від вашого досвіду, якщо у вас є певні навички програмування та ноу-хау щодо машинного навчання. Це список проектів машинного навчання для початківців і просунутих.

Якщо ви новачок в індустрії даних і маєте мало досвіду роботи з реальними проектами, почніть з проектів ML для початківців, перш ніж переходити до більш складних.

Проекти машинного навчання для початківців

1. Kaggle Titanic Prediction

Перший проект у цьому списку є одним із найпростіших проектів ML, які ви можете взяти. Цей проект рекомендовано для початківців в індустрії даних. Набір даних Titanic доступний на Kaggle, і посилання для його завантаження наведено нижче.

Це набір даних про пасажирів, які подорожували на Титаніку. У ньому є такі деталі, як вік пасажира, вартість квитка, салон та стать. На основі цієї інформації вам потрібно буде спрогнозувати, вижили ці пасажири чи ні.

Це проста проблема бінарної класифікації, і все, що вам потрібно зробити, це передбачити, чи вижив певний пасажир. Найкраще в цьому наборі даних те, що вся попередня обробка виконується за вас. У вас є гарний, чистий набір даних для навчання моделі машинного навчання.

Оскільки це проблема класифікації, ви можете використовувати такі алгоритми, як логістична регресія, дерева рішень і випадкові ліси, щоб побудувати прогнозну модель. Ви також можете вибрати моделі підвищення градієнта, як-от класифікатор XGBoost, для цього проекту машинного навчання початківця, щоб отримати кращі результати.

Набір даних: Набір даних Kaggle Titanic

2. Прогноз ціни на будинок

Дані про ціни на житло також чудово підходять для початку, якщо ви новачок у машинному навчанні. У цьому проекті використовуватиметься набір даних про ціни на житло, доступний на Kaggle. Цільовою змінною в цьому наборі даних є ціна конкретного будинку, яку вам потрібно буде передбачити, використовуючи таку інформацію, як площа будинку, кількість спалень, кількість ванних кімнат та комунальні послуги.

Це проблема регресії, і для побудови моделі можна використовувати такі методи, як лінійна регресія. Ви також можете застосувати більш розширений підхід і використовувати випадковий регресор лісу або підвищення градієнта для прогнозування цін на житло.

Цей набір даних має 80 стовпців, не враховуючи цільову змінну. Вам потрібно буде використовувати деякі методи зменшення розмірності для ручного вибору функцій, оскільки додавання занадто великої кількості змінних може призвести до поганої роботи моделі.

У наборі даних також є багато категорійних змінних, тому вам потрібно правильно працювати з ними, використовуючи такі методи, як одноразове кодування або кодування міток.

Після створення моделі ви можете подати свої прогнози на конкурс цін на житло в Kaggle, оскільки він все ще відкритий. Найкращий RMSE, досягнутий конкурентами, дорівнює 0, і багато людей досягли хороших результатів, наприклад 0.15, за допомогою методів регресії та підвищення градієнта.

Набір даних: Набір даних прогнозування ціни на будинок Kaggle

3. Прогноз якості вина

Набір даних прогнозування якості вина також дуже популярний серед новачків у галузі даних. У цьому проекті ви будете використовувати фіксовану кислотність, летючу кислотність, алкоголь і щільність для прогнозування якості червоного вина.

Це можна розглядати як проблему класифікації або регресії. The якість вина Змінна, яку потрібно передбачити в наборі даних, коливається від 0 до 10, тому ви можете побудувати регресійну модель для прогнозування. Інший підхід, який ви можете застосувати, — розбити значення (від 0–10) на дискретні інтервали та перетворити їх у категоріальні змінні. Ви можете створити три категорії, наприклад — низький, середній, та висока.

Потім ви можете створити класифікатор дерева рішень або будь-яку модель класифікації, щоб зробити прогноз. Це відносно чистий і простий набір даних, щоб відпрацьовувати ваші навички машинного навчання регресії та класифікації.

Набір даних: Набір даних про якість червоного вина Kaggle

4. Прогноз захворювань серця

Якщо ви хочете вивчити набір даних в галузі охорони здоров’я, це чудовий набір даних для початківців. Цей набір даних використовується для прогнозування 10-річного ризику ІХС (ішемічної хвороби серця). Залежними змінними в цьому наборі даних є фактори ризику серцево-судинних захворювань, включаючи діабет, куріння, високий кров’яний тиск і високий рівень холестерину.

Незалежною змінною є 10-річний ризик ІХС. Це проблема бінарної класифікації, і цільовою змінною є або 0, або 1–0 для пацієнтів, у яких ніколи не розвивалося захворювання серця, і 1 для пацієнтів, у яких це було. Ви можете виконати певний вибір функцій у цьому наборі даних, щоб визначити функції, які найбільше сприяють ризику серця. Потім ви можете налаштувати модель класифікації на незалежні змінні.

Цей набір даних дуже незбалансований, тому що багато пацієнтів у цьому наборі даних так і зробили НЕ розвиваються серцеві захворювання. Незбалансований набір даних потрібно обробляти, використовуючи правильні методи розробки функцій, як-от наддискретизація, налаштування ваги або недостатня дискретизація. Якщо не розглянути її належним чином, ви отримаєте модель, яка просто передбачає мажоритарний клас для кожної точки даних і не зможе ідентифікувати пацієнтів, які зробив розвиваються серцеві захворювання. Це чудовий набір даних, щоб попрактикувати свої навички розробки функцій і машинного навчання.

Набір даних: Набір даних про серцеві захворювання Kaggle

5. Класифікація цифр MNIST

Команда МНІСТ набір даних — це ваша сходинка в сферу глибокого навчання. Цей набір даних складається із зображень у відтінках сірого рукописних цифр від 0 до 9. Ваше завдання полягатиме в тому, щоб визначити цифру за допомогою алгоритму глибокого навчання. Це проблема мультикласової класифікації з десятьма можливими вихідними класами. Ви можете використовувати CNN (згортка нейронна мережа) для виконання цієї класифікації.

Набір даних MNIST побудований в бібліотеці Keras на Python. Все, що вам потрібно зробити, це встановити Keras, імпортувати бібліотеку та завантажити набір даних. Цей набір даних містить близько 60,000 80 зображень, тому ви можете використовувати близько 20% цих зображень для навчання і ще XNUMX% для тестування.

Набір даних: Набір даних Kaggle Digt Recognizer

6. Аналіз настроїв даних Twitter

На Kaggle є багато наборів даних аналізу настроїв Twitter. Один з найпопулярніших наборів даних називається sentiment140, який містить 1.6 мільйона попередньо оброблених твітів. Це чудовий набір даних для початку, якщо ви новачок в аналізі настроїв.

Ці твіти були анотовані, а цільовою змінною є настрої. Унікальними значеннями в цьому стовпці є 0 (негативний), 2 (нейтральний) і 4 (позитивний).

Після попередньої обробки цих твітів і перетворення їх у вектори ви можете використовувати модель класифікації, щоб навчити їх відповідним настроям. Для цього завдання можна використовувати такі алгоритми, як логістична регресія, класифікатор дерева рішень або класифікатор XGBoost.

Іншою альтернативою є використання моделі глибокого навчання, такої як LSTM, для прогнозування настроїв. Однак це дещо складніший підхід і відноситься до категорії просунутих проектів.

Ви також можете використовувати цей позначений набір даних як основу для майбутніх завдань аналізу настроїв.

Якщо у вас є твіти, які ви хочете зібрати та провести аналіз настроїв, ви можете використовувати модель, яка була попередньо навчена sentiment140, щоб робити майбутні прогнози.

Набір даних: Набір даних Kaggle Sentiment140

7. Прогноз діабету в Індії Піма

Набір даних Pima Indian Diabetes Dataset використовується для прогнозування наявності у пацієнта діабету на основі діагностичних вимірювань.

На основі таких змінних, як ІМТ, вік та інсулін, модель передбачатиме діабет у пацієнтів. Цей набір даних має дев’ять змінних — вісім незалежних змінних і одну цільову.

Цільова змінна 'цукровий діабет', тому ви передбачите 1 для наявності діабету або 0 для відсутності діабету.

Це проблема класифікації для експерименту з такими моделями, як логістична регресія, класифікатор дерева рішень або класифікатор випадкових лісів.

Усі незалежні змінні в цьому наборі даних є числовими, тому це чудовий набір даних для початку, якщо у вас мінімальний досвід розробки функцій.

Це набір даних Kaggle, відкритий для початківців. В Інтернеті є багато навчальних посібників, які допоможуть вам розробити програмне рішення на Python і R. Ці підручники для ноутбуків — чудовий спосіб навчитися і забруднити руки, щоб ви могли перейти до більш складних проектів.

Набір даних: Набір даних індійського діабету Kaggle Pima

8. Класифікація раку молочної залози

Набір даних класифікації раку молочної залози на Kaggle — це ще один чудовий спосіб потренувати своє машинне навчання та навички штучного інтелекту.

Більшість проблем машинного навчання під наглядом у реальному світі — це проблеми класифікації, подібні до цієї. Ключовою проблемою в ідентифікації раку молочної залози є неможливість розрізнити доброякісні (неракові) та злоякісні (ракові) пухлини. Набір даних містить такі змінні, як "radius_mean" і "area_mean" пухлини, і вам потрібно буде класифікувати на основі цих ознак, є пухлина раковою чи ні. З цим набором даних відносно легко працювати, оскільки немає необхідності проводити значну попередню обробку даних. Це також добре збалансований набір даних, що робить ваше завдання більш керованим, оскільки вам не потрібно багато розробляти функції.

Навчання простого класифікатора логістичної регресії на цьому наборі даних може дати вам точність до 0.90.

Набір даних: Набір даних класифікації раку молочної залози Kaggle

9. Прогноз TMDB Box Office

Цей набір даних Kaggle є чудовим способом потренувати свої навички регресії. Він складається з приблизно 7000 фільмів, і вам потрібно буде використовувати наявні змінні, щоб передбачити дохід від фільму.

Наявні точки даних включають акторський склад, знімальну групу, бюджет, мови та дати випуску. У наборі даних є 23 змінні, одна з яких є цільовою.

Базова модель лінійної регресії може дати вам R-квадрат понад 0.60, тому ви можете використовувати це як базову модель прогнозування. Спробуйте перевершити цей показник, використовуючи такі методи, як регресія XGBoost або Light GBM.

Цей набір даних трохи складніший, ніж попередній, оскільки деякі стовпці містять дані у вкладених словниках. Вам потрібно виконати додаткову попередню обробку, щоб витягти ці дані у зручний для використання формат, щоб навчити на них модель.

Прогнозування прибутку — чудовий проект, який можна продемонструвати у вашому портфоліо, оскільки він забезпечує цінність бізнесу для різних доменів за межами кіноіндустрії.

Набір даних: Набір прогнозних даних Kaggle TMDB Box Office

10. Сегментація клієнтів в Python

Набір даних сегментації клієнтів на Kaggle — це чудовий спосіб розпочати роботу з машинним навчанням без нагляду. Цей набір даних складається з таких даних про клієнтів, як їх вік, стать, річний дохід та показник витрат.

Ви повинні використовувати ці змінні для створення сегментів клієнтів. Схожі клієнти повинні бути згруповані в подібні кластери. Для цього завдання можна використовувати такі алгоритми, як кластеризація K-середніх або ієрархічна кластеризація. Моделі сегментації клієнтів можуть забезпечити цінність бізнесу.

Компанії часто хочуть відокремити своїх клієнтів, щоб придумати різні маркетингові методи для кожного типу клієнтів.

Основні цілі цього набору даних включають:

Досягнення сегментації клієнтів за допомогою методів машинного навчання
Визначте своїх цільових клієнтів для різних маркетингових стратегій
Зрозумійте, як працюють маркетингові стратегії в реальному світі

Побудова моделі кластеризації для цього завдання може допомогти вашому портфоліо виділитися, а сегментація — чудова навичка, яку потрібно мати, якщо ви хочете отримати роботу, пов’язану з штучним інтелектом, у галузі маркетингу.

Набір даних: Набір даних сегментації клієнтів Kaggle Mall

Проекти машинного навчання середнього/поглибленого рівня для вашого резюме

Після того як ви закінчите працювати над простими проектами машинного навчання, подібними до перелічених вище, ви можете переходити до більш складних проектів.

1. Прогнозування продажів

Прогнозування часових рядів – це техніка машинного навчання, яка дуже часто використовується в галузі. Використання минулих даних для прогнозування майбутніх продажів має велику кількість випадків використання в бізнесі. Набір даних Kaggle Demand Forecasting можна використовувати для виконання цього проекту.

Цей набір даних містить дані про продажі за 5 років, і вам потрібно буде передбачити продажі на наступні три місяці. У наборі даних перераховано десять різних магазинів, і в кожному магазині є 50 позицій.

Щоб передбачити продажі, ви можете спробувати різні методи — ARIMA, векторну авторегресію або глибоке навчання. Один із методів, який ви можете використовувати для цього проекту, — вимірювати збільшення продажів за кожен місяць і записувати його. Потім побудуйте модель на різниці між продажами попереднього та поточного місяця. Урахування таких факторів, як свята та сезонність, може покращити продуктивність вашої моделі машинного навчання.

Набір даних: Прогнозування попиту на товари Kaggle Store

2. Чат-бот обслуговування клієнтів

Чат-бот служби підтримки клієнтів використовує AI та методи машинного навчання, щоб відповідати клієнтам, беручи роль представника людини. Чат-бот повинен відповідати на прості запитання, щоб задовольнити потреби клієнтів.

На даний момент ви можете створити три види чат-ботів:

Чат-боти на основі правил — ці чат-боти не розумні. Вони отримують набір попередньо визначених правил і відповідають користувачам лише на основі цих правил. Деякі чат-боти також мають заздалегідь визначений набір запитань і відповідей і не можуть відповідати на запити, які виходять за межі цього домену.
Незалежні чат-боти — незалежні чат-боти використовують машинне навчання для обробки та аналізу запитів користувача та надання відповідних відповідей.
Чат-боти НЛП — ці чат-боти можуть розуміти шаблони в словах і розрізняти різні сполучення слів. Вони є найдосконалішими з усіх трьох типів чат-ботів, оскільки можуть придумати, що сказати далі, виходячи з шаблонів слів, на яких їх навчали.

Чат-бот НЛП — це цікава ідея проекту машинного навчання. Вам знадобиться наявний корпус слів для навчання моделі, і ви можете легко знайти бібліотеки Python для цього. Ви також можете мати попередньо визначений словник зі списком пар питань і відповідей, які ви хочете навчити свою модель.

3. Система виявлення об'єктів дикої природи

Якщо ви живете в районі, де часто спостерігаються дикі тварини, корисно впровадити систему виявлення об’єктів, щоб визначити їх присутність у вашому районі. Щоб створити таку систему, виконайте наведені нижче дії.

Встановіть камери в зоні, яку ви хочете контролювати.
Завантажте всі відеоматеріали та збережіть їх.
Створіть програму Python для аналізу вхідних зображень та визначення диких тварин.

Microsoft створила API для розпізнавання зображень, використовуючи дані, зібрані з камер дикої природи. Для цієї мети вони випустили попередньо навчену модель з відкритим кодом під назвою MegaDetector.

Ви можете використовувати цю попередньо навчену модель у своїй програмі Python, щоб ідентифікувати диких тварин із зібраних зображень. Це один із найцікавіших проектів ML, згаданих досі, і його досить просто реалізувати завдяки наявності попередньо навченої моделі для цієї мети.

API: Мегадетектор

4. Система рекомендацій музики Spotify

Spotify використовує AI, щоб рекомендувати музику своїм користувачам. Ви можете спробувати створити систему рекомендацій на основі загальнодоступних даних на Spotify.

Spotify має API, який ви можете використовувати для отримання аудіоданих — ви можете знайти такі функції, як рік випуску, ключ, популярність та виконавця. Щоб отримати доступ до цього API в Python, ви можете використовувати бібліотеку під назвою Spotipy.

Ви також можете використовувати набір даних Spotify на Kaggle, який має близько 600 тисяч рядків. Використовуючи ці набори даних, ви можете запропонувати найкращу альтернативу улюбленому музиканту кожного користувача. Ви також можете придумати рекомендації щодо пісень на основі вмісту та жанру, який вважає за краще кожен користувач.

Цю систему рекомендацій можна створити за допомогою кластеризації K-Means — подібні точки даних будуть згруповані. Ви можете рекомендувати кінцевому користувачеві пісні з мінімальною внутрішньокластерною відстанню між ними.

Після того як ви створили систему рекомендацій, ви також можете перетворити її на просту програму Python і розгорнути її. Ви можете змусити користувачів вводити свої улюблені пісні на Spotify, а потім відображати на екрані рекомендації моделі, які мають найбільшу схожість з піснями, які їм сподобалися.

Набір даних: Набір даних Kaggle Spotify

5. Аналіз ринкового кошика

Аналіз ринкового кошика – популярний метод, який використовується роздрібними продавцями для визначення товарів, які можна продавати разом.

Наприклад:

Кілька років тому аналітик виявив кореляцію між продажами пива та підгузників. У більшості випадків, коли покупець заходив у магазин, щоб купити пиво, вони разом купували підгузники.

Завдяки цьому магазини почали продавати пиво та підгузки разом на одному проході в якості маркетингової стратегії збільшення продажів. І це спрацювало.

Передбачалося, що пиво та підгузки мають високу кореляцію, оскільки чоловіки часто купують їх разом. Чоловіки заходили в магазин, щоб купити пиво, а також кілька інших предметів побуту для своєї родини (включаючи підгузники). Це здається доволі неможливою кореляцією, але це сталося.

Аналіз ринкового кошика може допомогти компаніям виявити приховані кореляції між товарами, які часто купують разом. Ці магазини можуть розташувати свої товари таким чином, щоб людям було легше їх знайти.

Ви можете використовувати набір даних «Оптимізація кошика ринку» на Kaggle для створення та навчання моделі. Найпоширенішим алгоритмом, який використовується для аналізу ринкового кошика, є алгоритм Apriori.

Набір даних: Набір даних оптимізації ринкового кошика Kaggle

6. Тривалість поїздки таксі в Нью-Йорку

Набір даних містить змінні, які включають координати початку та кінця поїздки таксі, час і кількість пасажирів. Мета цього проекту ML — передбачити тривалість подорожі з усіма цими змінними. Це проблема регресії.

Змінні, такі як час і координати, повинні бути попередньо оброблені належним чином і перетворені в зрозумілий формат. Цей проект не такий простий, як здається. Цей набір даних також має деякі відхилення, які роблять прогнозування більш складним, тому вам доведеться впоратися з цим за допомогою методів розробки функцій.

Критеріями оцінки для цього конкурсу NYC Taxi Trip Kaggle є RMSLE або середньоквадратична помилка журналу. Найвищий результат на Kaggle отримав RMSLE 0.29, а базова модель Kaggle має RMSLE 0.89.

Ви можете використовувати будь-який алгоритм регресії, щоб вирішити цей проект Kaggle, але найефективніші конкуренти цього завдання використовували моделі підвищення градієнта або методи глибокого навчання.

Набір даних: Набір даних про тривалість поїздки таксі Kaggle NYC

7. Виявлення спаму в режимі реального часу

У цьому проекті ви можете використовувати методи машинного навчання, щоб розрізняти спам (нелегітимні) та хамовні (законні) повідомлення.

Для цього ви можете використовувати набір даних Kaggle SMS Spam Collection. Цей набір даних містить приблизно 5 тис. повідомлень, позначених як спам або рекламу.

Ви можете зробити наступні кроки, щоб створити систему виявлення спаму в реальному часі:

Використовуйте набір даних Kaggle SMS Spam Collection для навчання моделі машинного навчання.
Створіть простий сервер чат-кімнати на Python.
Розгорніть модель машинного навчання на сервері чату та переконайтеся, що весь вхідний трафік проходить через модель.
Дозволяйте передачу повідомлень, лише якщо вони класифіковані як радіомовлення. Якщо вони спам, натомість поверніть повідомлення про помилку.

Щоб побудувати модель машинного навчання, вам спочатку потрібно попередньо обробити текстові повідомлення, присутні в наборі даних Kaggle SMS Spam Collection. Потім конвертуйте ці повідомлення в пакет слів, щоб їх можна було легко передати у вашу модель класифікації для передбачення.

Набір даних: Набір даних збору спаму для SMS Kaggle

8. Додаток для прогнозування особистості Майерс-Бріггс

Ви можете створити додаток, щоб передбачити тип особистості користувача на основі того, що вони говорять.

Індикатор типу Майєрс-Бріггс класифікує людей на 16 різних типів особистості. Це один з найпопулярніших тестів особистості у світі.

Якщо ви спробуєте знайти свій тип особистості в Інтернеті, ви знайдете багато онлайн-вікторин. Після відповіді приблизно на 20–30 запитань вам буде призначено тип особистості.

Однак у цьому проекті ви можете використовувати машинне навчання, щоб передбачити тип особистості будь-кого лише на основі одного речення.

Ось кроки, які ви можете зробити, щоб цього досягти:

Створіть модель класифікації з багатьма класами та навчіть її на наборі даних Майєрс-Бріггс на Kaggle. Це включає попередню обробку даних (видалення стоп-слів і непотрібних символів) і деяку розробку функцій. Для цієї мети можна використовувати неглибоку модель навчання, як-от логістичну регресію, або модель глибокого навчання, як-от LSTM.
Ви можете створити програму, яка дозволяє користувачам вводити будь-яке речення на свій вибір.
Збережіть ваги моделі машинного навчання та інтегруйте модель зі своїм додатком. Після того, як кінцевий користувач введе слово, відобразіть його тип особистості на екрані після того, як модель зробить передбачення.

Набір даних: Набір даних типу Kaggle MBTI

9. Система розпізнавання настрою + система рекомендацій

Ви коли-небудь сумували і відчували, що вам потрібно подивитися щось смішне, щоб підняти вам настрій? Або ви коли-небудь відчували таке розчарування, що вам потрібно було розслабитися і подивитися щось розслабляюче?

Цей проект є поєднанням двох менших проектів.

Ви можете створити програму, яка розпізнає настрій користувача на основі відео в реальному часі та пропозицій фільму на основі виразу обличчя користувача.

Щоб створити це, ви можете зробити наступні кроки:

Створіть програму, яка може переглядати пряму відеоканал.
Використовуйте API розпізнавання обличчя Python, щоб виявляти обличчя та емоції на об’єктах у відеоканалі.
Після класифікації цих емоцій за різними категоріями почніть будувати систему рекомендацій. Це може бути набір жорстко запрограмованих значень для кожної емоції, що означає, що вам не потрібно залучати машинне навчання для отримання рекомендацій.
Закінчивши створення програми, ви можете розгорнути її на Heroku, Dash або веб-сервері.

API: API розпізнавання облич

10. Аналіз настроїв у коментарях YouTube

У цьому проекті ви можете створити інформаційну панель, що аналізує загальні настрої популярних користувачів YouTube.

Понад 2 мільярди користувачів дивляться відео YouTube принаймні раз на місяць. Популярні користувачі YouTube збирають сотні мільярдів переглядів своїм вмістом. Проте багато хто з цих впливових осіб потрапили під обстріл через суперечки в минулому, а сприйняття громадськості постійно змінюється.

Ви можете створити модель аналізу настроїв і створити інформаційну панель для візуалізації настроїв навколо знаменитостей з часом.

Щоб створити це, ви можете зробити наступні кроки:

Зберігайте коментарі до відео користувачів YouTube, яких ви хочете проаналізувати.
Використовуйте попередньо навчену модель аналізу настроїв, щоб робити прогнози щодо кожного коментаря.
Візуалізуйте прогнози моделі на приладовій панелі. Ви навіть можете створити додаток для інформаційної панелі за допомогою бібліотек, таких як Dash (Python) або Shiny (R).
Ви можете зробити інформаційну панель інтерактивною, дозволивши користувачам фільтрувати настрої за часовими рамками, іменем YouTuber і жанром відео.

API: Скребок для коментарів YouTube

Підсумки

Індустрія машинного навчання велика і сповнена можливостей. Якщо ви хочете проникнути в галузь без офіційної освіти, найкращий спосіб показати, що у вас є навички, необхідні для виконання роботи, — це проекти.

Аспект машинного навчання більшості перерахованих вище проектів досить простий. Завдяки демократизації машинного навчання процес побудови моделі можна легко досягти за допомогою попередньо навчених моделей та API.

Проекти штучного інтелекту з відкритим кодом, такі як Keras і FastAI, також допомогли прискорити процес створення моделі. Складна частина цих машинного навчання і проекти науки про дані це збір даних, попередня обробка та розгортання. Якщо ви отримаєте роботу в галузі машинного навчання, більшість алгоритмів буде досить просто побудувати. Для створення моделі прогнозування продажів знадобиться лише день-два. Ви витрачатимете більшу частину свого часу на пошук відповідних джерел даних і впровадження своїх моделей у виробництво, щоб отримати цінність для бізнесу.

Оригінал. Повідомлено з дозволу.

За темою:

= Попереднє повідомлення

Наступне повідомлення =>

Топові історії за останні 30 днів

Найбільш популярний

Найпоширеніші

Джерело: https://www.kdnuggets.com/2021/09/20-machine-learning-projects-hired.html

Часова мітка: Вересень 22, 2021

Часова мітка: Квітень 15, 2024

Методи попередньої обробки тексту для глибокого навчання

Кластер джерел:

KDnuggets

Вихідний вузол: 1866552

Часова мітка: Вересень 10, 2021

Зіставлення рядків Python без складного синтаксису регулярних виразів

Кластер джерел:

KDnuggets

Вихідний вузол: 1934416

Часова мітка: Лютий 1, 2023

ChatGPT як помічник із програмування Python

Кластер джерел:

KDnuggets

Вихідний вузол: 1908431

Часова мітка: Січень 20, 2023

20 проектів машинного навчання, які допоможуть вам прийняти роботу

Проекти машинного навчання для початківців

1. Kaggle Titanic Prediction

2. Прогноз ціни на будинок

3. Прогноз якості вина

4. Прогноз захворювань серця

5. Класифікація цифр MNIST

6. Аналіз настроїв даних Twitter

7. Прогноз діабету в Індії Піма

8. Класифікація раку молочної залози

9. Прогноз TMDB Box Office

10. Сегментація клієнтів в Python

Проекти машинного навчання середнього/поглибленого рівня для вашого резюме

1. Прогнозування продажів

2. Чат-бот обслуговування клієнтів

3. Система виявлення об'єктів дикої природи

4. Система рекомендацій музики Spotify

5. Аналіз ринкового кошика

6. Тривалість поїздки таксі в Нью-Йорку

7. Виявлення спаму в режимі реального часу

8. Додаток для прогнозування особистості Майерс-Бріггс

9. Система розпізнавання настрою + система рекомендацій

10. Аналіз настроїв у коментарях YouTube

Підсумки

Більше від KDnuggets

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки