Republié par Platon

Suiveurs: 0

20 projets d'apprentissage automatique qui vous feront embaucher

Mots clés: Carrière, Machine Learning, Projet

Si vous souhaitez percer sur le marché du travail de l'apprentissage automatique et de la science des données, vous devrez démontrer la maîtrise de vos compétences, en particulier si vous êtes autodidacte grâce à des cours en ligne et des bootcamps. Un portefeuille de projets est un excellent moyen de pratiquer votre nouveau métier et d'offrir des preuves convaincantes qu'un employé devrait vous embaucher plutôt que la concurrence.

commentaires

By Khushbu Shah, Gestionnaire de contenu chez ProjectPro.

L'industrie de l'IA et de l'apprentissage automatique est en plein essor comme jamais auparavant. À partir de 2021, l'augmentation de l'utilisation de l'IA dans les entreprises créera 2.9 billions de dollars de valeur commerciale. L'IA a automatisé de nombreuses industries à travers le monde et a changé leur mode de fonctionnement. La plupart des grandes entreprises intègrent l'IA pour maximiser la productivité dans leur flux de travail, et des secteurs comme le marketing et la santé ont subi un changement de paradigme en raison de la consolidation de l'IA.

Source de l'image: Unsplash

Pour cette raison, il y a eu une demande croissante au cours des dernières années pour les professionnels de l'IA. Il y a eu une augmentation de près de 100 % des offres d'emploi liées à l'IA et à l'apprentissage automatique de 2015 à 2018. Ce nombre a augmenté depuis et devrait augmenter en 2021.

Si vous cherchez à percer dans l'industrie de l'apprentissage automatique, la bonne nouvelle est qu'il n'y a pas de pénurie d'emplois disponibles. Les entreprises ont besoin d'une main-d'œuvre talentueuse capable d'ouvrir la voie à la transition vers l'apprentissage automatique. Cependant, le marché du travail est infiltré par des personnes qui veulent percer dans l'industrie des données. Étant donné qu'aucun programme d'études spécifique ne s'adresse aux étudiants qui souhaitent apprendre l'apprentissage automatique, de nombreux aspirants praticiens du ML sont autodidactes.

Plus de 4 millions d'étudiants sont inscrits au cours en ligne d'apprentissage automatique d'Andrew Ng.

Malheureusement, s'inscrire à des cours en ligne ou suivre un Bootcamp d'apprentissage automatique vous aide à apprendre les concepts théoriques, mais ne vous prépare pas à un emploi dans l'industrie. Il y a beaucoup plus de travail pratique à faire, après avoir appris la théorie. Disons que vous connaissez les bases des algorithmes d'apprentissage automatique - vous comprenez le fonctionnement des modèles de régression et de classification, et vous connaissez les différents types de méthodes de clustering.

Comment allez-vous mettre en pratique les compétences que vous avez acquises pour résoudre un problème réel ? La réponse simple est : Pratiquez, Pratiquez et Pratiquez divers projets d'apprentissage automatique.

Une fois que vous avez fini d'apprendre les concepts théoriques, vous devriez commencer à travailler sur des projets d'IA et d'apprentissage automatique. Ces projets vous donneront la pratique nécessaire pour perfectionner vos compétences sur le terrain, et en même temps, sont une grande valeur ajoutée à votre portefeuille d'apprentissage automatique.

Sans plus tarder, explorons quelques idées de projets de ML qui non seulement donneront une belle apparence à votre portefeuille, mais amélioreront également considérablement vos compétences en apprentissage automatique. Il s'agit d'une liste organisée de certains des meilleurs projets d'apprentissage automatique pour les étudiants, les aspirants praticiens de l'apprentissage automatique et les personnes de domaines non techniques. Vous pouvez travailler sur ces projets quel que soit votre parcours, tant que vous avez des compétences en codage et en apprentissage automatique. Il s'agit d'une liste de projets d'apprentissage automatique de niveau débutant et avancé.

Si vous êtes nouveau dans l'industrie des données et que vous avez peu d'expérience des projets réels, commencez par des projets de ML de niveau débutant avant de passer aux plus difficiles.

Projets d'apprentissage automatique pour les débutants

1. Prédiction Kaggle Titanic

Le premier projet de cette liste est l'un des projets de ML les plus simples que vous puissiez entreprendre. Ce projet est recommandé pour compléter les débutants dans l'industrie des données. L'ensemble de données Titanic est disponible sur Kaggle, et le lien pour le télécharger est donné ci-dessous.

Cet ensemble de données concerne les passagers qui ont voyagé sur le Titanic. Il contient des détails tels que l'âge du passager, le prix du billet, la cabine et le sexe. Sur la base de ces informations, vous devrez prédire si ces passagers ont survécu ou non.

C'est un simple problème de classification binaire, et tout ce que vous avez à faire est de prédire si un passager particulier a survécu. La meilleure chose à propos de cet ensemble de données est que tout le pré-traitement est fait pour vous. Vous disposez d'un ensemble de données agréable et propre pour entraîner votre modèle d'apprentissage automatique.

Comme il s'agit d'un problème de classification, vous pouvez choisir d'utiliser des algorithmes tels que la régression logistique, les arbres de décision et les forêts aléatoires pour créer le modèle prédictif. Vous pouvez également choisir des modèles d'amplification de gradient comme un classificateur XGBoost pour ce projet d'apprentissage automatique de niveau débutant afin d'obtenir de meilleurs résultats.

Base de données: Ensemble de données Kaggle Titanic

2. Prévision du prix de la maison

Les données sur les prix des maisons sont également idéales pour commencer si vous êtes débutant en apprentissage automatique. Ce projet utilisera l'ensemble de données sur les prix des maisons disponibles sur Kaggle. La variable cible dans cet ensemble de données est le prix d'une maison particulière, que vous devrez prédire à l'aide d'informations telles que la superficie de la maison, le nombre de chambres, le nombre de salles de bains et les services publics.

Il s'agit d'un problème de régression et vous pouvez utiliser des techniques telles que la régression linéaire pour construire le modèle. Vous pouvez également adopter une approche plus avancée et utiliser un régresseur de forêt aléatoire ou une amplification de gradient pour prédire les prix des logements.

Cet ensemble de données comporte 80 colonnes, à l'exclusion de la variable cible. Vous devrez utiliser des techniques de réduction de la dimensionnalité pour sélectionner manuellement les caractéristiques, car l'ajout d'un trop grand nombre de variables peut nuire aux performances de votre modèle.

Il existe également de nombreuses variables catégorielles dans l'ensemble de données, vous devez donc les traiter correctement à l'aide de techniques telles que l'encodage à chaud ou l'encodage d'étiquettes.

Après avoir construit votre modèle, vous pouvez soumettre vos prévisions au concours des prix des maisons à Kaggle, car il est toujours ouvert. Le meilleur RMSE atteint par les concurrents est de 0, et de nombreuses personnes ont obtenu de bons résultats comme 0.15 à l'aide de techniques de régression et d'amplification de gradient.

Base de données: Ensemble de données de prévision des prix des maisons Kaggle

3. Prédiction de la qualité du vin

L'ensemble de données de prédiction de la qualité du vin est également très populaire parmi les débutants dans l'industrie des données. Dans ce projet, vous utiliserez l'acidité fixe, l'acidité volatile, l'alcool et la densité pour prédire la qualité du vin rouge.

Cela peut être traité comme un problème de classification ou de régression. Les qualité du vin variable que vous devez prédire dans l'ensemble de données va de 0 à 10, vous pouvez donc créer un modèle de régression à prédire. Une autre approche que vous pouvez adopter consiste à décomposer les valeurs (de 0 à 10) en intervalles discrets et à les convertir en variables catégorielles. Vous pouvez créer trois catégories, par exemple — faible, moyen, ainsi que Élevée.

Vous pouvez ensuite créer un classificateur d'arbre de décision ou n'importe quel modèle de classification pour faire la prédiction. Il s'agit d'un ensemble de données relativement propre et simple pour mettre en pratique vos compétences d'apprentissage machine de régression et de classification.

Base de données: Ensemble de données sur la qualité du vin rouge Kaggle

4. Prédiction des maladies cardiaques

Si vous cherchez à explorer un ensemble de données dans le secteur de la santé, il s'agit d'un excellent ensemble de données de niveau débutant pour commencer. Cet ensemble de données est utilisé pour prédire le risque de maladie coronarienne sur 10 ans. Les variables dépendantes de cet ensemble de données sont les facteurs de risque de maladie cardiaque, notamment le diabète, le tabagisme, l'hypertension artérielle et l'hypercholestérolémie.

La variable indépendante est le risque de maladie coronarienne à 10 ans. Il s'agit d'un problème de classification binaire, et la variable cible est soit 0, soit 1-0 pour les patients qui n'ont jamais développé de maladie cardiaque et 1 pour les patients qui en ont développé. Vous pouvez effectuer une sélection de caractéristiques sur cet ensemble de données pour identifier les caractéristiques qui contribuent le plus au risque cardiaque. Ensuite, vous pouvez adapter un modèle de classification aux variables indépendantes.

Cet ensemble de données est très déséquilibré car de nombreux patients de cet ensemble de données n'ont pas ne sauraient développer une maladie cardiaque. Un jeu de données déséquilibré doit être traité à l'aide des bonnes techniques d'ingénierie des caractéristiques, telles que le suréchantillonnage, le réglage du poids ou le sous-échantillonnage. S'il n'est pas traité correctement, vous vous retrouverez avec un modèle qui prédit simplement la classe majoritaire pour chaque point de données et ne peut pas identifier les patients qui fait développer une maladie cardiaque. Il s'agit d'un excellent ensemble de données pour vous permettre de mettre en pratique vos compétences en ingénierie de fonctionnalités et en apprentissage automatique.

Base de données: Ensemble de données sur les maladies cardiaques de Kaggle

5. Classification des chiffres MNIST

La MNIST jeu de données est votre tremplin dans le domaine de l'apprentissage en profondeur. Cet ensemble de données se compose d'images en niveaux de gris de chiffres manuscrits de 0 à 9. Votre tâche consisterait à identifier le chiffre à l'aide d'un algorithme d'apprentissage en profondeur. Il s'agit d'un problème de classification multi-classes avec dix classes de sortie possibles. Vous pouvez utiliser un CNN (Convolutional Neural Network) pour effectuer cette classification.

L'ensemble de données MNIST est construit dans la bibliothèque Keras en Python. Tout ce que vous avez à faire est d'installer Keras, d'importer la bibliothèque et de charger l'ensemble de données. Cet ensemble de données contient environ 60,000 80 images, ce qui vous permet d'utiliser environ 20 % de ces images pour l'entraînement et XNUMX % supplémentaires pour les tests.

Base de données: Ensemble de données de reconnaissance de chiffres Kaggle

6. Analyse des sentiments des données Twitter

Il existe de nombreux ensembles de données d'analyse des sentiments Twitter disponibles sur Kaggle. L'un des ensembles de données les plus populaires s'appelle sentiment140, qui contient 1.6 million de Tweets prétraités. C'est un excellent ensemble de données pour commencer si vous débutez dans l'analyse des sentiments.

Ces Tweets ont été annotés et la variable cible est le sentiment. Les valeurs uniques de cette colonne sont 0 (négatif), 2 (neutre) et 4 (positif).

Après avoir prétraité ces Tweets et les avoir convertis en vecteurs, vous pouvez utiliser un modèle de classification pour les former avec leur sentiment associé. Vous pouvez utiliser des algorithmes tels que la régression logistique, le classificateur d'arbre de décision ou le classificateur XGBoost pour cette tâche.

Une autre alternative consiste à utiliser un modèle d'apprentissage en profondeur comme LSTM pour proposer une prédiction des sentiments. Cependant, il s'agit d'une approche légèrement plus difficile et tombe dans la catégorie des projets avancés.

Vous pouvez également utiliser cet ensemble de données étiqueté comme base pour les futures tâches d'analyse des sentiments.

Si vous souhaitez collecter des Tweets et effectuer une analyse des sentiments, vous pouvez utiliser un modèle qui a déjà été formé sur sentiment140 pour faire des prédictions futures.

Base de données: Ensemble de données Kaggle Sentiment140

7. Prédiction du diabète indien Pima

L'ensemble de données Pima Indian Diabetes est utilisé pour prédire si un patient souffre de diabète sur la base de mesures diagnostiques.

Sur la base de variables telles que l'IMC, l'âge et l'insuline, le modèle prédit le diabète chez les patients. Cet ensemble de données comporte neuf variables — huit variables indépendantes et une variable cible.

La variable cible est 'Diabète', vous allez donc prédire 1 pour la présence de diabète ou 0 pour l'absence de diabète.

Il s'agit d'un problème de classification pour expérimenter des modèles tels que la régression logistique, le classificateur d'arbre de décision ou le classificateur de forêt aléatoire.

Toutes les variables indépendantes de cet ensemble de données sont numériques, c'est donc un excellent ensemble de données pour commencer si vous avez une expérience minimale en ingénierie de fonctionnalités.

Il s'agit d'un jeu de données Kaggle ouvert aux débutants. Il existe de nombreux didacticiels en ligne qui vous guident tout au long du codage de la solution en Python et R. Ces didacticiels sur les ordinateurs portables sont un excellent moyen d'apprendre et de vous salir les mains afin que vous puissiez passer à des projets plus complexes.

Base de données: Ensemble de données sur le diabète indien Kaggle Pima

8. Classification du cancer du sein

L'ensemble de données de classification du cancer du sein sur Kaggle est un autre excellent moyen de mettre en pratique vos compétences en apprentissage automatique et en IA.

La plupart des problèmes d'apprentissage automatique supervisé dans le monde réel sont des problèmes de classification comme celui-ci. Un défi majeur dans l'identification du cancer du sein est l'incapacité à distinguer les tumeurs bénignes (non cancéreuses) et malignes (cancéreuses). L'ensemble de données contient des variables telles que "radius_mean" et "area_mean" de la tumeur, et vous devrez classer en fonction de ces caractéristiques si une tumeur est cancéreuse ou non. Cet ensemble de données est relativement facile à utiliser car il n'est pas nécessaire de faire un pré-traitement important des données. Il s'agit également d'un ensemble de données bien équilibré, ce qui rend votre tâche plus facile à gérer car vous n'avez pas besoin de faire beaucoup d'ingénierie de fonctionnalités.

L'entraînement d'un classificateur de régression logistique simple sur cet ensemble de données peut vous donner une précision allant jusqu'à 0.90.

Base de données: Ensemble de données de classification du cancer du sein de Kaggle

9. Prédiction du box-office TMDB

Cet ensemble de données Kaggle est un excellent moyen de mettre en pratique vos compétences en régression. Il se compose d'environ 7000 XNUMX films et vous devrez utiliser les variables présentes pour prédire les revenus du film.

Les points de données présents incluent le casting, l'équipe, le budget, les langues et les dates de sortie. Il y a 23 variables dans l'ensemble de données, dont l'une est la variable cible.

Un modèle de régression linéaire de base peut vous donner un R au carré supérieur à 0.60, vous pouvez donc l'utiliser comme modèle de prédiction de base. Essayez de battre ce score en utilisant des techniques telles que la régression XGBoost ou le Light GBM.

Cet ensemble de données est légèrement plus complexe que le précédent car certaines colonnes ont des données présentes dans des dictionnaires imbriqués. Vous devez effectuer un pré-traitement supplémentaire pour extraire ces données dans un format utilisable pour former un modèle dessus.

La prévision des revenus est un excellent projet à présenter sur votre portefeuille, car elle fournit une valeur commerciale à une variété de domaines en dehors de l'industrie cinématographique.

Base de données: Ensemble de données de prédiction Kaggle TMDB Box Office

10. Segmentation client en Python

L'ensemble de données de segmentation client sur Kaggle est un excellent moyen de démarrer avec l'apprentissage automatique non supervisé. Cet ensemble de données se compose de détails sur les clients tels que leur âge, leur sexe, leur revenu annuel et leur score de dépenses.

Vous devez utiliser ces variables pour créer des segments de clientèle. Les clients qui se ressemblent doivent être regroupés dans des groupes similaires. Vous pouvez utiliser des algorithmes tels que le clustering K-Means ou le clustering hiérarchique pour cette tâche. Les modèles de segmentation de la clientèle peuvent apporter une valeur commerciale.

Les entreprises souhaitent souvent séparer leurs clients pour proposer différentes techniques de marketing pour chaque type de client.

Les principaux objectifs de cet ensemble de données comprennent :

Atteindre la segmentation de la clientèle à l'aide de techniques d'apprentissage automatique
Identifiez vos clients cibles pour différentes stratégies marketing
Comprendre le fonctionnement des stratégies marketing dans le monde réel

Construire un modèle de clustering pour cette tâche peut aider votre portefeuille à se démarquer, et la segmentation est une excellente compétence à avoir si vous cherchez à obtenir un emploi lié à l'IA dans l'industrie du marketing.

Base de données: Ensemble de données de segmentation client Kaggle Mall

Projets d'apprentissage automatique de niveau intermédiaire/avancé pour votre CV

Une fois que vous avez terminé de travailler sur des projets d'apprentissage automatique simples comme ceux énumérés ci-dessus, vous pouvez passer à des projets plus difficiles.

1. Prévision des ventes

La prévision de séries chronologiques est une technique d'apprentissage automatique utilisée très souvent dans l'industrie. L'utilisation de données passées pour prédire les ventes futures a un grand nombre de cas d'utilisation commerciale. L'ensemble de données Kaggle Demand Forecasting peut être utilisé pour mettre en pratique ce projet.

Cet ensemble de données contient 5 ans de données sur les ventes, et vous devrez prévoir les ventes pour les trois prochains mois. Il y a dix magasins différents répertoriés dans l'ensemble de données, et il y a 50 articles dans chaque magasin.

Pour prédire les ventes, vous pouvez essayer différentes méthodes : ARIMA, l'autorégression vectorielle ou l'apprentissage en profondeur. Une méthode que vous pouvez utiliser pour ce projet consiste à mesurer l'augmentation des ventes pour chaque mois et à l'enregistrer. Ensuite, construisez le modèle sur la différence entre les ventes du mois précédent et celles du mois en cours. La prise en compte de facteurs tels que les vacances et la saisonnalité peut améliorer les performances de votre modèle d'apprentissage automatique.

Base de données: Prévision de la demande d'articles du magasin Kaggle

2. Chatbot du service client

Un chatbot du service client utilise des techniques d'IA et d'apprentissage automatique pour répondre aux clients, jouant le rôle d'un représentant humain. Un chatbot doit être capable de répondre à des questions simples pour satisfaire les besoins des clients.

Il existe actuellement trois types de chatbots que vous pouvez créer :

Chatbots basés sur des règles — Ces chatbots ne sont pas intelligents. Ils sont alimentés par un ensemble de règles prédéfinies et ne répondent aux utilisateurs qu'en fonction de ces règles. Certains chatbots sont également fournis avec un ensemble prédéfini de questions et réponses et ne peuvent pas répondre aux requêtes qui ne relèvent pas de ce domaine.
Chatbots indépendants — Les chatbots indépendants utilisent l'apprentissage automatique pour traiter et analyser la demande d'un utilisateur et fournir des réponses en conséquence.
Chatbots PNL — Ces chatbots peuvent comprendre les modèles de mots et faire la distinction entre différentes combinaisons de mots. Ils sont les plus avancés des trois types de chatbots, car ils peuvent trouver quoi dire ensuite en fonction des modèles de mots sur lesquels ils ont été formés.

Un chatbot PNL est une idée intéressante de projet d'apprentissage automatique. Vous aurez besoin d'un corpus de mots existant pour entraîner votre modèle, et vous pouvez facilement trouver des bibliothèques Python pour le faire. Vous pouvez également avoir un dictionnaire prédéfini avec une liste de paires de questions et réponses que vous souhaitez former votre modèle.

3. Système de détection d'objets fauniques

Si vous vivez dans une région où l'on observe fréquemment des animaux sauvages, il est utile de mettre en œuvre un système de détection d'objets pour identifier leur présence dans votre région. Suivez ces étapes pour créer un système comme celui-ci :

Installez des caméras dans la zone que vous souhaitez surveiller.
Téléchargez toutes les séquences vidéo et enregistrez-les.
Créez une application Python pour analyser les images entrantes et identifier les animaux sauvages.

Microsoft a créé une API de reconnaissance d'images à l'aide de données collectées à partir de caméras animalières. Ils ont publié un modèle pré-entraîné open source à cet effet appelé MegaDetector.

Vous pouvez utiliser ce modèle pré-entraîné dans votre application Python pour identifier les animaux sauvages à partir des images collectées. C'est l'un des projets de ML les plus passionnants mentionnés jusqu'à présent et il est assez simple à mettre en œuvre en raison de la disponibilité d'un modèle pré-entraîné à cette fin.

API: MegaDétecteur

4. Système de recommandation de musique Spotify

Spotify utilise l'IA pour recommander de la musique à ses utilisateurs. Vous pouvez essayer de créer un système de recommandation basé sur des données accessibles au public sur Spotify.

Spotify dispose d'une API que vous pouvez utiliser pour récupérer des données audio - vous pouvez trouver des fonctionnalités telles que l'année de sortie, la clé, la popularité et l'artiste. Pour accéder à cette API en Python, vous pouvez utiliser une bibliothèque appelée Spotipy.

Vous pouvez également utiliser l'ensemble de données Spotify sur Kaggle qui contient environ 600 XNUMX lignes. En utilisant ces ensembles de données, vous pouvez suggérer la meilleure alternative au musicien préféré de chaque utilisateur. Vous pouvez également proposer des recommandations de chansons en fonction du contenu et du genre préféré par chaque utilisateur.

Ce système de recommandation peut être construit à l'aide du clustering K-Means — des points de données similaires seront regroupés. Vous pouvez recommander à l'utilisateur final des chansons avec une distance intra-cluster minimale entre elles.

Une fois que vous avez construit le système de recommandation, vous pouvez également le transformer en une simple application Python et la déployer. Vous pouvez demander aux utilisateurs d'entrer leurs chansons préférées sur Spotify, puis d'afficher à l'écran les recommandations de votre modèle qui présentent la plus grande similitude avec les chansons qu'ils ont appréciées.

Base de données: Ensemble de données Kaggle Spotify

5. Analyse du panier de marché

L'analyse du panier de consommation est une technique populaire utilisée par les détaillants pour identifier les articles qui peuvent être vendus ensemble.

Par exemple :

Il y a quelques années, un analyste de recherche a identifié une corrélation entre les ventes de bière et de couches. La plupart du temps, chaque fois qu'un client entrait dans le magasin pour acheter une bière, il achetait également des couches ensemble.

Pour cette raison, les magasins ont commencé à vendre de la bière et des couches ensemble dans la même allée comme stratégie marketing pour augmenter les ventes. Et ça a marché.

Il a été supposé que la bière et les couches avaient une forte corrélation car les hommes les achetaient fréquemment ensemble. Les hommes entraient dans le magasin pour acheter une bière, ainsi que plusieurs autres articles ménagers pour leur famille (y compris des couches). Cela semble être une corrélation assez impossible, mais cela s'est produit.

L'analyse du panier de marché peut aider les entreprises à identifier les corrélations cachées entre les articles qui sont fréquemment achetés ensemble. Ces magasins peuvent ensuite positionner leurs articles de manière à permettre aux gens de les trouver plus facilement.

Vous pouvez utiliser l'ensemble de données Market Basket Optimization sur Kaggle pour créer et entraîner votre modèle. L'algorithme le plus couramment utilisé pour effectuer l'analyse du panier de marché est l'algorithme Apriori.

Base de données: Ensemble de données d'optimisation du panier de marché Kaggle

6. Durée du trajet en taxi à New York

L'ensemble de données contient des variables qui incluent les coordonnées de début et de fin d'un trajet en taxi, l'heure et le nombre de passagers. L'objectif de ce projet ML est de prédire la durée du voyage avec toutes ces variables. C'est un problème de régression.

Les variables telles que l'heure et les coordonnées doivent être prétraitées de manière appropriée et converties dans un format compréhensible. Ce projet n'est pas aussi simple qu'il y paraît. Cet ensemble de données contient également des valeurs aberrantes qui rendent la prédiction plus complexe, vous devrez donc gérer cela avec des techniques d'ingénierie de caractéristiques.

Le critère d'évaluation de ce concours NYC Taxi Trip Kaggle est RMSLE ou Root Mean Squared Log Error. La meilleure soumission sur Kaggle a reçu un score RMSLE de 0.29, et le modèle de base de Kaggle a un RMSLE de 0.89.

Vous pouvez utiliser n'importe quel algorithme de régression pour résoudre ce projet Kaggle, mais les concurrents les plus performants de ce défi ont utilisé des modèles d'amplification de gradient ou des techniques d'apprentissage en profondeur.

Base de données: Ensemble de données sur la durée du trajet en taxi de Kaggle NYC

7. Détection de spam en temps réel

Dans ce projet, vous pouvez utiliser des techniques d'apprentissage automatique pour faire la distinction entre les messages de spam (illégitimes) et les messages de jambon (légitimes).

Pour ce faire, vous pouvez utiliser l'ensemble de données Kaggle SMS Spam Collection. Cet ensemble de données contient un ensemble d'environ 5 XNUMX messages qui ont été étiquetés comme spam ou ham.

Vous pouvez suivre les étapes suivantes pour créer un système de détection de spam en temps réel :

Utilisez l'ensemble de données SMS Spam Collection de Kaggle pour former un modèle d'apprentissage automatique.
Créez un simple serveur de salle de discussion en Python.
Déployez le modèle d'apprentissage automatique sur votre serveur de salle de discussion et assurez-vous que tout le trafic entrant passe par le modèle.
N'autorisez le passage des messages que s'ils sont classés comme du jambon. S'il s'agit de spam, renvoyez plutôt un message d'erreur.

Pour créer le modèle d'apprentissage automatique, vous devez d'abord pré-traiter les messages texte présents dans l'ensemble de données SMS Spam Collection de Kaggle. Ensuite, convertissez ces messages en un sac de mots afin qu'ils puissent facilement être transmis à votre modèle de classification pour la prédiction.

Base de données: Ensemble de données de collecte de spam SMS Kaggle

8. Application de prédiction de personnalité Myers-Briggs

Vous pouvez créer une application pour prédire le type de personnalité d'un utilisateur en fonction de ce qu'il dit.

L'indicateur de type Myers-Briggs classe les individus en 16 types de personnalité différents. C'est l'un des tests de personnalité les plus populaires au monde.

Si vous essayez de trouver votre type de personnalité sur Internet, vous trouverez de nombreux quiz en ligne. Après avoir répondu à environ 20 à 30 questions, vous serez assigné à un type de personnalité.

Cependant, dans ce projet, vous pouvez utiliser l'apprentissage automatique pour prédire le type de personnalité de n'importe qui en se basant uniquement sur une phrase.

Voici les étapes que vous pouvez suivre pour y parvenir :

Construisez un modèle de classification multi-classes et entraînez-le sur l'ensemble de données Myers-Briggs sur Kaggle. Cela implique un pré-traitement des données (suppression des mots vides et des caractères inutiles) et une certaine ingénierie des fonctionnalités. Vous pouvez utiliser un modèle d'apprentissage superficiel comme la régression logistique ou un modèle d'apprentissage profond comme un LSTM à cette fin.
Vous pouvez créer une application qui permet aux utilisateurs d'entrer n'importe quelle phrase de leur choix.
Enregistrez les pondérations de votre modèle d'apprentissage automatique et intégrez le modèle à votre application. Une fois que l'utilisateur final a saisi un mot, affichez son type de personnalité à l'écran une fois que le modèle a fait une prédiction.

Base de données: Jeu de données de type Kaggle MBTI

9. Système de reconnaissance d'humeur + système de recommandation

Avez-vous déjà été triste et ressenti le besoin de regarder quelque chose de drôle pour vous remonter le moral ? Ou vous êtes-vous déjà senti si frustré que vous deviez vous détendre et regarder quelque chose de relaxant ?

Ce projet est une combinaison de deux projets plus petits.

Vous pouvez créer une application qui reconnaît l'humeur d'un utilisateur en fonction de séquences Web en direct et d'une suggestion de film en fonction de l'expression de l'utilisateur.

Pour le construire, vous pouvez suivre les étapes suivantes :

Créez une application capable de recevoir un flux vidéo en direct.
Utilisez l'API de reconnaissance faciale de Python pour détecter les visages et les émotions sur les objets du flux vidéo.
Après avoir classé ces émotions en différentes catégories, commencez à construire le système de recommandation. Il peut s'agir d'un ensemble de valeurs codées en dur pour chaque émotion, ce qui signifie que vous n'avez pas besoin d'impliquer l'apprentissage automatique pour les recommandations.
Une fois que vous avez terminé de créer l'application, vous pouvez la déployer sur Heroku, Dash ou un serveur Web.

API: API de reconnaissance faciale

10. Analyse des sentiments des commentaires YouTube

Dans ce projet, vous pouvez créer un tableau de bord analysant le sentiment général des YouTubers populaires.

Plus de 2 milliards d'utilisateurs regardent des vidéos YouTube au moins une fois par mois. Les YouTubers populaires recueillent des centaines de milliards de vues avec leur contenu. Cependant, bon nombre de ces influenceurs ont été critiqués en raison de controverses dans le passé, et la perception du public change constamment.

Vous pouvez créer un modèle d'analyse des sentiments et créer un tableau de bord pour visualiser les sentiments autour des célébrités au fil du temps.

Pour le construire, vous pouvez suivre les étapes suivantes :

Grattez les commentaires des vidéos des YouTubers que vous souhaitez analyser.
Utilisez un modèle d'analyse des sentiments pré-entraîné pour faire des prédictions sur chaque commentaire.
Visualisez les prédictions du modèle sur un tableau de bord. Vous pouvez même créer une application de tableau de bord à l'aide de bibliothèques telles que Dash (Python) ou Shiny (R).
Vous pouvez rendre le tableau de bord interactif en permettant aux utilisateurs de filtrer les sentiments par période, nom du YouTuber et genre de vidéo.

API: Grattoir de commentaires YouTube

Résumé

L'industrie de l'apprentissage automatique est vaste et pleine d'opportunités. Si vous souhaitez percer dans l'industrie sans formation formelle, la meilleure façon de montrer que vous avez les compétences nécessaires pour faire le travail est de réaliser des projets.

L'aspect machine learning de la plupart des projets énumérés ci-dessus est assez simple. En raison de la démocratisation de l'apprentissage automatique, le processus de création de modèles peut être facilement réalisé grâce à des modèles et des API pré-entraînés.

Des projets d'intelligence artificielle open source comme Keras et FastAI ont également contribué à accélérer le processus de création de modèles. La partie délicate de ces apprentissages automatiques et projets de science des données est la collecte, le pré-traitement et le déploiement des données. Si vous décrochez un emploi dans l'apprentissage automatique, la plupart des algorithmes seront assez simples à créer. Il ne vous faudra qu'un jour ou deux pour créer un modèle de prévision des ventes. Vous passerez le plus clair de votre temps à trouver des sources de données appropriées et à mettre vos modèles en production pour en tirer une valeur commerciale.

ORIGINALE. Republié avec permission.

Connexe: