20 Machine Learning-projecten waarmee u aangenomen kunt worden
Als je wilt doorbreken op de arbeidsmarkt voor machine learning en datawetenschap, moet je de vaardigheid van je vaardigheden aantonen, vooral als je autodidact bent via online cursussen en bootcamps. Een projectportfolio is een geweldige manier om uw nieuwe ambacht te oefenen en overtuigend bewijs te leveren dat een werknemer u zou moeten aannemen boven de concurrentie.
By Khushbu Sjah, Content Manager bij ProjectPro.
De AI- en Machine Learning-industrie bloeit als nooit tevoren. Vanaf 2021 zal de toename van het AI-gebruik in bedrijven $ 2.9 biljoen aan bedrijfswaarde creรซren. AI heeft veel industrieรซn over de hele wereld geautomatiseerd en de manier waarop ze werken veranderd. De meeste grote bedrijven gebruiken AI om de productiviteit in hun workflow te maximaliseren, en industrieรซn zoals marketing en gezondheidszorg hebben een paradigmaverschuiving ondergaan als gevolg van de consolidatie van AI.
Afbeeldingsbron: Unsplash
Hierdoor is er de laatste jaren steeds meer vraag naar AI-professionals. Het aantal vacatures op het gebied van AI en machine learning is tussen 100 en 2015 bijna 2018% gestegen. Dit aantal is sindsdien gegroeid en zal naar verwachting in 2021 stijgen.
Als u op zoek bent naar een doorbraak in de machine learning-industrie, is het goede nieuws dat er geen tekort is aan banen. Bedrijven hebben getalenteerde medewerkers nodig die in staat zijn om de verschuiving naar machine learning te pionieren. De arbeidsmarkt wordt echter geรฏnfiltreerd door mensen die willen inbreken in de data-industrie. Aangezien er geen specifieke opleiding is gericht op studenten die machine learning willen leren, zijn veel aspirant-ML-beoefenaars autodidact.
Er zijn meer dan 4 miljoen studenten ingeschreven voor de online cursus machine learning van Andrew Ng.
Helaas helpt het inschrijven voor online cursussen of het volgen van een machine learning Bootcamp je wel om de theoretische concepten te leren, maar bereidt je niet voor op een baan in de branche. Er is nog veel meer hands-on werk te doen, nadat je de theorie hebt geleerd. Stel dat u de basis van machine learning-algoritmen kent: u begrijpt hoe regressie- en classificatiemodellen werken en u kent de verschillende soorten clusteringmethoden.
Hoe ga je de vaardigheden oefenen die je hebt geleerd om een โโreรซel probleem op te lossen? Het simpele antwoord is: Oefen, Oefen en Oefen divers machine learning-projecten.
Als je klaar bent met het leren van theoretische concepten, zou je moeten gaan werken aan AI- en machine learning-projecten. Deze projecten geven je de nodige oefening om je vaardigheden in het veld aan te scherpen, en zijn tegelijkertijd een grote toegevoegde waarde voor je machine learning-portfolio.
Laten we zonder veel oponthoud enkele ML-projectideeรซn verkennen die niet alleen uw portfolio er goed uit laten zien, maar ook uw machine learning-vaardigheden aanzienlijk zullen verbeteren. Dit is een samengestelde lijst van enkele van de beste machine learning-projecten voor studenten, beginnende machine learning-beoefenaars en personen uit niet-technische domeinen. Je kunt aan deze projecten werken, ongeacht je achtergrond, zolang je enige codering en kennis van machine learning-vaardigheden hebt. Dit is een lijst met machine learning-projecten voor beginners en gevorderden.
Als je nieuw bent in de data-industrie en weinig ervaring hebt met real-life projecten, begin dan met ML-projecten op beginnersniveau voordat je doorgaat naar de meer uitdagende projecten.
Machine Learning-projecten voor beginners
1. Kaggle Titanic-voorspelling
Het eerste project op deze lijst is een van de meest eenvoudige ML-projecten die u kunt aannemen. Dit project wordt aanbevolen om beginners in de data-industrie te voltooien. De Titanic-dataset is beschikbaar op Kaggle en de link om deze te downloaden wordt hieronder gegeven.
Deze dataset is van passagiers die op de titanic hebben gereisd. Het heeft details zoals passagiersleeftijd, ticketprijs, cabine en geslacht. Op basis van deze informatie moet u voorspellen of deze passagiers het hebben overleefd of niet.
Het is een eenvoudig binair classificatieprobleem en u hoeft alleen maar te voorspellen of een bepaalde passagier het heeft overleefd. Het beste van deze dataset is dat alle voorbewerkingen voor je worden gedaan. Je hebt een mooie, schone dataset om je machine learning-model te trainen.
Aangezien dit een classificatieprobleem is, kunt u ervoor kiezen om algoritmen zoals logistische regressie, beslissingsbomen en willekeurige forests te gebruiken om het voorspellende model te bouwen. U kunt voor dit machine learning-project op beginnersniveau ook gradiรซntverhogende modellen kiezen, zoals een XGBoost-classificatie, om betere resultaten te krijgen.
Gegevensset: Kaggle Titanic-gegevensset
2. Huisprijsvoorspelling
Gegevens over huizenprijzen zijn ook geweldig om mee te beginnen als u een beginner bent op het gebied van machine learning. Dit project maakt gebruik van de gegevensset van huizenprijzen die beschikbaar is op Kaggle. De doelvariabele in deze dataset is de prijs van een bepaald huis, die u moet voorspellen met behulp van informatie zoals de oppervlakte van het huis, het aantal slaapkamers, het aantal badkamers en nutsvoorzieningen.
Het is een regressieprobleem en je kunt technieken zoals lineaire regressie gebruiken om het model te bouwen. U kunt ook een meer geavanceerde benadering volgen en een willekeurige bosregressor of gradiรซntverhoging gebruiken om huizenprijzen te voorspellen.
Deze dataset heeft 80 kolommen, exclusief de doelvariabele. U moet enkele technieken voor dimensionaliteitsreductie gebruiken om kenmerken met de hand te kiezen, omdat het toevoegen van te veel variabelen ertoe kan leiden dat uw model slecht presteert.
Er zijn ook veel categorische variabelen in de dataset, dus je moet er goed mee omgaan door technieken zoals one-hot encoding of label-encoding te gebruiken.
Nadat u uw model heeft gebouwd, kunt u uw voorspellingen indienen bij de prijsvraag voor huizen in Kaggle, aangezien deze nog open is. De beste RMSE die door concurrenten wordt behaald, is 0, en veel mensen hebben goede resultaten behaald, zoals 0.15 met behulp van regressie- en gradiรซntverhogende technieken.
Gegevensset: Kaggle House Prijsvoorspellingsgegevensset
3. Voorspelling van wijnkwaliteit
De voorspellingsdataset voor wijnkwaliteit is ook erg populair bij beginners in de data-industrie. In dit project gebruik je vaste zuurgraad, vluchtige zuren, alcohol en dichtheid om de kwaliteit van rode wijn te voorspellen.
Dit kan worden behandeld als een classificatie- of regressieprobleem. De wijn kwaliteit variabele die u moet voorspellen in de dataset varieert van 0-10, zodat u een regressiemodel kunt bouwen om te voorspellen. Een andere benadering die u kunt volgen, is om de waarden (van 0-10) op te splitsen in discrete intervallen en deze om te zetten in categorische variabelen. U kunt bijvoorbeeld drie categorieรซn maken: laag, gemiddeld, en hoog.
U kunt vervolgens een beslissingsboomclassificatie of een classificatiemodel bouwen om de voorspelling te doen. Het is een relatief schone en eenvoudige dataset om je regressie- en classificatiemachine learning-vaardigheden te oefenen.
Gegevensset: Kaggle Rode Wijn Kwaliteitsgegevensset
4. Voorspelling van hartziekten
Als u op zoek bent naar een dataset in de gezondheidszorg, is dit een geweldige dataset voor beginners om mee te beginnen. Deze dataset wordt gebruikt om het 10-jaarsrisico op CHD (Coronary Heart Disease) te voorspellen. De afhankelijke variabelen in deze dataset zijn de risicofactoren voor hartziekten, waaronder diabetes, roken, hoge bloeddruk en hoog cholesterolgehalte.
De onafhankelijke variabele is het 10-jaarsrisico op CHD. Het is een binair classificatieprobleem en de doelvariabele is 0 of 1-0 voor de patiรซnten die nooit een hartziekte ontwikkelden en 1 voor de patiรซnten die dat wel deden. U kunt een functieselectie uitvoeren op deze dataset om kenmerken te identificeren die het meest bijdragen aan hartrisico's. Vervolgens kunt u een classificatiemodel op de onafhankelijke variabelen passen.
Deze dataset is zeer onevenwichtig omdat veel van de patiรซnten in deze dataset dat wel deden niet hartziekte ontwikkelen. Een onevenwichtige dataset moet worden behandeld met behulp van de juiste feature-engineeringtechnieken, zoals oversampling, weight-tuning of undersampling. Als je er niet goed mee omgaat, krijg je een model dat eenvoudigweg de meerderheidsklasse voor elk datapunt voorspelt en geen patiรซnten kan identificeren die deed hartziekte ontwikkelen. Dit is een uitstekende dataset waarmee u uw vaardigheden op het gebied van feature-engineering en machine learning kunt oefenen.
Gegevensset: Kaggle Hartziekte Dataset
5. MNIST-cijferclassificatie
De MNIST dataset is uw opstap naar deep learning. Deze dataset bestaat uit grijswaardenafbeeldingen van handgeschreven cijfers van 0 tot 9. Uw taak zou zijn om het cijfer te identificeren met behulp van een deep learning-algoritme. Dit is een classificatieprobleem met meerdere klassen met tien mogelijke outputklassen. U kunt een CNN (Convolutional Neural Network) gebruiken om deze classificatie uit te voeren.
De MNIST-dataset is gebouwd in de Keras-bibliotheek in Python. Het enige wat u hoeft te doen is Keras installeren, de bibliotheek importeren en de dataset laden. Deze dataset heeft ongeveer 60,000 afbeeldingen, zodat u ongeveer 80% van deze afbeeldingen kunt gebruiken voor training en nog eens 20% voor testen.
Gegevensset: Kaggle Digit Recognizer-gegevensset
6. Sentimentanalyse van Twitter-gegevens
Er zijn veel datasets voor Twitter-sentimentanalyse beschikbaar op Kaggle. Een van de meest populaire datasets is sentiment140, die 1.6 miljoen voorverwerkte Tweets bevat. Dit is een geweldige dataset om mee te beginnen als sentimentanalyse nieuw voor u is.
Deze Tweets zijn geannoteerd en de doelvariabele is het sentiment. De unieke waarden in deze kolom zijn 0 (negatief), 2 (neutraal) en 4 (positief).
Nadat je deze Tweets hebt voorbewerkt en ze in vectoren hebt omgezet, kun je een classificatiemodel gebruiken om ze te trainen met het bijbehorende sentiment. U kunt voor deze taak algoritmen gebruiken zoals logistische regressie, beslissingsboomclassificatie of XGBoost-classificatie.
Een ander alternatief is om een โโdeep learning-model zoals LSTM te gebruiken om sentimentvoorspelling te doen. Dit is echter een iets meer uitdagende aanpak en valt in de categorie geavanceerde projecten.
U kunt deze gelabelde dataset ook gebruiken als basis voor toekomstige sentimentanalysetaken.
Als je Tweets hebt die je wilt verzamelen en waarop je sentimentanalyse wilt uitvoeren, kun je een model gebruiken dat eerder is getraind op sentiment140 om toekomstige voorspellingen te doen.
Gegevensset: Kaggle Sentiment140-gegevensset
7. Pima Indiase diabetesvoorspelling
De Pima Indian Diabetes Dataset wordt gebruikt om op basis van diagnostische metingen te voorspellen of een patiรซnt diabetes heeft.
Op basis van variabelen zoals BMI, leeftijd en insuline zal het model diabetes bij patiรซnten voorspellen. Deze dataset heeft negen variabelen: acht onafhankelijke variabelen en รฉรฉn doelvariabele.
De doelvariabele is 'suikerziekte', dus je voorspelt 1 voor de aanwezigheid van diabetes of 0 voor de afwezigheid van diabetes.
Dit is een classificatieprobleem om te experimenteren met modellen zoals logistische regressie, beslissingsboomclassificatie of willekeurige bosclassificatie.
Alle onafhankelijke variabelen in deze dataset zijn numeriek, dus dit is een geweldige dataset om mee te beginnen als je minimale ervaring hebt met feature-engineering.
Dit is een Kaggle-dataset die openstaat voor beginners. Er zijn veel online tutorials die je helpen bij het coderen van de oplossing in Python en R. Deze tutorials voor notebooks zijn een geweldige manier om te leren en je handen vuil te maken, zodat je verder kunt gaan met complexere projecten.
Gegevensset: Kaggle Pima Indiase diabetesgegevensset
8. Classificatie van borstkanker
De dataset voor borstkankerclassificatie op Kaggle is een andere uitstekende manier om uw machine learning en AI-vaardigheden te oefenen.
De meeste gesuperviseerde machine learning-problemen in de echte wereld zijn classificatieproblemen zoals deze. Een belangrijke uitdaging bij de identificatie van borstkanker is het onvermogen om onderscheid te maken tussen goedaardige (niet-kankerachtige) en kwaadaardige (kankerachtige) tumoren. De dataset heeft variabelen zoals "radius_mean" en "area_mean" van de tumor, en u zult op basis van deze kenmerken moeten classificeren of een tumor kankerachtig is of niet. Deze dataset is relatief eenvoudig om mee te werken, omdat er geen significante voorbewerking van de gegevens nodig is. Het is ook een goed uitgebalanceerde dataset, waardoor uw taak beter beheersbaar is omdat u niet veel feature-engineering hoeft te doen.
Het trainen van een eenvoudige logistische regressieclassificator op deze dataset kan u een nauwkeurigheid tot 0.90 opleveren.
Gegevensset: Kaggle dataset voor borstkankerclassificatie
9. TMDB Box Office-voorspelling
Deze Kaggle-dataset is een geweldige manier om je regressievaardigheden te oefenen. Het bestaat uit ongeveer 7000 films en u zult de aanwezige variabelen moeten gebruiken om de inkomsten van de film te voorspellen.
Aanwezige datapunten zijn onder meer cast, crew, budget, talen en releasedatums. Er zijn 23 variabelen in de dataset, waarvan er รฉรฉn de doelvariabele is.
Een basis lineair regressiemodel kan u een R-kwadraat van meer dan 0.60 geven, dus u kunt dit gebruiken als uw basislijnvoorspellingsmodel. Probeer deze score te verbeteren met technieken zoals XGBoost-regressie of Light GBM.
Deze gegevensset is iets complexer dan de vorige, omdat sommige kolommen gegevens bevatten in geneste woordenboeken. U moet wat extra voorbewerking doen om deze gegevens in een bruikbaar formaat te extraheren om er een model op te trainen.
Inkomstenprognoses zijn een geweldig project om in uw portfolio te laten zien, omdat het zakelijke waarde biedt aan verschillende domeinen buiten de filmindustrie.
Gegevensset: Kaggle TMDB Box Office-voorspellingsgegevensset
10. Klantsegmentatie in Python
De dataset voor klantsegmentatie op Kaggle is een geweldige manier om aan de slag te gaan met machine learning zonder toezicht. Deze dataset bestaat uit klantgegevens zoals hun leeftijd, geslacht, jaarinkomen en bestedingsscore.
U moet deze variabelen gebruiken om klantsegmenten op te bouwen. Klanten die gelijk zijn, moeten in vergelijkbare clusters worden gegroepeerd. U kunt voor deze taak algoritmen zoals K-Means-clustering of hiรซrarchische clustering gebruiken. Klantsegmentatiemodellen kunnen bedrijfswaarde bieden.
Bedrijven willen hun klanten vaak scheiden om voor elk klanttype verschillende marketingtechnieken te bedenken.
De belangrijkste doelen van deze dataset zijn onder meer:
- Klantsegmentatie realiseren met behulp van machine learning-technieken
- Identificeer uw doelklanten voor verschillende marketingstrategieรซn
- Begrijpen hoe marketingstrategieรซn in de echte wereld werken
Het bouwen van een clustermodel voor deze taak kan uw portfolio helpen opvallen, en segmentatie is een geweldige vaardigheid om te hebben als u op zoek bent naar een AI-gerelateerde baan in de marketingindustrie.
Gegevensset: Kaggle Mall-gegevensset voor klantsegmentatie
Intermediate/Advanced Level Machine Learning-projecten voor je CV
Als je klaar bent met het werken aan eenvoudige machine learning-projecten zoals de hierboven genoemde, kun je doorgaan naar meer uitdagende projecten.
1. Verkoopprognoses
Tijdreeksvoorspelling is een machine learning-techniek die heel vaak in de industrie wordt gebruikt. Het gebruik van gegevens uit het verleden om toekomstige verkopen te voorspellen, heeft een groot aantal zakelijke use-cases. De Kaggle Demand Forecasting-dataset kan worden gebruikt om dit project te oefenen.
Deze dataset bevat verkoopgegevens van 5 jaar en u moet de verkoop voor de komende drie maanden voorspellen. Er zijn tien verschillende winkels in de dataset en er zijn 50 artikelen in elke winkel.
Om de verkoop te voorspellen, kunt u verschillende methoden uitproberen: ARIMA, Vector Autoregression of deep learning. Een methode die u voor dit project kunt gebruiken, is om de omzetstijging voor elke maand te meten en vast te leggen. Bouw vervolgens het model op het verschil tussen de verkoop van de vorige maand en de huidige maand. Door rekening te houden met factoren zoals feestdagen en seizoensinvloeden, kunnen de prestaties van uw machine learning-model worden verbeterd.
Gegevensset: Kaggle Store Item Vraagvoorspelling
2. Klantenservicechatbot
Een chatbot voor de klantenservice gebruikt AI- en machine learning-technieken om klanten te antwoorden, waarbij hij de rol van menselijke vertegenwoordiger op zich neemt. Een chatbot moet eenvoudige vragen kunnen beantwoorden om aan de behoeften van de klant te voldoen.
Er zijn momenteel drie soorten chatbots die je kunt bouwen:
- Op regels gebaseerde chatbots โ Deze chatbots zijn niet intelligent. Ze krijgen een reeks vooraf gedefinieerde regels te zien en reageren alleen op gebruikers op basis van deze regels. Sommige chatbots zijn ook voorzien van een vooraf gedefinieerde set vragen en antwoorden en kunnen geen vragen beantwoorden die buiten dit domein vallen.
- Onafhankelijke chatbots โ Onafhankelijke chatbots maken gebruik van machine learning om het verzoek van een gebruiker te verwerken en te analyseren en dienovereenkomstig te reageren.
- NLP Chatbots โ Deze chatbots kunnen patronen in woorden begrijpen en onderscheid maken tussen verschillende woordcombinaties. Ze zijn de meest geavanceerde van alle drie de typen chatbots, omdat ze kunnen bedenken wat ze vervolgens moeten zeggen op basis van de woordpatronen waarop ze zijn getraind.
Een NLP-chatbot is een interessant idee voor een machine learning-project. Je hebt een bestaand corpus van woorden nodig om je model op te trainen, en je kunt gemakkelijk Python-bibliotheken vinden om dit te doen. U kunt ook een vooraf gedefinieerd woordenboek hebben met een lijst van vraag- en antwoordparen waarmee u uw model wilt trainen.
3. Detectiesysteem voor dieren in het wild
Als u in een gebied woont waar vaak wilde dieren worden waargenomen, is het handig om een โโobjectdetectiesysteem te implementeren om hun aanwezigheid in uw gebied te identificeren. Volg deze stappen om een โโsysteem als dit te bouwen:
- Installeer camera's in het gebied dat u wilt bewaken.
- Download alle videobeelden en sla ze op.
- Maak een Python-toepassing om binnenkomende afbeeldingen te analyseren en wilde dieren te identificeren.
Microsoft heeft een Image Recognition API gebouwd met behulp van gegevens die zijn verzameld van natuurcamera's. Voor dit doel hebben ze een open-source vooraf getraind model uitgebracht, een MegaDetector.
U kunt dit vooraf getrainde model in uw Python-toepassing gebruiken om wilde dieren te identificeren op basis van de verzamelde afbeeldingen. Het is een van de meest opwindende ML-projecten die tot nu toe zijn genoemd en is vrij eenvoudig te implementeren vanwege de beschikbaarheid van een vooraf getraind model voor dit doel.
API: Megadetector
4. Spotify Music Recommender-systeem
Spotify gebruikt AI om zijn gebruikers muziek aan te bevelen. U kunt proberen een aanbevelingssysteem te bouwen op basis van openbaar beschikbare gegevens op Spotify.
Spotify heeft een API die u kunt gebruiken om audiogegevens op te halen - u kunt functies vinden zoals het jaar van uitgave, sleutel, populariteit en artiest. Om toegang te krijgen tot deze API in Python, kunt u een bibliotheek gebruiken met de naam Spotipy.
U kunt ook de Spotify-dataset op Kaggle gebruiken die ongeveer 600K rijen heeft. Met behulp van deze datasets kun je het beste alternatief voorstellen voor de favoriete muzikant van elke gebruiker. U kunt ook aanbevelingen voor nummers doen op basis van de inhoud en het genre dat de voorkeur heeft van elke gebruiker.
Dit aanbevelingssysteem kan worden gebouwd met behulp van K-Means-clustering - vergelijkbare gegevenspunten worden gegroepeerd. U kunt de eindgebruiker nummers aanbevelen met een minimale intra-clusterafstand ertussen.
Nadat u het aanbevelingssysteem hebt gebouwd, kunt u er ook een eenvoudige Python-app van maken en deze implementeren. U kunt gebruikers hun favoriete nummers laten invoeren op Spotify en vervolgens uw modelaanbevelingen op het scherm weergeven die de grootste overeenkomst hebben met de nummers die ze leuk vonden.
Gegevensset: Kaggle Spotify-gegevensset
5. Marktmandanalyse
Marktmandanalyse is een populaire techniek die door retailers wordt gebruikt om artikelen te identificeren die samen kunnen worden verkocht.
Bijvoorbeeld:
Een paar jaar geleden ontdekte een onderzoeksanalist een verband tussen de verkoop van bier en luiers. Meestal, als een klant de winkel binnenkwam om een โโbiertje te kopen, kochten ze ook samen luiers.
Hierdoor begonnen winkels bier en luiers samen te verkopen in hetzelfde gangpad als een marketingstrategie om de verkoop te vergroten. En het werkte.
Er werd aangenomen dat bier en luiers een hoge correlatie hadden, aangezien mannen ze vaak samen kochten. Mannen liepen de winkel binnen om een โโbiertje te kopen, samen met verschillende andere huishoudelijke artikelen voor hun gezin (inclusief luiers). Dit lijkt een vrij onmogelijke correlatie, maar het is gebeurd.
Marktmandanalyse kan bedrijven helpen verborgen correlaties te identificeren tussen artikelen die vaak samen worden gekocht. Deze winkels kunnen hun artikelen vervolgens zo plaatsen dat mensen ze gemakkelijker kunnen vinden.
U kunt de dataset Market Basket Optimization op Kaggle gebruiken om uw model te bouwen en te trainen. Het meest gebruikte algoritme dat wordt gebruikt om Market Basket Analysis uit te voeren, is het Apriori-algoritme.
Gegevensset: Kaggle Market Basket optimalisatie dataset
6. Duur van de taxirit in NYC
De dataset heeft variabelen die de begin- en eindcoรถrdinaten van een taxirit, de tijd en het aantal passagiers bevatten. Het doel van dit ML-project is om de reisduur te voorspellen met al deze variabelen. Het is een regressieprobleem.
Variabelen zoals tijd en coรถrdinaten moeten op de juiste manier worden voorbewerkt en omgezet in een begrijpelijk formaat. Dit project is niet zo eenvoudig als het lijkt. Deze dataset heeft ook enkele uitschieters die de voorspelling complexer maken, dus u zult dit moeten aanpakken met feature-engineeringtechnieken.
De evaluatiecriteria voor deze NYC Taxi Trip Kaggle-competitie zijn RMSLE of de Root Mean Squared Log Error. De beste inzending op Kaggle kreeg een RMSLE-score van 0.29 en het basismodel van Kaggle heeft een RMSLE van 0.89.
Je kunt elk regressie-algoritme gebruiken om dit Kaggle-project op te lossen, maar de best presterende concurrenten van deze uitdaging hebben ofwel gradiรซntverhogende modellen of diepgaande leertechnieken gebruikt.
Gegevensset: Kaggle NYC Taxi Trip Duur Dataset
7. Realtime spamdetectie
In dit project kun je machine learning-technieken gebruiken om onderscheid te maken tussen spam (onwettig) en ham (legitiem) berichten.
Om dit te bereiken kunt u de Kaggle SMS Spam Collection dataset gebruiken. Deze dataset bevat een set van ongeveer 5K berichten die zijn bestempeld als spam of ham.
U kunt de volgende stappen nemen om een โโrealtime spamdetectiesysteem te bouwen:
- Gebruik de SMS Spam Collection-dataset van Kaggle om een โโmachine learning-model te trainen.
- Maak een eenvoudige chatroomserver in Python.
- Implementeer het machine learning-model op uw chatroomserver en zorg ervoor dat al het inkomende verkeer door het model gaat.
- Laat berichten alleen door als ze zijn geclassificeerd als ham. Als het spam is, stuur dan een foutmelding terug.
Om het machine learning-model te bouwen, moet u eerst de tekstberichten in de SMS Spam Collection-dataset van Kaggle vooraf verwerken. Zet deze berichten vervolgens om in een zak met woorden, zodat ze gemakkelijk kunnen worden doorgegeven aan uw classificatiemodel voor voorspelling.
Gegevensset: Kaggle SMS Spam Verzameling Dataset
8. Myers-Briggs Personality Prediction-app
U kunt een app maken om het persoonlijkheidstype van een gebruiker te voorspellen op basis van wat ze zeggen.
De Myers-Briggs type-indicator categoriseert individuen in 16 verschillende persoonlijkheidstypes. Het is een van de meest populaire persoonlijkheidstesten ter wereld.
Als u uw persoonlijkheidstype op internet probeert te vinden, vindt u veel online quizzen. Na het beantwoorden van ongeveer 20-30 vragen, wordt u toegewezen aan een persoonlijkheidstype.
In dit project kun je echter machine learning gebruiken om iemands persoonlijkheidstype te voorspellen op basis van slechts รฉรฉn zin.
Dit zijn de stappen die u kunt nemen om dit te bereiken:
- Bouw een classificatiemodel met meerdere klassen en train het op de Myers-Briggs-dataset op Kaggle. Dit omvat voorbewerking van gegevens (verwijderen van stopwoorden en onnodige tekens) en enige feature-engineering. U kunt hiervoor een ondiep leermodel zoals logistische regressie of een diep leermodel zoals een LSTM gebruiken.
- U kunt een toepassing maken waarmee gebruikers elke zin naar keuze kunnen invoeren.
- Sla de gewichten van uw machine learning-model op en integreer het model met uw app. Nadat de eindgebruiker een woord heeft ingevoerd, wordt zijn persoonlijkheidstype op het scherm weergegeven nadat het model een voorspelling heeft gedaan.
Gegevensset: Kaggle MBTI Type-gegevensset
9. Stemmingsherkenningssysteem + aanbevelingssysteem
Ben je ooit verdrietig geweest en had je het gevoel dat je iets grappigs moest zien om je op te vrolijken? Of heb je je ooit zo gefrustreerd gevoeld dat je moest ontspannen en naar iets ontspannends moest kijken?
Dit project is een combinatie van twee kleinere projecten.
U kunt een app bouwen die de stemming van een gebruiker herkent op basis van live webbeelden en een filmsuggestie op basis van de uitdrukking van de gebruiker.
Om dit te bouwen, kunt u de volgende stappen ondernemen:
- Maak een app die een live videofeed kan opnemen.
- Gebruik de gezichtsherkennings-API van Python om gezichten en emoties op objecten in de videofeed te detecteren.
- Nadat je deze emoties in verschillende categorieรซn hebt ingedeeld, kun je beginnen met het bouwen van het aanbevelingssysteem. Dit kan een set hardgecodeerde waarden zijn voor elke emotie, wat betekent dat u geen machine learning hoeft te gebruiken voor de aanbevelingen.
- Als u klaar bent met het bouwen van de app, kunt u deze implementeren op Heroku, Dash of een webserver.
10. YouTube-reactiesentimentanalyse
In dit project kun je een dashboard maken dat het algemene sentiment van populaire YouTubers analyseert.
Meer dan 2 miljard gebruikers bekijken minstens รฉรฉn keer per maand YouTube-video's. Populaire YouTubers krijgen honderden miljarden views met hun inhoud. Veel van deze influencers zijn echter onder vuur komen te liggen als gevolg van controverses in het verleden, en de publieke perceptie verandert voortdurend.
U kunt een sentimentanalysemodel bouwen en een dashboard maken om sentimenten rond beroemdheden in de loop van de tijd te visualiseren.
Om dit te bouwen, kunt u de volgende stappen ondernemen:
- Schraap opmerkingen van de video's door de YouTubers die je wilt analyseren.
- Gebruik een vooraf getraind sentimentanalysemodel om voorspellingen te doen voor elke opmerking.
- Visualiseer de voorspellingen van het model op een dashboard. U kunt zelfs een dashboard-app maken met bibliotheken zoals Dash (Python) of Shiny (R).
- U kunt het dashboard interactief maken door gebruikers toe te staan โโhet sentiment te filteren op tijdsbestek, naam van YouTuber en videogenre.
API: YouTube-commentaar schraper
Samengevat
De machine learning-industrie is groot en biedt volop kansen. Als je wilt doorbreken in de branche zonder formele opleidingsachtergrond, is de beste manier om te laten zien dat je over de vaardigheden beschikt die nodig zijn om het werk te doen, door middel van projecten.
Het machine learning-aspect van de meeste hierboven genoemde projecten is vrij eenvoudig. Door de democratisering van machine learning kan het modelbouwproces eenvoudig worden bereikt door middel van vooraf getrainde modellen en API's.
Open source kunstmatige-intelligentieprojecten zoals Keras en FastAI hebben ook bijgedragen aan het versnellen van het modelbouwproces. Het lastige van deze machine learning en data science-projecten is de gegevensverzameling, voorverwerking en implementatie. Als je een baan in machine learning krijgt, zijn de meeste algoritmen vrij eenvoudig te bouwen. Het duurt slechts een dag of twee om een โโverkoopvoorspellingsmodel te maken. U besteedt het grootste deel van uw tijd aan het vinden van geschikte gegevensbronnen en het in productie nemen van uw modellen om zakelijke waarde te genereren.
ORIGINELE. Met toestemming opnieuw gepost.
Zie ook:
Bron: https://www.kdnuggets.com/2021/09/20-machine-learning-projects-hired.html
- "
- &
- 000
- 2021
- 9
- toegang
- Account
- Extra
- AI
- Alcohol
- algoritme
- algoritmen
- Alles
- Het toestaan
- analyse
- analist
- dieren
- api
- APIs
- gebruiken
- Aanvraag
- apps
- GEBIED
- rond
- kunstmatige intelligentie
- kunstenaar
- audio
- geautomatiseerde
- beschikbaarheid
- Zak met woorden
- Baseline
- De Basis
- bier
- BEST
- Miljard
- bloed
- het stimuleren
- Box camera's
- box office
- Borstkanker
- bouw
- Gebouw
- bedrijfsdeskundigen
- ondernemingen
- kopen
- camera's
- Kanker
- gevallen
- beroemdheden
- uitdagen
- Chatbot
- chatbots
- classificatie
- CNN
- codering
- Kolom
- opmerkingen
- Bedrijven
- concurrentie
- concurrenten
- consolidering
- content
- convolutioneel neuraal netwerk
- Koppel
- Klantenservice
- Klanten
- Dash
- dashboards
- gegevens
- data science
- Data
- dag
- transactie
- beslissingsboom
- diepgaand leren
- Vraag
- Eis voorspelling
- Opsporing
- Diabetes
- DEED
- Cijfer
- cijfers
- Ziekte
- afstand
- domeinen
- onderwijs
- emoties
- Engineering
- Komt binnen
- Excel
- ervaring
- experiment
- Gezicht
- gezichtsherkenning
- gezichten
- familie
- Kenmerk
- Voordelen
- Fed
- Film
- Brand
- Voornaam*
- geschikt
- volgen
- formaat
- vol
- grappig
- toekomst
- Geslacht
- Doelen
- goed
- grijstinten
- groot
- gezondheidszorg
- gezondheidszorg
- Hoge
- huren
- vakantie
- Huis
- huishouden
- Hoe
- HTTPS
- Honderden
- idee
- Identificatie
- identificeren
- beeld
- Beeldherkenning
- Inclusief
- Inkomen
- Laat uw omzet
- industrieรซn
- -industrie
- influencers
- informatie
- Intelligentie
- interactieve
- Internet
- IT
- Jobomschrijving:
- Vacatures
- Keras
- sleutel
- Talen
- Groot
- LEARN
- geleerd
- leren
- Niveau
- Bibliotheek
- licht
- LINK
- Lijst
- laden
- lang
- machine learning
- Machine Learning-technieken
- Meerderheid
- maken
- Markt
- Marketing
- Marketing industrie
- maatregel
- Medium
- Heren
- Microsoft
- miljoen
- ML
- model
- maanden
- stemming
- Meest populair
- beweging
- filmpje
- Films
- Muziek
- Muzikant
- netwerk
- Neural
- neuraal netwerk
- nieuws
- nlp
- NYC
- Objectdetectie
- bieden
- online.
- online cursus
- open
- Kansen
- Overige
- paradigma
- patiรซnten
- Mensen
- prestatie
- persoonlijkheid
- Populair
- portfolio
- voorspelling
- Voorspellingen
- presenteren
- druk
- prijs
- Prijsvoorspelling
- prijsstelling
- Productie
- produktiviteit
- professionals
- Programma
- project
- projecten
- publiek
- Python
- kwaliteit
- echte wereld
- real-time
- regressie
- onderzoek
- Resultaten
- verkooppunten
- inkomsten
- Risico
- risicofactoren
- reglement
- verkoop
- Wetenschap
- wetenschappers
- scherm
- sentiment
- reeks
- verschuiving
- Eenvoudig
- vaardigheden
- SMS
- So
- uitverkocht
- OPLOSSEN
- spam
- snelheid
- besteden
- Uitgaven
- Spotify
- begin
- gestart
- shop
- winkels
- Blog
- Strategie
- system
- doelwit
- Testen
- testen
- The Basics
- de wereld
- niet de tijd of
- top
- verkeer
- Trainingen
- tutorials
- X
- gebruikers
- utilities
- waarde
- Video
- Video's
- Bekijk de introductievideo
- web
- webserver
- WIE
- wildlife
- WIJN
- binnen
- woorden
- Mijn werk
- workflow
- Workforce
- wereld
- X
- jaar
- jaar
- youtube
- youtuber