Återutgiven av Platon

anhängare: 0

20 maskininlärningsprojekt som får dig att anställa

Taggar: Karriär, Maskininlärning, Projekt

Om du vill ta dig in på arbetsmarknaden för maskininlärning och datavetenskap, måste du visa dina färdigheter, särskilt om du är självlärd genom onlinekurser och bootcamps. En projektportfölj är ett utmärkt sätt att utöva ditt nya hantverk och erbjuda övertygande bevis på att en anställd borde anställa dig framför konkurrenterna.

kommentarer

By Khushbu Shah, Content Manager på ProjectPro.

AI och Machine Learning-branschen blomstrar som aldrig förr. Från och med 2021 kommer ökningen av AI-användning mellan företag att skapa 2.9 biljoner dollar av affärsvärde. AI har automatiserat många industrier över hela världen och förändrat hur de fungerar. De flesta stora företag införlivar AI för att maximera produktiviteten i sitt arbetsflöde, och branscher som marknadsföring och hälsovård har genomgått ett paradigmskifte på grund av konsolideringen av AI.

Bildkälla: Unsplash

På grund av detta har det under de senaste åren funnits en ökande efterfrågan på AI-proffs. Det har nästan skett en 100 % ökning av AI- och maskininlärningsrelaterade jobbannonser från 2015 till 2018. Denna siffra har ökat sedan dess och förväntas öka under 2021.

Om du funderar på att ta dig in i maskininlärningsbranschen är den goda nyheten att det inte finns någon brist på lediga jobb. Företag behöver en talangfull arbetsstyrka som kan vara banbrytande för övergången till maskininlärning. Däremot är arbetsmarknaden infiltrerad av människor som vill bryta sig in i databranschen. Eftersom inget specifikt utbildningsprogram riktade sig till studenter som vill lära sig maskininlärning är många blivande ML-utövare självlärda.

Det finns över 4 miljoner studenter inskrivna i Andrew Ngs maskininlärningskurs online.

Tyvärr kan du lära dig de teoretiska begreppen genom att anmäla dig till onlinekurser eller ta ett Bootcamp för maskininlärning, men det förbereder dig inte för ett jobb i branschen. Det finns mycket mer praktiskt arbete att göra efter att ha lärt sig teorin. Låt oss säga att du kan grunderna i maskininlärningsalgoritmer — du förstår hur regressions- och klassificeringsmodeller fungerar, och du känner till de olika typerna av klustringsmetoder.

Hur ska du öva på de färdigheter du lärt dig för att lösa ett verkligt problem? Det enkla svaret är: Öva, öva och öva olika maskininlärningsprojekt.

När du är klar med att lära dig teoretiska begrepp bör du börja arbeta med AI- och maskininlärningsprojekt. Dessa projekt kommer att ge dig den övning som krävs för att finslipa dina färdigheter inom området, och är samtidigt ett stort mervärde till din maskininlärningsportfölj.

Låt oss utan mycket omvälvande utforska några ML-projektidéer som inte bara kommer att få din portfölj att se bra ut utan också avsevärt förbättra dina färdigheter i maskininlärning. Detta är en kurerad lista över några av de bästa maskininlärningsprojekten för studenter, blivande maskininlärningsutövare och individer från icke-tekniska domäner. Du kan arbeta med dessa projekt oavsett din bakgrund, så länge du har lite kodning och kunskap om maskininlärning. Det här är en lista över maskininlärningsprojekt på nybörjar- och avancerad nivå.

Om du är ny inom databranschen och har liten erfarenhet av verkliga projekt, börja med ML-projekt på nybörjarnivå innan du går vidare till de mer utmanande.

Maskininlärningsprojekt för nybörjare

1. Kaggle Titanic Prediction

Det första projektet på den här listan är ett av de mest enkla ML-projekten du kan ta dig an. Detta projekt rekommenderas för nybörjare inom databranschen. Titanic-datauppsättningen är tillgänglig på Kaggle, och länken för att ladda ner den finns nedan.

Denna datauppsättning är av passagerare som reste på Titanic. Den har detaljer som passagerarålder, biljettpris, hytt och kön. Baserat på denna information måste du förutsäga om dessa passagerare överlevde eller inte.

Det är ett enkelt binärt klassificeringsproblem, och allt du behöver göra är att förutsäga om en viss passagerare överlevde. Det bästa med denna datauppsättning är att all förbehandling görs åt dig. Du har en snygg, ren datauppsättning för att träna din maskininlärningsmodell.

Eftersom detta är ett klassificeringsproblem kan du välja att använda algoritmer som logistisk regression, beslutsträd och slumpmässiga skogar för att bygga den prediktiva modellen. Du kan också välja gradientförstärkande modeller som en XGBoost-klassificerare för detta maskininlärningsprojekt på nybörjarnivå för att få bättre resultat.

dataset: Kaggle Titanic Dataset

2. Förutsägelse av huspris

Husprisdata är också bra att börja med om du är nybörjare på maskininlärning. Det här projektet kommer att använda datauppsättningen för huspriser som finns på Kaggle. Målvariabeln i denna datauppsättning är priset på ett visst hus, som du behöver förutsäga med hjälp av information som husarea, antal sovrum, antal badrum och verktyg.

Det är ett regressionsproblem och du kan använda tekniker som linjär regression för att bygga modellen. Du kan också ta ett mer avancerat tillvägagångssätt och använda en slumpmässig skogsregressor eller gradientförstärkning för att förutsäga huspriser.

Denna datauppsättning har 80 kolumner, exklusive målvariabeln. Du kommer att behöva använda vissa dimensionsreducerande tekniker för att handplocka funktioner eftersom att lägga till för många variabler kan få din modell att prestera dåligt.

Det finns också många kategoriska variabler i datamängden, så du måste hantera dem ordentligt med tekniker som one-hot-kodning eller etikettkodning.

Efter att ha byggt din modell kan du skicka in dina förutsägelser till huspristävlingen i Kaggle, eftersom den fortfarande är öppen. Den bästa RMSE uppnådd av konkurrenter är 0, och många människor har uppnått bra resultat som 0.15 med hjälp av regression och gradientförstärkningstekniker.

dataset: Kaggle House Price Prediction Dataset

3. Vinkvalitetsförutsägelse

Databasen för förutsägelse av vinkvalitet är också mycket populär bland nybörjare inom dataindustrin. I det här projektet kommer du att använda fast syra, flyktig syra, alkohol och densitet för att förutsäga kvaliteten på rött vin.

Detta kan behandlas som antingen ett klassificerings- eller regressionsproblem. De vinkvalitet variabel du behöver förutsäga i datamängden sträcker sig från 0–10, så du kan bygga en regressionsmodell för att förutsäga. Ett annat tillvägagångssätt du kan ta är att bryta ner värdena (från 0–10) i diskreta intervall och omvandla dem till kategoriska variabler. Du kan skapa tre kategorier, till exempel — låg, medel, och hög.

Du kan sedan bygga en klassificerare för beslutsträd eller någon klassificeringsmodell för att göra förutsägelsen. Det är en relativt ren och enkel datamängd för att öva dina färdigheter i regression och klassificering av maskininlärning.

dataset: Kaggle Red Wine Quality Dataset

4. Förutsägelse av hjärtsjukdomar

Om du funderar på att utforska en datauppsättning inom hälso- och sjukvårdsindustrin, är detta en fantastisk datauppsättning på nybörjarnivå att börja med. Denna datauppsättning används för att förutsäga 10-årsrisken för CHD (koronar hjärtsjukdom). De beroende variablerna i denna datauppsättning är riskfaktorerna för hjärtsjukdomar, inklusive diabetes, rökning, högt blodtryck och höga kolesterolnivåer.

Den oberoende variabeln är 10-årsrisken för CHD. Det är ett binärt klassificeringsproblem och målvariabeln är antingen 0 eller 1–0 för de patienter som aldrig utvecklat hjärtsjukdom och 1 för de patienter som gjorde det. Du kan utföra vissa funktionsval på denna datauppsättning för att identifiera funktioner som mest bidrar till hjärtrisk. Sedan kan du anpassa en klassificeringsmodell på de oberoende variablerna.

Denna datauppsättning är mycket obalanserad eftersom många av patienterna i denna datauppsättning gjorde det inte utveckla hjärtsjukdomar. En obalanserad datauppsättning måste hanteras med rätt funktionsteknik som översampling, viktjustering eller undersampling. Om den inte hanteras på rätt sätt kommer du att få en modell som helt enkelt förutsäger majoritetsklassen för varje datapunkt och inte kan identifiera patienter som gjorde utveckla hjärtsjukdomar. Detta är en utmärkt datauppsättning för dig att öva på din funktionsteknik och maskininlärning.

dataset: Kaggle Heart Disease Dataset

5. MNIST-sifferklassificering

Smakämnen MNIST dataset är din språngbräda in i området för djupinlärning. Denna datauppsättning består av gråskalebilder av handskrivna siffror från 0 till 9. Din uppgift skulle vara att identifiera siffran med hjälp av en djupinlärningsalgoritm. Detta är ett klassificeringsproblem med flera klasser med tio möjliga utdataklasser. Du kan använda ett CNN (Convolutional Neural Network) för att utföra denna klassificering.

MNIST-datauppsättningen är byggd inom Keras-biblioteket i Python. Allt du behöver göra är att installera Keras, importera biblioteket och ladda datamängden. Denna datauppsättning har cirka 60,000 80 bilder så att du kan använda cirka 20 % av dessa bilder för träning och ytterligare XNUMX % för testning.

dataset: Kaggle Digit Recognizer Dataset

6. Sentimentanalys av Twitter-data

Det finns många Twitter-sentimentanalysdatauppsättningar tillgängliga på Kaggle. En av de mest populära datamängderna kallas sentiment140, som innehåller 1.6 miljoner förbehandlade tweets. Detta är ett bra dataset att börja med om du är ny på sentimentanalys.

Dessa tweets har kommenterats, och målvariabeln är sentimentet. De unika värdena i denna kolumn är 0 (negativ), 2 (neutral) och 4 (positiv).

Efter att ha förbehandlat dessa tweets och omvandlat dem till vektorer kan du använda en klassificeringsmodell för att träna dem med deras tillhörande sentiment. Du kan använda algoritmer som logistisk regression, beslutsträdsklassificerare eller XGBoost-klassificerare för denna uppgift.

Ett annat alternativ är att använda en djupinlärningsmodell som LSTM för att komma med sentimentprediktion. Detta är dock ett lite mer utmanande tillvägagångssätt och faller inom kategorin avancerade projekt.

Du kan också använda denna märkta datamängd som bas för framtida sentimentanalysuppgifter.

Om du har några Tweets du vill samla in och utföra sentimentanalyser på kan du använda en modell som tidigare tränats på sentiment140 för att göra framtida förutsägelser.

dataset: Kaggle Sentiment140 Dataset

7. Pima Indian Diabetes Prediction

Pima Indian Diabetes Dataset används för att förutsäga om en patient har diabetes baserat på diagnostiska mätningar.

Baserat på variabler som BMI, ålder och insulin kommer modellen att förutsäga diabetes hos patienter. Denna datauppsättning har nio variabler — åtta oberoende variabler och en målvariabel.

Målvariabeln är 'diabetes', så du kommer att förutsäga 1 för förekomst av diabetes eller 0 för frånvaro av diabetes.

Detta är ett klassificeringsproblem för att experimentera med modeller som logistisk regression, beslutsträdsklassificerare eller slumpmässig skogsklassificerare.

Alla oberoende variabler i denna datauppsättning är numeriska, så det här är en bra datauppsättning att börja med om du har minimal erfarenhet av funktionsteknik.

Detta är en Kaggle-datauppsättning öppen för nybörjare. Det finns många handledningar på nätet som leder dig genom att koda lösningen i Python och R. Dessa handledningar för bärbara datorer är ett utmärkt sätt att lära dig och få händerna smutsiga så att du kan gå vidare till mer komplexa projekt.

dataset: Kaggle Pima Indian Diabetes Dataset

8. Bröstcancerklassificering

Bröstcancerklassificeringsdataset på Kaggle är ett annat utmärkt sätt att öva på din maskininlärning och AI-färdigheter.

De flesta övervakade maskininlärningsproblem i den verkliga världen är klassificeringsproblem som detta. En viktig utmaning vid identifiering av bröstcancer är oförmågan att skilja mellan godartade (icke-cancerösa) och maligna (cancerösa) tumörer. Datauppsättningen har variabler som "radius_mean" och "area_mean" av tumören, och du kommer att behöva klassificera baserat på dessa egenskaper om en tumör är cancerös eller inte. Denna datauppsättning är relativt lätt att arbeta med eftersom det inte finns något behov av att göra någon betydande förbearbetning av data. Det är också en välbalanserad datauppsättning, vilket gör din uppgift mer hanterbar eftersom du inte behöver göra mycket funktionsteknik.

Att träna en enkel logistisk regressionsklassificerare på denna datauppsättning kan ge dig en noggrannhet så hög som 0.90.

dataset: Kaggle Breast Cancer Classification Dataset

9. TMDB Box Office Prediction

Denna Kaggle-datauppsättning är ett utmärkt sätt att öva dina regressionskunskaper. Den består av cirka 7000 filmer, och du kommer att behöva använda de variabler som finns för att förutsäga filmens intäkter.

Datapunkter som finns inkluderar skådespelare, besättning, budget, språk och releasedatum. Det finns 23 variabler i datasetet, varav en är målvariabeln.

En grundläggande linjär regressionsmodell kan ge dig en R-kvadrat på över 0.60, så du kan använda denna som din baslinjeförutsägelsemodell. Försök att slå den här poängen med tekniker som XGBoost-regression eller Light GBM.

Denna datauppsättning är något mer komplex än den föregående eftersom vissa kolumner innehåller data i kapslade ordböcker. Du måste göra lite extra förbearbetning för att extrahera dessa data i ett användbart format för att träna en modell på den.

Intäktsprognoser är ett bra projekt att visa upp i din portfölj, eftersom det ger affärsvärde till en mängd olika domäner utanför filmindustrin.

dataset: Kaggle TMDB Box Office Prediction Dataset

10. Kundsegmentering i Python

Kundsegmenteringsdataset på Kaggle är ett utmärkt sätt att komma igång med oövervakad maskininlärning. Denna datauppsättning består av kundinformation som deras ålder, kön, årsinkomst och utgiftspoäng.

Du måste använda dessa variabler för att bygga kundsegment. Kunder som är lika bör grupperas i liknande kluster. Du kan använda algoritmer som K-Means-klustring eller hierarkisk klustring för denna uppgift. Kundsegmenteringsmodeller kan ge affärsvärde.

Företag vill ofta separera sina kunder för att komma på olika marknadsföringstekniker för varje kundtyp.

Huvudmålen med denna datauppsättning inkluderar:

Uppnå kundsegmentering med hjälp av maskininlärningstekniker
Identifiera dina målkunder för olika marknadsföringsstrategier
Förstå hur marknadsföringsstrategier fungerar i den verkliga världen

Att bygga en klustringsmodell för den här uppgiften kan hjälpa din portfölj att sticka ut, och segmentering är en stor färdighet att ha om du letar efter ett AI-relaterat jobb i marknadsföringsbranschen.

dataset: Kaggle Mall kundsegmenteringsdatauppsättning

Maskininlärningsprojekt på medel-/avancerad nivå för ditt CV

När du är klar med att arbeta med enkla maskininlärningsprojekt som de som anges ovan kan du gå vidare till mer utmanande projekt.

1. Försäljningsprognoser

Tidsserieprognoser är en maskininlärningsteknik som används mycket ofta i branschen. Användningen av tidigare data för att förutsäga framtida försäljning har ett stort antal affärsanvändningsfall. Datasetet Kaggle Demand Forecasting kan användas för att öva detta projekt.

Denna datauppsättning har 5 års försäljningsdata, och du måste förutsäga försäljningen för de kommande tre månaderna. Det finns tio olika butiker listade i datasetet, och det finns 50 artiklar i varje butik.

För att förutsäga försäljning kan du prova olika metoder – ARIMA, Vector Autoregression eller djupinlärning. En metod du kan använda för det här projektet är att mäta försäljningsökningen för varje månad och registrera den. Bygg sedan modellen på skillnaden mellan föregående månads och innevarande månads försäljning. Att ta hänsyn till faktorer som semester och säsongsvariationer kan förbättra prestandan för din maskininlärningsmodell.

dataset: Kaggle Butiksföremålsefterfrågan

2. Kundtjänst Chatbot

En chatbot för kundtjänst använder AI och maskininlärningstekniker för att svara kunder och tar rollen som en mänsklig representant. En chatbot ska kunna svara på enkla frågor för att tillfredsställa kundernas behov.

Det finns för närvarande tre typer av chatbots som du kan bygga:

Regelbaserade chatbots — Dessa chatbots är inte intelligenta. De matas med en uppsättning fördefinierade regler och svarar endast användare baserat på dessa regler. Vissa chatbots är också försedda med en fördefinierad uppsättning frågor och svar och kan inte svara på frågor som faller utanför denna domän.
Oberoende chatbots – Oberoende chatbots använder maskininlärning för att bearbeta och analysera en användares begäran och ge svar därefter.
NLP Chatbots — Dessa chatbots kan förstå mönster i ord och skilja mellan olika ordkombinationer. De är de mest avancerade av alla tre chatbottyperna, eftersom de kan komma på vad de ska säga härnäst baserat på de ordmönster de tränats på.

En NLP-chatbot är en intressant idé för maskininlärningsprojekt. Du behöver en befintlig korpus av ord att träna din modell på, och du kan enkelt hitta Python-bibliotek för att göra detta. Du kan också ha en fördefinierad ordbok med en lista med frågor och svar som du vill träna din modell.

3. System för upptäckt av vilda objekt

Om du bor i ett område med frekventa observationer av vilda djur är det bra att implementera ett objektdetekteringssystem för att identifiera deras närvaro i ditt område. Följ dessa steg för att bygga ett system som detta:

Installera kameror i det område du vill övervaka.
Ladda ner alla videofilmer och spara dem.
Skapa en Python-applikation för att analysera inkommande bilder och identifiera vilda djur.

Microsoft har byggt ett API för bildigenkänning med hjälp av data som samlats in från kameror för vilda djur. De släppte en förtränad modell med öppen källkod för detta ändamål som kallas MegaDetector.

Du kan använda den här förtränade modellen i din Python-applikation för att identifiera vilda djur från de insamlade bilderna. Det är ett av de mest spännande ML-projekten som nämnts hittills och är ganska enkelt att implementera på grund av tillgången på en förutbildad modell för detta ändamål.

API: MegaDetektor

4. Spotify Music Recommender System

Spotify använder AI för att rekommendera musik till sina användare. Du kan prova att bygga ett rekommendationssystem baserat på allmänt tillgänglig data på Spotify.

Spotify har ett API som du kan använda för att hämta ljuddata - du kan hitta funktioner som releaseår, nyckel, popularitet och artist. För att komma åt detta API i Python kan du använda ett bibliotek som heter Spotipy.

Du kan också använda Spotify-datauppsättningen på Kaggle som har cirka 600 XNUMX rader. Med hjälp av dessa datauppsättningar kan du föreslå det bästa alternativet till varje användares favoritmusiker. Du kan också komma med låtrekommendationer baserat på innehållet och genren som varje användare föredrar.

Detta rekommendatorsystem kan byggas med hjälp av K-Means-klustring – liknande datapunkter kommer att grupperas. Du kan rekommendera låtar med ett minimalt avstånd mellan dem till slutanvändaren.

När du har byggt rekommendatorsystemet kan du också göra om det till en enkel Python-app och distribuera det. Du kan få användare att ange sina favoritlåtar på Spotify och sedan visa dina modellrekommendationer på skärmen som har störst likhet med låtarna de gillade.

dataset: Kaggle Spotify Dataset

5. Analys av marknadskorg

Market Basket Analysis är en populär teknik som används av återförsäljare för att identifiera varor som kan säljas tillsammans.

Till exempel:

För ett par år sedan identifierade en forskningsanalytiker ett samband mellan försäljningen av öl och blöjor. För det mesta, närhelst en kund gick in i butiken för att köpa en öl, köpte de också blöjor tillsammans.

På grund av detta började butiker sälja öl och blöjor tillsammans i samma gång som en marknadsföringsstrategi för att öka försäljningen. Och det fungerade.

Det antogs att öl och blöjor hade en hög korrelation eftersom män ofta köpte dem tillsammans. Män gick in i butiken för att köpa en öl, tillsammans med flera andra hushållsartiklar till sin familj (inklusive blöjor). Detta verkar vara en ganska omöjlig korrelation, men det hände.

Market Basket Analysis kan hjälpa företag att identifiera dolda samband mellan varor som ofta köps tillsammans. Dessa butiker kan sedan placera sina varor på ett sätt som gör att människor lättare kan hitta dem.

Du kan använda datauppsättningen Market Basket Optimization på Kaggle för att bygga och träna din modell. Den vanligaste algoritmen som används för att utföra marknadskorganalys är Apriori-algoritmen.

dataset: Kaggle Market Basket Optimization Dataset

6. Taxiresa till NYC

Datauppsättningen har variabler som inkluderar start- och slutkoordinater för en taxiresa, tid och antal passagerare. Målet med detta ML-projekt är att förutsäga restiden med alla dessa variabler. Det är ett regressionsproblem.

Variabler som tid och koordinater måste förbehandlas på lämpligt sätt och omvandlas till ett begripligt format. Det här projektet är inte så enkelt som det verkar. Denna datauppsättning har också några extremvärden som gör förutsägelse mer komplex, så du kommer att behöva hantera detta med funktionstekniker.

Utvärderingskriterierna för denna NYC Taxi Trip Kaggle-tävling är RMSLE eller Root Mean Squared Log Error. Det bästa bidraget på Kaggle fick ett RMSLE-poäng på 0.29 och Kaggles baslinjemodell har ett RMSLE på 0.89.

Du kan använda vilken regressionsalgoritm som helst för att lösa detta Kaggle-projekt, men de högst presterande konkurrenterna i denna utmaning har antingen använt modeller för gradientförstärkning eller djupinlärningstekniker.

dataset: Kaggle NYC Taxi Trip Duration Dataset

7. Spamupptäckt i realtid

I det här projektet kan du använda maskininlärningstekniker för att skilja mellan spam (illegitima) och ham (legitima) meddelanden.

För att uppnå detta kan du använda datauppsättningen Kaggle SMS Spam Collection. Denna datauppsättning innehåller en uppsättning av cirka 5K meddelanden som har märkts som spam eller skinka.

Du kan ta följande steg för att bygga ett skräppostdetekteringssystem i realtid:

Använd Kaggles SMS Spam Collection-datauppsättning för att träna en maskininlärningsmodell.
Skapa en enkel chattrumsserver i Python.
Implementera maskininlärningsmodellen på din chattrumsserver och se till att all inkommande trafik passerar genom modellen.
Tillåt endast meddelanden att gå igenom om de klassificeras som skinka. Om de är spam, returnera ett felmeddelande istället.

För att bygga maskininlärningsmodellen måste du först förbehandla de textmeddelanden som finns i Kaggles datauppsättning för SMS Spam Collection. Konvertera sedan dessa meddelanden till en påse med ord så att de enkelt kan överföras till din klassificeringsmodell för förutsägelse.

dataset: Kaggle SMS Spam Collection Dataset

8. Myers-Briggs Personality Prediction App

Du kan skapa en app för att förutsäga en användares personlighetstyp baserat på vad de säger.

Myers-Briggs-typindikatorn kategoriserar individer i 16 olika personlighetstyper. Det är ett av de mest populära personlighetstesterna i världen.

Om du försöker hitta din personlighetstyp på Internet hittar du många onlinefrågesporter. Efter att ha svarat på cirka 20–30 frågor kommer du att tilldelas en personlighetstyp.

Men i det här projektet kan du använda maskininlärning för att förutsäga någons personlighetstyp bara baserat på en mening.

Här är stegen du kan vidta för att uppnå detta:

Bygg en klassificeringsmodell i flera klasser och träna den på Myers-Briggs dataset på Kaggle. Detta innebär förbearbetning av data (ta bort stoppord och onödiga tecken) och viss funktionsteknik. Du kan använda en grund inlärningsmodell som logistisk regression eller en djupinlärningsmodell som en LSTM för detta ändamål.
Du kan skapa ett program som låter användare skriva in valfri mening.
Spara din maskininlärningsmodellvikter och integrera modellen med din app. När slutanvändaren har skrivit in ett ord, visa sin personlighetstyp på skärmen efter att modellen gjort en förutsägelse.

dataset: Kaggle MBTI Type Dataset

9. Mood Recognition System + Recommender System

Har du någonsin varit ledsen och känt att du behövde se något roligt för att muntra upp dig? Eller har du någonsin känt dig så frustrerad att du behövde varva ner och titta på något avkopplande?

Detta projekt är en kombination av två mindre projekt.

Du kan bygga en app som känner igen en användares humör baserat på live webbfilmer och ett filmförslag baserat på användarens uttryck.

För att bygga detta kan du ta följande steg:

Skapa en app som kan ta in ett livevideoflöde.
Använd Pythons API för ansiktsigenkänning för att upptäcka ansikten och känslor på objekt i videoflödet.
Efter att ha klassificerat dessa känslor i olika kategorier, börja bygga rekommendatorsystemet. Detta kan vara en uppsättning hårdkodade värden för varje känsla, vilket innebär att du inte behöver involvera maskininlärning för rekommendationerna.
När du är klar med att bygga appen kan du distribuera den på Heroku, Dash eller en webbserver.

API: API för ansiktsigenkänning

10. YouTube-kommentarsentimentanalys

I det här projektet kan du skapa en instrumentpanel som analyserar den övergripande känslan hos populära YouTubers.

Över 2 miljarder användare tittar på YouTube-videor minst en gång i månaden. Populära YouTubers samlar hundratals miljarder visningar med sitt innehåll. Men många av dessa influencers har hamnat under eld på grund av kontroverser i det förflutna, och allmänhetens uppfattning förändras ständigt.

Du kan bygga en sentimentanalysmodell och skapa en instrumentpanel för att visualisera känslor kring kändisar över tid.

För att bygga detta kan du ta följande steg:

Skrapa kommentarer på videorna från YouTubers du vill analysera.
Använd en förtränad sentimentanalysmodell för att göra förutsägelser om varje kommentar.
Visualisera modellens förutsägelser på en instrumentpanel. Du kan till och med skapa en instrumentpanelapp med hjälp av bibliotek som Dash (Python) eller Shiny (R).
Du kan göra instrumentpanelen interaktiv genom att tillåta användare att filtrera känslor efter tidsram, namn på YouTuber och videogenre.

API: YouTube-kommentarskrapa

Sammanfattning

Maskininlärningsbranschen är stor och full av möjligheter. Om du vill bryta dig in i branschen utan formell utbildningsbakgrund är det bästa sättet att visa att du har den kompetens som krävs för att utföra jobbet genom projekt.

Maskininlärningsaspekten för de flesta projekt som anges ovan är ganska enkel. På grund av demokratiseringen av maskininlärning kan modellbyggnadsprocessen enkelt uppnås genom förutbildade modeller och API:er.

Artificiell intelligens med öppen källkod som Keras och FastAI har också hjälpt till att påskynda modellbyggandet. Den knepiga delen av dessa maskininlärning och datavetenskapliga projekt är datainsamling, förbearbetning och distribution. Om du får ett jobb inom maskininlärning kommer de flesta algoritmer att vara ganska enkla att bygga. Det tar bara en dag eller två att skapa en modell för försäljningsprognoser. Du kommer att spendera större delen av din tid på att hitta lämpliga datakällor och sätta dina modeller i produktion för att få affärsvärde.

Ursprungliga. Skickas om med tillstånd.

Relaterat:

= Tidigare inlägg

Nästa inlägg =>

Topphistorier de senaste 30 dagarna

Mest populär
Läser du Excel -filer med Python? Det finns ett 1000x snabbare sätt Automatisera Microsoft Excel och Word med Python Datavetare utan datateknik kommer att möta den hårda sanningen Hur man skapar fantastiska webbappar för dina datavetenskapsprojekt En datavetenskaplig portfölj som kommer att ge dig jobbet

Mest delad
The Machine & Deep Learning Compendium Open Book Datavetare utan datateknik kommer att möta den hårda sanningen Hypotesprov förklaras Data Science Cheat Sheet 2.0 8 Deep Learning -projektidéer för nybörjare