Genudgivet af Platon

Abonnenter: 0

20 maskinlæringsprojekter, der vil få dig ansat

Hvis du vil bryde ind på arbejdsmarkedet for maskinlæring og datavidenskab, skal du demonstrere dine færdigheder, især hvis du er selvlært gennem onlinekurser og bootcamps. En projektportefølje er en fantastisk måde at øve dit nye håndværk på og tilbyde overbevisende beviser på, at en medarbejder bør ansætte dig frem for konkurrenterne.

kommentarer

By Khushbu Shah, Content Manager hos ProjectPro.

AI og Machine Learning-industrien boomer som aldrig før. Fra 2021 vil stigningen i AI-brug på tværs af virksomheder skabe 2.9 billioner dollars af forretningsværdi. AI har automatiseret mange industrier over hele kloden og ændret den måde, de opererer på. De fleste store virksomheder inkorporerer AI for at maksimere produktiviteten i deres arbejdsgange, og brancher som marketing og sundhedspleje har gennemgået et paradigmeskift på grund af konsolideringen af AI.

Billedkilde: Unsplash

På grund af dette har der været en stigende efterspørgsel i de sidste par år efter AI-professionelle. Der har næsten været en stigning på 100 % i AI og maskinlæringsrelaterede jobopslag fra 2015 til 2018. Dette antal er vokset siden og forventes at stige i 2021.

Hvis du ønsker at bryde ind i maskinlæringsindustrien, er den gode nyhed, at der ikke er mangel på ledige job. Virksomheder har brug for en talentfuld arbejdsstyrke, der er i stand til at være banebrydende i overgangen til maskinlæring. Arbejdsmarkedet er dog infiltreret af folk, der ønsker at bryde ind i databranchen. Da ingen specifik uddannelse henvendte sig til studerende, der ønsker at lære maskinlæring, er mange håbefulde ML-udøvere autodidakt.

Der er over 4 millioner studerende tilmeldt Andrew Ngs online kursus i maskinlæring.

Desværre hjælper det at tilmelde sig onlinekurser eller tage en machine learning Bootcamp dig med at lære de teoretiske begreber, men forbereder dig ikke til et job i branchen. Der er meget mere praktisk arbejde, der skal udføres, efter at have lært teorien. Lad os sige, at du kender det grundlæggende i maskinlæringsalgoritmer - du forstår, hvordan regressions- og klassifikationsmodeller fungerer, og du kender de forskellige typer klyngemetoder.

Hvordan vil du øve dig på de færdigheder, du har lært for at løse et problem i det virkelige liv? Det enkle svar er: Øv, øv og øv forskelligt maskinlæringsprojekter.

Når du er færdig med at lære teoretiske begreber, bør du begynde at arbejde på AI og maskinlæringsprojekter. Disse projekter vil give dig den nødvendige praksis til at finpudse dine færdigheder på området, og de er samtidig en stor værditilvækst til din maskinlæringsportefølje.

Uden det store besvær, lad os udforske nogle ML-projektideer, der ikke bare vil få din portefølje til at se godt ud, men også vil forbedre dine maskinlæringsfærdigheder markant. Dette er en kurateret liste over nogle af de bedste maskinlæringsprojekter for studerende, håbefulde maskinlæringsudøvere og enkeltpersoner fra ikke-tekniske domæner. Du kan arbejde på disse projekter uanset din baggrund, så længe du har noget kodning og viden om maskinlæring. Dette er en liste over maskinlæringsprojekter på begynder- og avanceret niveau.

Hvis du er ny i databranchen og har ringe erfaring med projekter i det virkelige liv, så start med ML-projekter på begynderniveau, før du går videre til de mere udfordrende.

Maskinlæringsprojekter for begyndere

1. Kaggle Titanic Forudsigelse

Det første projekt på denne liste er et af de mest ligetil ML-projekter, du kan påtage dig. Dette projekt anbefales til færdigbegyndere i dataindustrien. Titanic-datasættet er tilgængeligt på Kaggle, og linket til at downloade det er givet nedenfor.

Dette datasæt er af passagerer, der rejste på Titanic. Den har detaljer som passagerers alder, billetpris, kabine og køn. Baseret på disse oplysninger bliver du nødt til at forudsige, om disse passagerer overlevede eller ej.

Det er et simpelt binært klassificeringsproblem, og alt du skal gøre er at forudsige, om en bestemt passager overlevede. Det bedste ved dette datasæt er, at al forbehandling er gjort for dig. Du har et pænt, rent datasæt til at træne din maskinlæringsmodel.

Da dette er et klassifikationsproblem, kan du vælge at bruge algoritmer som logistisk regression, beslutningstræer og tilfældige skove til at bygge den prædiktive model. Du kan også vælge gradientforstærkende modeller som en XGBoost-klassifikator til dette maskinlæringsprojekt på begynderniveau for at få bedre resultater.

datasæt: Kaggle Titanic datasæt

2. Huspris Forudsigelse

Husprisdata er også gode at starte med, hvis du er nybegynder til maskinlæring. Dette projekt vil bruge det husprisdatasæt, der er tilgængeligt på Kaggle. Målvariablen i dette datasæt er prisen på et bestemt hus, som du bliver nødt til at forudsige ved hjælp af oplysninger som husareal, antal soveværelser, antal badeværelser og forsyninger.

Det er et regressionsproblem, og du kan bruge teknikker som lineær regression til at bygge modellen. Du kan også tage en mere avanceret tilgang og bruge en tilfældig skovregressor eller gradientforstærkning til at forudsige huspriser.

Dette datasæt har 80 kolonner, ekskl. målvariablen. Du bliver nødt til at anvende nogle dimensionsreduktionsteknikker for at håndplukke funktioner, da tilføjelse af for mange variabler kan få din model til at fungere dårligt.

Der er også mange kategoriske variabler i datasættet, så du skal håndtere dem ordentligt ved hjælp af teknikker som one-hot-kodning eller label-encoding.

Efter at have bygget din model, kan du indsende dine forudsigelser til huspriskonkurrencen i Kaggle, da den stadig er åben. Den bedste RMSE opnået af konkurrenter er 0, og mange mennesker har opnået gode resultater som 0.15 ved hjælp af regression og gradient boosting teknikker.

datasæt: Kaggle House Pris Forudsigelse Datasæt

3. Forudsigelse af vinkvalitet

Datasættet til forudsigelse af vinkvalitet er også meget populært blandt begyndere i dataindustrien. I dette projekt vil du bruge fast syre, flygtig syre, alkohol og massefylde til at forudsige kvaliteten af rødvin.

Dette kan behandles som enten et klassifikations- eller regressionsproblem. Det vinkvalitet variabel, du skal forudsige i datasættet, spænder fra 0-10, så du kan bygge en regressionsmodel til at forudsige. En anden tilgang, du kan tage, er at opdele værdierne (fra 0-10) i diskrete intervaller og konvertere dem til kategoriske variable. Du kan oprette tre kategorier, f.eks. lav, medium, , høj.

Du kan derefter bygge en beslutningstræklassifikator eller en hvilken som helst klassifikationsmodel for at lave forudsigelsen. Det er et relativt rent og ligetil datasæt til at øve dine regressions- og klassificeringsmaskinlæringsfærdigheder.

datasæt: Kaggle rødvinskvalitetsdatasæt

4. Hjertesygdomsforudsigelse

Hvis du ønsker at udforske et datasæt i sundhedssektoren, er dette et fantastisk datasæt på begynderniveau at starte med. Dette datasæt bruges til at forudsige 10-års risikoen for CHD (koronar hjertesygdom). De afhængige variabler i dette datasæt er risikofaktorerne for hjertesygdomme, herunder diabetes, rygning, forhøjet blodtryk og højt kolesteroltal.

Den uafhængige variabel er 10-års risikoen for CHD. Det er et binært klassifikationsproblem, og målvariablen er enten 0 eller 1-0 for de patienter, der aldrig har udviklet hjertesygdom, og 1 for de patienter, der gjorde det. Du kan udføre nogle funktionsvalg på dette datasæt for at identificere funktioner, der bidrager mest til hjerterisiko. Derefter kan du tilpasse en klassifikationsmodel på de uafhængige variable.

Dette datasæt er meget ubalanceret, fordi mange af patienterne i dette datasæt gjorde ikke udvikle hjertesygdomme. Et ubalanceret datasæt skal håndteres ved hjælp af de rigtige funktionsteknologiske teknikker som oversampling, vægtjustering eller undersampling. Hvis den ikke behandles korrekt, vil du ende med en model, der blot forudsiger majoritetsklassen for hvert datapunkt og ikke kan identificere patienter, der gjorde udvikle hjertesygdomme. Dette er et fremragende datasæt for dig til at øve dine funktionsteknik og maskinlæringsfærdigheder.

datasæt: Kaggle hjertesygdomsdatasæt

5. MNIST Cifferklassifikation

MNIST Datasættet er dit springbræt ind i feltet for dyb læring. Dette datasæt består af gråtonebilleder af håndskrevne cifre fra 0 til 9. Din opgave ville være at identificere cifferet ved hjælp af en dyb læringsalgoritme. Dette er et klassifikationsproblem med flere klasser med ti mulige outputklasser. Du kan bruge et CNN (Convolutional Neural Network) til at udføre denne klassificering.

MNIST-datasættet er bygget i Keras-biblioteket i Python. Alt du skal gøre er at installere Keras, importere biblioteket og indlæse datasættet. Dette datasæt har omkring 60,000 billeder, så du kan bruge omkring 80 % af disse billeder til træning og yderligere 20 % til test.

datasæt: Kaggle Digit Recognizer Datasæt

6. Sentimentanalyse af Twitter-data

Der er mange Twitter-sentimentanalysedatasæt tilgængelige på Kaggle. Et af de mest populære datasæt hedder sentiment140, som indeholder 1.6 millioner forbehandlede tweets. Dette er et fantastisk datasæt at starte med, hvis du er ny til sentimentanalyse.

Disse tweets er blevet kommenteret, og målvariablen er stemningen. De unikke værdier i denne kolonne er 0 (negativ), 2 (neutral) og 4 (positiv).

Efter at have forbehandlet disse tweets og konverteret dem til vektorer, kan du bruge en klassifikationsmodel til at træne dem med deres tilhørende følelser. Du kan bruge algoritmer som logistisk regression, beslutningstræklassificering eller XGBoost-klassifikator til denne opgave.

Et andet alternativ er at bruge en dyb læringsmodel som LSTM til at komme med følelsesforudsigelse. Dette er dog en lidt mere udfordrende tilgang og falder ind under kategorien avancerede projekter.

Du kan også bruge dette mærkede datasæt som base for fremtidige sentimentanalyseopgaver.

Hvis du har nogle Tweets, du vil indsamle og udføre sentimentanalyse på, kan du bruge en model, der tidligere er blevet trænet på sentiment140, til at lave fremtidige forudsigelser.

datasæt: Kaggle Sentiment140 Datasæt

7. Pima indisk diabetes forudsigelse

Pima Indian Diabetes Dataset bruges til at forudsige, om en patient har diabetes baseret på diagnostiske målinger.

Baseret på variabler som BMI, alder og insulin vil modellen forudsige diabetes hos patienter. Dette datasæt har ni variabler - otte uafhængige variabler og en målvariabel.

Målvariablen er 'diabetes', så du vil forudsige 1 for tilstedeværelsen af diabetes eller 0 for fraværet af diabetes.

Dette er et klassifikationsproblem at eksperimentere med modeller som logistisk regression, beslutningstræklassifikator eller tilfældig skovklassifikator.

Alle de uafhængige variabler i dette datasæt er numeriske, så dette er et godt datasæt at starte med, hvis du har minimal erfaring med feature engineering.

Dette er et Kaggle-datasæt, der er åbent for begyndere. Der er mange tutorials online, som leder dig gennem kodning af løsningen i Python og R. Disse notebook-tutorials er en fantastisk måde at lære og få dine hænder til at snavse på, så du kan gå videre til mere komplekse projekter.

datasæt: Kaggle Pima indisk diabetes datasæt

8. Klassificering af brystkræft

Brystkræftklassifikationsdatasættet på Kaggle er en anden glimrende måde at øve dine maskinindlæring og AI-færdigheder på.

De fleste overvågede maskinlæringsproblemer i den virkelige verden er klassifikationsproblemer som denne. En nøgleudfordring i identifikation af brystkræft er manglende evne til at skelne mellem godartede (ikke-kræft) og ondartede (kræft) tumorer. Datasættet har variabler som "radius_mean" og "area_mean" af tumoren, og du bliver nødt til at klassificere baseret på disse funktioner, hvis en tumor er kræftfremkaldende eller ej. Dette datasæt er relativt nemt at arbejde med, da der ikke er behov for at foretage nogen væsentlig dataforbehandling. Det er også et velafbalanceret datasæt, der gør din opgave mere overskuelig, da du ikke behøver at lave meget funktionsteknologi.

Træning af en simpel logistisk regressionsklassifikator på dette datasæt kan give dig en nøjagtighed så høj som 0.90.

datasæt: Kaggle Breast Cancer Classification Dataset

9. TMDB Box Office Forudsigelse

Dette Kaggle-datasæt er en fantastisk måde at øve dine regressionsfærdigheder på. Den består af omkring 7000 film, og du skal bruge de tilstedeværende variabler til at forudsige filmens omsætning.

Tilstedeværende datapunkter omfatter rollebesætning, besætning, budget, sprog og udgivelsesdatoer. Der er 23 variable i datasættet, hvoraf en er målvariablen.

En grundlæggende lineær regressionsmodel kan give dig en R-kvadrat på over 0.60, så du kan bruge denne som din baseline forudsigelsesmodel. Prøv at slå denne score ved hjælp af teknikker som XGBoost-regression eller Light GBM.

Dette datasæt er lidt mere komplekst end det foregående, da nogle kolonner har data til stede i indlejrede ordbøger. Du er nødt til at gøre noget ekstra forbehandling for at udtrække disse data i et brugbart format for at træne en model på det.

Indtægtsprognose er et fantastisk projekt at fremvise på din portefølje, da det giver forretningsværdi til en række forskellige domæner uden for filmindustrien.

datasæt: Kaggle TMDB Box Office Forudsigelsesdatasæt

10. Kundesegmentering i Python

Kundesegmenteringsdatasættet på Kaggle er en fantastisk måde at komme i gang med uovervåget maskinlæring. Dette datasæt består af kundeoplysninger som deres alder, køn, årlige indkomst og forbrugsscore.

Du skal bruge disse variabler til at opbygge kundesegmenter. Kunder, der er ens, bør grupperes i lignende klynger. Du kan bruge algoritmer som K-Means clustering eller hierarkisk clustering til denne opgave. Kundesegmenteringsmodeller kan give forretningsværdi.

Virksomheder ønsker ofte at adskille deres kunder for at finde på forskellige marketingteknikker for hver kundetype.

Hovedmålene med dette datasæt omfatter:

Opnå kundesegmentering ved hjælp af maskinlæringsteknikker
Identificer dine målkunder for forskellige marketingstrategier
Forstå, hvordan marketingstrategier fungerer i den virkelige verden

Opbygning af en klyngemodel til denne opgave kan hjælpe din portefølje til at skille sig ud, og segmentering er en stor færdighed at have, hvis du ønsker at få et AI-relateret job i marketingindustrien.

datasæt: Kaggle Mall kundesegmenteringsdatasæt

Maskinlæringsprojekter på mellem-/avanceret niveau til dit CV

Når du er færdig med at arbejde på simple maskinlæringsprojekter som dem, der er anført ovenfor, kan du gå videre til mere udfordrende projekter.

1. Salgsprognose

Tidsserieprognoser er en maskinlæringsteknik, der bruges meget ofte i industrien. Brugen af tidligere data til at forudsige fremtidigt salg har et stort antal business use cases. Kaggle Demand Forecasting-datasættet kan bruges til at øve dette projekt.

Dette datasæt har 5 års salgsdata, og du skal forudsige salg for de næste tre måneder. Der er ti forskellige butikker opført i datasættet, og der er 50 varer i hver butik.

For at forudsige salg kan du prøve forskellige metoder - ARIMA, Vector Autoregression eller deep learning. En metode, du kan bruge til dette projekt, er at måle stigningen i salget for hver måned og registrere den. Byg derefter modellen på forskellen mellem den foregående måned og den nuværende måneds salg. At tage hensyn til faktorer som ferier og sæsonbestemte kan forbedre ydeevnen af din maskinlæringsmodel.

datasæt: Kaggle Store-varebehovsprognose

2. Kundeservice Chatbot

En kundeservicechatbot bruger kunstig intelligens og maskinlæringsteknikker til at svare kunder og tager rollen som en menneskelig repræsentant. En chatbot skal være i stand til at besvare simple spørgsmål for at tilfredsstille kundernes behov.

Der er i øjeblikket tre slags chatbots, som du kan bygge:

Regelbaserede chatbots — Disse chatbots er ikke intelligente. De får et sæt foruddefinerede regler og svarer kun til brugere baseret på disse regler. Nogle chatbots er også forsynet med et foruddefineret sæt spørgsmål og svar og kan ikke besvare forespørgsler, der falder uden for dette domæne.
Uafhængige chatbots — Uafhængige chatbots bruger maskinlæring til at behandle og analysere en brugers anmodning og give svar i overensstemmelse hermed.
NLP Chatbots — Disse chatbots kan forstå mønstre i ord og skelne mellem forskellige ordkombinationer. De er de mest avancerede af alle tre chatbot-typer, da de kan finde på, hvad de skal sige næste gang baseret på de ordmønstre, de blev trænet i.

En NLP chatbot er en interessant maskinlæringsprojektidé. Du skal bruge et eksisterende korpus af ord til at træne din model på, og du kan nemt finde Python-biblioteker til at gøre dette. Du kan også have en foruddefineret ordbog med en liste over spørgsmål og svar-par, som du gerne vil træne din model.

3. Detektionssystem for vilde dyr

Hvis du bor i et område med hyppige observationer af vilde dyr, er det nyttigt at implementere et objektdetekteringssystem for at identificere deres tilstedeværelse i dit område. Følg disse trin for at bygge et system som dette:

Installer kameraer i det område, du vil overvåge.
Download alle videooptagelser og gem dem.
Opret en Python-applikation til at analysere indkommende billeder og identificere vilde dyr.

Microsoft har bygget en billedgenkendelses-API ved hjælp af data indsamlet fra dyrelivskameraer. De udgav en open source præ-trænet model til dette formål kaldet en MegaDetector.

Du kan bruge denne fortrænede model i din Python-applikation til at identificere vilde dyr fra de indsamlede billeder. Det er et af de mest spændende ML-projekter, der er nævnt hidtil, og er ret simpelt at implementere på grund af tilgængeligheden af en præ-trænet model til dette formål.

API'er: Megadetektor

4. Spotify Music Recommender System

Spotify bruger AI til at anbefale musik til sine brugere. Du kan prøve at bygge et anbefalingssystem baseret på offentligt tilgængelige data på Spotify.

Spotify har en API, som du kan bruge til at hente lyddata - du kan finde funktioner som udgivelsesår, nøgle, popularitet og kunstner. For at få adgang til denne API i Python kan du bruge et bibliotek kaldet Spotipy.

Du kan også bruge Spotify-datasættet på Kaggle, der har omkring 600 rækker. Ved at bruge disse datasæt kan du foreslå det bedste alternativ til hver brugers yndlingsmusiker. Du kan også komme med sanganbefalinger baseret på det indhold og den genre, som hver bruger foretrækker.

Dette anbefalingssystem kan bygges ved hjælp af K-Means-klynger – lignende datapunkter vil blive grupperet. Du kan anbefale sange med en minimal intra-cluster-afstand mellem dem til slutbrugeren.

Når du har bygget anbefalingssystemet, kan du også gøre det til en simpel Python-app og implementere det. Du kan få brugere til at indtaste deres yndlingssange på Spotify og derefter vise dine modelanbefalinger på skærmen, der har størst lighed med de sange, de nød.

datasæt: Kaggle Spotify-datasæt

5. Analyse af markedskurven

Market Basket Analysis er en populær teknik, der bruges af detailhandlere til at identificere varer, der kan sælges sammen.

For eksempel:

For et par år tilbage identificerede en forskningsanalytiker en sammenhæng mellem salget af øl og bleer. Det meste af tiden, når en kunde gik ind i butikken for at købe en øl, købte de også bleer sammen.

På grund af dette begyndte butikkerne at sælge øl og bleer sammen på samme gang som en marketingstrategi for at øge salget. Og det virkede.

Det blev antaget, at øl og bleer havde en høj korrelation, da mænd ofte købte dem sammen. Mænd gik ind i butikken for at købe en øl sammen med flere andre husholdningsartikler til deres familie (inklusive bleer). Dette virker som en temmelig umulig sammenhæng, men det skete.

Market Basket Analysis kan hjælpe virksomheder med at identificere skjulte sammenhænge mellem varer, der ofte købes sammen. Disse butikker kan derefter placere deres varer på en måde, så folk lettere kan finde dem.

Du kan bruge Market Basket Optimization-datasættet på Kaggle til at bygge og træne din model. Den mest almindeligt anvendte algoritme, der bruges til at udføre markedskurveanalyse, er Apriori-algoritmen.

datasæt: Kaggle Market Basket Optimization Dataset

6. NYC taxa tur varighed

Datasættet har variabler, der inkluderer start- og slutkoordinater for en taxatur, tid og antal passagerer. Målet med dette ML-projekt er at forudsige rejsens varighed med alle disse variabler. Det er et regressionsproblem.

Variabler som tid og koordinater skal forbehandles korrekt og konverteres til et forståeligt format. Dette projekt er ikke så ligetil, som det ser ud til. Dette datasæt har også nogle outliers, der gør forudsigelse mere kompleks, så du bliver nødt til at håndtere dette med feature engineering-teknikker.

Evalueringskriterierne for denne NYC Taxi Trip Kaggle-konkurrence er RMSLE eller Root Mean Squared Log Error. Den bedste indsendelse på Kaggle fik en RMSLE-score på 0.29, og Kaggles basismodel har en RMSLE på 0.89.

Du kan bruge en hvilken som helst regressionsalgoritme til at løse dette Kaggle-projekt, men de bedst præsterende konkurrenter til denne udfordring har enten brugt gradientforstærkende modeller eller deep learning-teknikker.

datasæt: Kaggle NYC Taxirejse Varighed Datasæt

7. Spamregistrering i realtid

I dette projekt kan du bruge maskinlæringsteknikker til at skelne mellem spam (illegitime) og skinke (legitime) beskeder.

For at opnå dette kan du bruge Kaggle SMS Spam Collection-datasættet. Dette datasæt indeholder et sæt af cirka 5K meddelelser, der er blevet mærket som spam eller skinke.

Du kan tage følgende trin for at bygge et spam-detektionssystem i realtid:

Brug Kaggles SMS Spam Collection-datasæt til at træne en maskinlæringsmodel.
Opret en simpel chatrumsserver i Python.
Implementer maskinlæringsmodellen på din chatrumsserver, og sørg for, at al indgående trafik passerer gennem modellen.
Tillad kun beskeder at gå igennem, hvis de er klassificeret som skinke. Hvis de er spam, skal du returnere en fejlmeddelelse i stedet for.

For at bygge maskinlæringsmodellen skal du først forbehandle de tekstbeskeder, der findes i Kaggles SMS Spam Collection-datasæt. Konverter derefter disse beskeder til en pose ord, så de nemt kan overføres til din klassifikationsmodel til forudsigelse.

datasæt: Kaggle SMS Spam Collection Dataset

8. Myers-Briggs Personality Prediction App

Du kan oprette en app til at forudsige en brugers personlighedstype baseret på, hvad de siger.

Myers-Briggs-typeindikatoren kategoriserer individer i 16 forskellige personlighedstyper. Det er en af de mest populære personlighedstests i verden.

Hvis du forsøger at finde din personlighedstype på internettet, vil du finde mange online quizzer. Efter at have besvaret omkring 20-30 spørgsmål, vil du blive tildelt en personlighedstype.

Men i dette projekt kan du bruge maskinlæring til at forudsige enhvers personlighedstype bare baseret på én sætning.

Her er de trin, du kan tage for at opnå dette:

Byg en klassifikationsmodel med flere klasser, og oplær den på Myers-Briggs-datasættet på Kaggle. Dette involverer dataforbehandling (fjernelse af stopord og unødvendige tegn) og noget funktionsteknologi. Du kan bruge en overfladisk læringsmodel som logistisk regression eller en dyb læringsmodel som en LSTM til dette formål.
Du kan oprette et program, der giver brugerne mulighed for at indtaste en hvilken som helst sætning efter eget valg.
Gem dine maskinlæringsmodelvægte, og integrer modellen med din app. Når slutbrugeren har indtastet et ord, skal du vise deres personlighedstype på skærmen, efter at modellen har foretaget en forudsigelse.

datasæt: Kaggle MBTI Type Datasæt

9. Mood Recognition System + Recommender System

Har du nogensinde været ked af det og følt, at du havde brug for at se noget sjovt for at muntre dig op? Eller har du nogensinde følt dig så frustreret, at du havde brug for at slappe af og se noget afslappende?

Dette projekt er en kombination af to mindre projekter.

Du kan bygge en app, der genkender en brugers humør baseret på live web-optagelser og et filmforslag baseret på brugerens udtryk.

For at bygge dette kan du tage følgende trin:

Opret en app, der kan tage et live video-feed ind.
Brug Pythons ansigtsgenkendelses-API til at registrere ansigter og følelser på objekter i videofeedet.
Efter at have klassificeret disse følelser i forskellige kategorier, skal du begynde at opbygge anbefalingssystemet. Dette kan være et sæt hårdkodede værdier for hver følelse, hvilket betyder, at du ikke behøver at involvere maskinlæring for anbefalingerne.
Når du er færdig med at bygge appen, kan du implementere den på Heroku, Dash eller en webserver.

API'er: Ansigtsgenkendelse API

10. YouTube Kommentar Sentiment Analyse

I dette projekt kan du oprette et dashboard, der analyserer den overordnede følelse hos populære YouTubere.

Over 2 milliarder brugere ser YouTube-videoer mindst én gang om måneden. Populære YouTubere får hundredvis af milliarder af visninger med deres indhold. Men mange af disse influencers er kommet under beskydning på grund af kontroverser i fortiden, og offentlighedens opfattelse ændrer sig konstant.

Du kan bygge en følelsesanalysemodel og oprette et dashboard til at visualisere følelser omkring berømtheder over tid.

For at bygge dette kan du tage følgende trin:

Skrab kommentarer til videoerne fra de YouTubere, du vil analysere.
Brug en forudtrænet følelsesanalysemodel til at lave forudsigelser om hver kommentar.
Visualiser modellens forudsigelser på et dashboard. Du kan endda oprette en dashboard-app ved hjælp af biblioteker som Dash (Python) eller Shiny (R).
Du kan gøre dashboardet interaktivt ved at give brugerne mulighed for at filtrere følelser efter tidsramme, navn på YouTuber og videogenre.

API'er: YouTube kommentarskraber

Resumé

Maskinlæringsindustrien er stor og fuld af muligheder. Hvis du ønsker at bryde ind i branchen uden nogen formel uddannelsesbaggrund, er den bedste måde at vise, at du har de nødvendige færdigheder til at udføre jobbet, gennem projekter.

Maskinlæringsaspektet for de fleste projekter nævnt ovenfor er ret simpelt. På grund af demokratiseringen af maskinlæring kan modelopbygningsprocessen nemt opnås gennem præ-trænede modeller og API'er.

Open source kunstig intelligens-projekter som Keras og FastAI har også hjulpet med at fremskynde modelbygningsprocessen. Den vanskelige del af disse maskinlæring og datavidenskabelige projekter er dataindsamling, forbehandling og implementering. Hvis du lander et job inden for maskinlæring, vil de fleste algoritmer være ret enkle at bygge. Det vil kun tage en dag eller to at oprette en salgsforudsigelsesmodel. Du vil bruge det meste af din tid på at finde passende datakilder og sætte dine modeller i produktion for at opnå forretningsværdi.

Original. Genopslået med tilladelse.

Relateret:

= Forrige indlæg

Næste indlæg =>

Tophistorier de seneste 30 dage

Mest Populære
Læser du Excel-filer med Python? Der er en 1000x hurtigere måde Automatiser Microsoft Excel og Word ved hjælp af Python Dataforskere uden datatekniske færdigheder vil møde den barske sandhed Sådan opretter du fantastiske webapps til dine datavidenskabsprojekter En datavidenskabsportefølje, der giver dig jobbet

Mest delt
The Machine & Deep Learning Compendium åben bog Dataforskere uden datatekniske færdigheder vil møde den barske sandhed Hypotesetest forklaret Data Science Cheat Sheet 2.0 8 Deep Learning-projektideer for begyndere