Publisert av Platon

Følgere: 0

20 maskinlæringsprosjekter som får deg til å ansette

Hvis du vil bryte deg inn på maskinlærings- og datavitenskapsmarkedet, må du demonstrere ferdighetene dine, spesielt hvis du er selvlært gjennom online kurs og bootcamps. En prosjektportefølje er en fin måte å øve på det nye håndverket ditt og tilby overbevisende bevis på at en ansatt bør ansette deg over konkurransen.

kommentarer

By Khushbu Shah, Content Manager hos ProjectPro.

AI- og maskinlæringsindustrien blomstrer som aldri før. Fra og med 2021 vil økningen i AI -bruk på tvers av bedrifter skape $ 2.9 billioner forretningsverdi. AI har automatisert mange bransjer over hele verden og endret måten de opererer på. De fleste store selskaper inkorporerer AI for å maksimere produktiviteten i arbeidsflyten, og bransjer som markedsføring og helse har gjennomgått et paradigmeskifte på grunn av konsolideringen av AI.

Bildekilde: Unsplash

På grunn av dette har det vært en økende etterspørsel de siste årene etter AI -fagfolk. Det har nesten vært en 100% økning i stillingsannonser relatert til AI og maskinlæring fra 2015 til 2018. Dette tallet har vokst siden og anslås å stige i 2021.

Hvis du ønsker å bryte deg inn i maskinlæringsindustrien, er den gode nyheten at det ikke er mangel på jobber. Bedrifter trenger en talentfull arbeidsstyrke som er i stand til å være banebrytende for skiftet til maskinlæring. Arbeidsmarkedet er imidlertid infiltrert av mennesker som ønsker å bryte seg inn i databransjen. Siden ingen spesifikt studieprogram er tilpasset studenter som ønsker å lære maskinlæring, er mange håpefulle ML-utøvere selvlærte.

Det er over 4 millioner studenter som er påmeldt Andrew Ngs maskinlæringskurs på nettet.

Dessverre hjelper det å lære deg de teoretiske konseptene å melde deg på online kurs eller ta en maskinlæring Bootcamp, men forbereder deg ikke på en jobb i bransjen. Det er mye mer praktisk arbeid å gjøre, etter å ha lært teorien. La oss si at du kjenner det grunnleggende i maskinlæringsalgoritmer - du forstår hvordan regresjons- og klassifiseringsmodeller fungerer, og du kjenner de forskjellige typene klyngemetoder.

Hvordan skal du praktisere ferdighetene du lærte for å løse et problem i virkeligheten? Det enkle svaret er: Øv, Øv og Øv mangfoldig maskinlæringsprosjekter.

Når du er ferdig med å lære teoretiske begreper, bør du begynne å jobbe med AI- og maskinlæringsprosjekter. Disse prosjektene vil gi deg den øvelsen som er nødvendig for å finpusse ferdighetene dine på feltet, og samtidig er et stort verditilskudd til maskinlæringsporteføljen din.

La oss utforske noen ML -prosjektideer som ikke bare får din portefølje til å se bra ut, men også vil forbedre maskinlæringsferdighetene dine betydelig. Dette er en kuratert liste over noen av de beste maskinlæringsprosjektene for studenter, håpefulle maskinlæringsutøvere og enkeltpersoner fra ikke-tekniske domener. Du kan jobbe med disse prosjektene uavhengig av bakgrunn, så lenge du har litt koding og kunnskap om maskinlæringsferdigheter. Dette er en liste over nybegynnere og avanserte maskinlæringsprosjekter.

Hvis du er ny i dataindustrien og har liten erfaring med virkelige prosjekter, kan du begynne med ML-prosjekter på nybegynnernivå før du går videre til de mer utfordrende.

Maskinlæringsprosjekter for nybegynnere

1. Kaggle Titanic Prediction

Det første prosjektet på denne listen er et av de mest enkle ML -prosjektene du kan ta. Dette prosjektet anbefales for å fullføre nybegynnere i dataindustrien. Titanic -datasettet er tilgjengelig på Kaggle, og lenken for å laste det ned er gitt nedenfor.

Dette datasettet er for passasjerer som reiste på titanic. Den har detaljer som passasjeralder, billettpris, hytte og kjønn. Basert på denne informasjonen må du forutsi om disse passasjerene overlevde eller ikke.

Det er et enkelt binært klassifiseringsproblem, og alt du trenger å gjøre er å forutsi om en bestemt passasjer overlevde. Det beste med dette datasettet er at all forbehandling er utført for deg. Du har et pent, rent datasett for å trene maskinlæringsmodellen din.

Siden dette er et klassifiseringsproblem, kan du velge å bruke algoritmer som logistisk regresjon, beslutningstrær og tilfeldige skoger for å bygge den prediktive modellen. Du kan også velge gradientforbedrende modeller som en XGBoost-klassifisering for dette maskinlæringsprosjektet på nybegynner for å få bedre resultater.

Datasett: Kaggle Titanic datasett

2. Husprisforutsigelse

Boligprisdata er også flott å begynne med hvis du er nybegynner innen maskinlæring. Dette prosjektet vil bruke husprissettet som er tilgjengelig på Kaggle. Målvariabelen i dette datasettet er prisen på et bestemt hus, som du må forutsi ved hjelp av informasjon som husområde, antall soverom, antall bad og verktøy.

Det er et regresjonsproblem, og du kan bruke teknikker som lineær regresjon for å bygge modellen. Du kan også ta en mer avansert tilnærming og bruke en tilfeldig skogregressor eller gradientøkning for å forutsi boligpriser.

Dette datasettet har 80 kolonner, unntatt målvariabelen. Du må bruke noen dimensjonalitetsreduksjonsteknikker for å håndplukke funksjoner siden det å legge for mange variabler kan få modellen til å fungere dårlig.

Det er også mange kategoriske variabler i datasettet, så du må håndtere dem på riktig måte ved å bruke teknikker som en-hot-koding eller etikett-koding.

Etter at du har bygd modellen din, kan du sende dine spådommer til huspriskonkurransen i Kaggle, ettersom den fremdeles er åpen. Den beste RMSE oppnådd av konkurrentene er 0, og mange mennesker har oppnådd gode resultater som 0.15 ved hjelp av regresjon og gradientforsterkende teknikker.

Datasett: Kaggle House Price Prediction Datasett

3. Forutsigelse av vinkvalitet

Vinkvalitetsforsikringsdatasettet er også veldig populært blant nybegynnere i dataindustrien. I dette prosjektet vil du bruke fast surhet, flyktig surhet, alkohol og tetthet for å forutsi kvaliteten på rødvin.

Dette kan behandles som enten et klassifiserings- eller regresjonsproblem. De vinkvalitet variabelen du trenger å forutsi i datasettet, varierer fra 0–10, slik at du kan bygge en regresjonsmodell for å forutsi. En annen tilnærming du kan ta er å bryte ned verdiene (fra 0–10) til diskrete intervaller og konvertere dem til kategoriske variabler. Du kan opprette tre kategorier, for eksempel - lav, middels, og høy.

Du kan deretter bygge en avgjørelsestreklassifisering eller en hvilken som helst klassifiseringsmodell for å gjøre prediksjonen. Det er et relativt rent og greit datasett for å øve på regresjon og klassifisering av maskinlæringsferdigheter.

Datasett: Datasett for Kaggle rødvinskvalitet

4. Forutsigelse av hjertesykdom

Hvis du ønsker å utforske et datasett i helsebransjen, er dette et flott datasett for nybegynnere til å begynne med. Dette datasettet brukes til å forutsi 10 års risiko for CHD (koronar hjertesykdom). De avhengige variablene i dette datasettet er risikofaktorer for hjertesykdom, inkludert diabetes, røyking, høyt blodtrykk og høyt kolesterolnivå.

Den uavhengige variabelen er den 10-årige risikoen for CHD. Det er et binært klassifiseringsproblem, og målvariabelen er enten 0 eller 1–0 for pasientene som aldri utviklet hjertesykdom og 1 for pasientene som gjorde det. Du kan utføre et funksjonsvalg på dette datasettet for å identifisere funksjoner som mest bidrar til hjertefare. Deretter kan du passe en klassifiseringsmodell på de uavhengige variablene.

Dette datasettet er svært ubalansert fordi mange av pasientene i dette datasettet gjorde det ikke utvikle hjertesykdom. Et ubalansert datasett må håndteres ved hjelp av de riktige funksjonsteknikkene som oversampling, vektjustering eller undersampling. Hvis du ikke behandler det riktig, vil du ende opp med en modell som ganske enkelt forutsier majoritetsklassen for hvert datapunkt og ikke kan identifisere pasienter som gjorde utvikle hjertesykdom. Dette er et utmerket datasett for deg å trene på funksjonsteknikk og maskinlæring.

Datasett: Datasett for Kaggle hjertesykdom

5. MNIST -sifferklassifisering

De MNIST datasettet er din springbrett i feltet for dyp læring. Dette datasettet består av gråtonebilder av håndskrevne siffer fra 0 til 9. Din oppgave vil være å identifisere sifferet ved hjelp av en dyp læringsalgoritme. Dette er et klassifiseringsproblem med flere klasser med ti mulige utgangsklasser. Du kan bruke et CNN (Convolutional Neural Network) for å utføre denne klassifiseringen.

MNIST -datasettet er bygget i Keras -biblioteket i Python. Alt du trenger å gjøre er å installere Keras, importere biblioteket og laste inn datasettet. Dette datasettet har rundt 60,000 80 bilder, slik at du kan bruke omtrent 20% av disse bildene til trening og ytterligere XNUMX% til testing.

Datasett: Kaggle Digit Recognizer Datasett

6. Sentimentanalyse av Twitter -data

Det er mange Twitter sentimentanalysedatasett tilgjengelig på Kaggle. En av de mest populære datasettene kalles sentiment140, som inneholder 1.6 millioner forhåndsbehandlede tweets. Dette er et flott datasett å begynne med hvis du er ny i sentimentanalyse.

Disse tweets har blitt kommentert, og målvariabelen er følelsen. De unike verdiene i denne kolonnen er 0 (negativ), 2 (nøytral) og 4 (positiv).

Etter forhåndsbehandling av disse tweets og konvertering av dem til vektorer, kan du bruke en klassifiseringsmodell til å trene dem med tilhørende følelser. Du kan bruke algoritmer som logistisk regresjon, avgjørelsestreklassifisering eller XGBoost -klassifisering for denne oppgaven.

Et annet alternativ er å bruke en dyp læringsmodell som LSTM for å komme med følelsesforutsigelser. Dette er imidlertid en litt mer utfordrende tilnærming og faller inn i kategorien avansert prosjekt.

Du kan også bruke dette merkede datasettet som en base for fremtidige sentimentanalyseoppgaver.

Hvis du har noen tweets du vil samle og utføre sentimentanalyse på, kan du bruke en modell som tidligere har blitt trent på sentiment140 for å gjøre fremtidige spådommer.

Datasett: Kaggle Sentiment140 Datasett

7. Pima Indian Diabetes Prediction

Pima Indian Diabetes Dataset brukes til å forutsi om en pasient har diabetes basert på diagnostiske målinger.

Basert på variabler som BMI, alder og insulin, vil modellen forutsi diabetes hos pasienter. Dette datasettet har ni variabler - åtte uavhengige variabler og en målvariabel.

Målvariabelen er 'diabetes ', så du vil forutsi 1 for tilstedeværelse av diabetes eller 0 for fravær av diabetes.

Dette er et klassifiseringsproblem for å eksperimentere med modeller som logistisk regresjon, avgjørelsestreklassifisering eller tilfeldig skogklassifisering.

Alle de uavhengige variablene i dette datasettet er numeriske, så dette er et flott datasett å starte med hvis du har minimal funksjonsteknisk erfaring.

Dette er et Kaggle -datasett som er åpent for nybegynnere. Det er mange opplæringsprogrammer på nettet som leder deg gjennom koding av løsningen i Python og R. Disse opplæringsprogrammene for notatbøker er en fin måte å lære og gjøre hendene skitne, slik at du kan gå videre til mer komplekse prosjekter.

Datasett: Kaggle Pima Datasett for indisk diabetes

8. Brystkreftklassifisering

Brystkreftklassifiseringsdatasettet på Kaggle er en annen utmerket måte å øve maskinlæring og AI -ferdigheter på.

De fleste overvåket maskinlæringsproblemer i den virkelige verden er klassifiseringsproblemer som denne. En sentral utfordring ved identifisering av brystkreft er manglende evne til å skille mellom godartede (ikke-kreft) og ondartede (kreft) svulster. Datasettet har variabler som “radius_mean” og “area_mean” av svulsten, og du må klassifisere ut fra disse funksjonene om en svulst er kreft eller ikke. Dette datasettet er relativt enkelt å jobbe med siden det ikke er nødvendig å foreta noen betydelig databehandling. Det er også et godt balansert datasett, noe som gjør oppgaven din mer håndterbar ettersom du ikke trenger å gjøre mye funksjonsteknikk.

Trening av en enkel logistisk regresjonsklassifisering på dette datasettet kan gi deg nøyaktighet så høy som 0.90.

Datasett: Kaggle brystkreftklassifiseringsdatasett

9. TMDB Box Office Prediction

Dette Kaggle -datasettet er en fin måte å øve regresjonskunnskapene dine på. Den består av rundt 7000 filmer, og du må bruke variablene som er tilstede for å forutsi filmens inntekt.

Datapunkter som er tilstede inkluderer cast, crew, budsjett, språk og utgivelsesdatoer. Det er 23 variabler i datasettet, hvorav den ene er målvariabelen.

En grunnleggende lineær regresjonsmodell kan gi deg et R-kvadrat på over 0.60, slik at du kan bruke dette som din grunnlinjeforutsigelsesmodell. Prøv å slå denne poengsummen ved å bruke teknikker som XGBoost -regresjon eller Light GBM.

Dette datasettet er litt mer komplekst enn det forrige siden noen kolonner har data til stede i nestede ordbøker. Du må gjøre en ekstra forbehandling for å trekke ut disse dataene i et brukbart format for å trene en modell på den.

Inntektsprognose er et flott prosjekt å vise frem i porteføljen din, ettersom den gir forretningsverdi til en rekke domener utenfor filmindustrien.

Datasett: Kaggle TMDB Box Office Prediction Dataset

10. Kundesegmentering i Python

Kundesegmenteringsdatasettet på Kaggle er en fin måte å komme i gang med maskinlæring uten tilsyn. Dette datasettet består av kundedetaljer som alder, kjønn, årlig inntekt og utgiftspoeng.

Du må bruke disse variablene for å bygge kundesegmenter. Kunder som er like bør grupperes i lignende klynger. Du kan bruke algoritmer som K-Means-klynge eller hierarkisk klynge for denne oppgaven. Kundesegmenteringsmodeller kan gi forretningsverdi.

Bedrifter ønsker ofte å skille sine kunder for å komme med forskjellige markedsføringsteknikker for hver kundetype.

Hovedmålene for dette datasettet inkluderer:

Oppnå kundesegmentering ved hjelp av maskinlæringsteknikker
Identifiser målkundene dine for forskjellige markedsføringsstrategier
Forstå hvordan markedsføringsstrategier fungerer i den virkelige verden

Å bygge en klyngemodell for denne oppgaven kan hjelpe porteføljen din til å skille seg ut, og segmentering er en stor ferdighet å ha hvis du ønsker å få en AI-relatert jobb i markedsføringsindustrien.

Datasett: Kaggle Mall kundesegmenteringsdatasett

Mellom-/avansert nivå maskinlæringsprosjekter for ditt CV

Når du er ferdig med å jobbe med enkle maskinlæringsprosjekter som de som er oppført ovenfor, kan du gå videre til mer utfordrende prosjekter.

1. Salgsprognoser

Tidsserieprognoser er en maskinlæringsteknikk som brukes veldig ofte i bransjen. Bruken av tidligere data for å forutsi fremtidig salg har et stort antall forretningsbrukstilfeller. Kaggle Demand Forecasting -datasettet kan brukes til å praktisere dette prosjektet.

Dette datasettet har 5 års salgsdata, og du må forutsi salg for de neste tre månedene. Det er ti forskjellige butikker oppført i datasettet, og det er 50 varer i hver butikk.

For å forutsi salg kan du prøve ut forskjellige metoder - ARIMA, Vector Autoregresjon eller dyp læring. En metode du kan bruke for dette prosjektet er å måle salgsøkningen for hver måned og registrere den. Bygg deretter modellen på forskjellen mellom forrige måned og nåværende månedssalg. Å ta hensyn til faktorer som høytider og sesongmessigheter kan forbedre ytelsen til maskinlæringsmodellen din.

Datasett: Etterspørsel etterspørsel etter Kaggle -butikk

2. Kundeservice Chatbot

En kundeservice chatbot bruker AI og maskinlæringsteknikker for å svare kunder og ta rollen som en menneskelig representant. En chatbot skal kunne svare på enkle spørsmål for å tilfredsstille kundens behov.

Det er for tiden tre typer chatbots du kan bygge:

Regelbaserte chatbots-Disse chatbotene er ikke intelligente. De blir matet med et sett med forhåndsdefinerte regler og svarer bare til brukere basert på disse reglene. Noen chatbots har også et forhåndsdefinert sett med spørsmål og svar, og kan ikke svare på spørsmål som faller utenfor dette domenet.
Uavhengige chatbots - Uavhengige chatbots bruker maskinlæring til å behandle og analysere en brukers forespørsel og gi svar deretter.
NLP Chatbots - Disse chatbotene kan forstå mønstre i ord og skille mellom forskjellige ordkombinasjoner. De er de mest avanserte av alle tre chatbot -typene, ettersom de kan komme med hva de skal si videre basert på ordmønstrene de ble trent på.

En NLP chatbot er en interessant maskinlæringsprosjektidé. Du trenger et eksisterende ordkorpus for å trene modellen din på, og du kan enkelt finne Python -biblioteker for å gjøre dette. Du kan også ha en forhåndsdefinert ordbok med en liste med spørsmål og svarpar du vil trene modellen din.

3. System for gjenkjenning av viltobjekter

Hvis du bor i et område med hyppige observasjoner av ville dyr, er det nyttig å implementere et objektdeteksjonssystem for å identifisere deres tilstedeværelse i ditt område. Følg disse trinnene for å bygge et system som dette:

Installer kameraer i området du vil overvåke.
Last ned alle videoopptakene og lagre dem.
Lag et Python -program for å analysere innkommende bilder og identifisere ville dyr.

Microsoft har bygget et bildegjenkjennings -API ved hjelp av data samlet inn fra viltkameraer. De ga ut en forhåndsutdannet modell med åpen kildekode for dette formålet, kalt MegaDetector.

Du kan bruke denne forhåndsutdannede modellen i Python-applikasjonen til å identifisere ville dyr fra bildene som er samlet. Det er et av de mest spennende ML-prosjektene som er nevnt så langt, og er ganske enkelt å implementere på grunn av tilgjengeligheten av en forhåndsutdannet modell for dette formålet.

API: MegaDetektor

4. Spotify Music Recommender System

Spotify bruker AI til å anbefale musikk til brukerne. Du kan prøve å bygge et anbefalingssystem basert på offentlig tilgjengelige data på Spotify.

Spotify har et API som du kan bruke til å hente lyddata - du kan finne funksjoner som utgivelsesår, nøkkel, popularitet og artist. For å få tilgang til denne API -en i Python, kan du bruke et bibliotek som heter Spotipy.

Du kan også bruke Spotify -datasettet på Kaggle som har rundt 600 XNUMX rader. Ved å bruke disse datasettene kan du foreslå det beste alternativet til hver brukers favorittmusiker. Du kan også komme med sanganbefalinger basert på innholdet og sjangeren som foretrekkes av hver bruker.

Dette anbefalingssystemet kan bygges ved hjelp av K-Means-klynger-lignende datapunkter blir gruppert. Du kan anbefale sanger med en minimal avstand mellom dem til sluttbrukeren.

Når du har bygget anbefalingssystemet, kan du også gjøre det til en enkel Python -app og distribuere den. Du kan få brukerne til å skrive inn favorittsangene sine på Spotify, og deretter vise modellanbefalingene dine på skjermen som har størst likhet med sangene de likte.

Datasett: Kaggle Spotify Datasett

5. Analyse av markedskurven

Market Basket Analysis er en populær teknikk som brukes av forhandlere for å identifisere varer som kan selges sammen.

For eksempel:

For et par år tilbake fant en forskningsanalytiker en sammenheng mellom salget av øl og bleier. Mesteparten av tiden, når en kunde gikk inn i butikken for å kjøpe en øl, kjøpte de også bleier sammen.

På grunn av dette begynte butikker å selge øl og bleier sammen på samme midtgangen som en markedsføringsstrategi for å øke salget. Og det fungerte.

Det ble antatt at øl og bleier hadde en høy korrelasjon da menn ofte kjøpte dem sammen. Menn gikk inn i butikken for å kjøpe en øl, sammen med flere andre husholdningsartikler til familien (inkludert bleier). Dette virker som en ganske umulig sammenheng, men det skjedde.

Market Basket Analysis kan hjelpe selskaper med å identifisere skjulte korrelasjoner mellom varer som ofte kjøpes sammen. Disse butikkene kan deretter plassere varene sine på en måte som gjør at folk kan finne dem lettere.

Du kan bruke Market Basket Optimization -datasettet på Kaggle til å bygge og trene modellen din. Den mest brukte algoritmen som brukes til å utføre Market Basket Analysis er Apriori -algoritmen.

Datasett: Kaggle Market Basket Optimization Dataset

6. NYC Taxitur Varighet

Datasettet har variabler som inkluderer start- og sluttkoordinater for en drosjetur, tid og antall passasjerer. Målet med dette ML -prosjektet er å forutsi turens varighet med alle disse variablene. Det er et regresjonsproblem.

Variabler som tid og koordinater må forhåndsbehandles på riktig måte og konverteres til et forståelig format. Dette prosjektet er ikke så enkelt som det ser ut til. Dette datasettet har også noen ekstremer som gjør prediksjon mer kompleks, så du må håndtere dette med funksjonstekniske teknikker.

Evalueringskriteriene for denne NYC Taxi Trip Kaggle Competition er RMSLE eller Root Mean Squared Log Error. Den øverste innsendelsen på Kaggle fikk en RMSLE -poengsum på 0.29, og Kaggles grunnlinjemodell har en RMSLE på 0.89.

Du kan bruke hvilken som helst regresjonsalgoritme for å løse dette Kaggle -prosjektet, men de best konkurrerende konkurrentene i denne utfordringen har enten brukt modeller med gradientforsterkning eller dyp læringsteknikk.

Datasett: Kaggle NYC Taxi Trip Varighet Datasett

7. Nettsøppeloppdagelse i sanntid

I dette prosjektet kan du bruke maskinlæringsteknikker for å skille mellom spam (uekte) og skinke (legitime) meldinger.

For å oppnå dette kan du bruke datasettet Kaggle SMS Spam Collection. Dette datasettet inneholder et sett med omtrent 5K meldinger som er merket som søppelpost eller skinke.

Du kan ta følgende trinn for å bygge et system for søppeldetektering i sanntid:

Bruk Kaggles datasett for spam -samling for å trene en maskinlæringsmodell.
Lag en enkel chat-roomserver i Python.
Distribuer maskinlæringsmodellen på chat-rom-serveren din og sørg for at all innkommende trafikk passerer gjennom modellen.
Bare la meldinger gå gjennom hvis de er klassifisert som skinke. Hvis de er søppelpost, returnerer du en feilmelding i stedet.

For å bygge maskinlæringsmodellen må du først forhåndsbehandle tekstmeldingene som finnes i Kaggles datasett for samlesamling av sms. Konverter deretter disse meldingene til en pose med ord, slik at de enkelt kan overføres til klassifiseringsmodellen din for prediksjon.

Datasett: Datasett for Kaggle SMS Spam Collection

8. Myers-Briggs Personality Prediction App

Du kan lage en app for å forutsi en brukers personlighetstype basert på hva de sier.

Myers-Briggs typeindikator kategoriserer individer i 16 forskjellige personlighetstyper. Det er en av de mest populære personlighetstestene i verden.

Hvis du prøver å finne din personlighetstype på Internett, finner du mange online quizer. Etter å ha svart rundt 20–30 spørsmål, blir du tildelt en personlighetstype.

I dette prosjektet kan du imidlertid bruke maskinlæring til å forutsi noens personlighetstype bare basert på en setning.

Her er trinnene du kan ta for å oppnå dette:

Bygg en klassifikasjonsmodell i flere klasser og tren den på Myers-Briggs-datasettet på Kaggle. Dette innebærer forhåndsbehandling av data (fjerning av stoppord og unødvendige tegn) og noen funksjonsteknikk. Du kan bruke en grunne læringsmodell som logistisk regresjon eller en dyp læringsmodell som en LSTM for dette formålet.
Du kan opprette et program som lar brukerne angi hvilken som helst setning.
Lagre maskinlæringsmodellvektene dine og integrer modellen med appen din. Etter at sluttbrukeren har skrevet inn et ord, viser du personlighetstypen på skjermen etter at modellen har spådd.

Datasett: Kaggle MBTI Type datasett

9. Stemningsgjenkjenningssystem + anbefalingssystem

Har du noen gang vært trist og følt at du trengte å se på noe morsomt for å muntre deg opp? Eller har du noen gang følt deg så frustrert at du trengte å slappe av og se på noe avslappende?

Dette prosjektet er en kombinasjon av to mindre prosjekter.

Du kan bygge en app som gjenkjenner en brukers humør basert på live webopptak og et filmforslag basert på brukerens uttrykk.

For å bygge dette kan du ta følgende trinn:

Lag en app som kan ta i en live video feed.
Bruk Pythons ansiktsgjenkjennings -API for å oppdage ansikter og følelser på objekter i videofeedet.
Etter å ha klassifisert disse følelsene i forskjellige kategorier, begynn å bygge anbefalingssystemet. Dette kan være et sett med hardkodede verdier for hver følelse, noe som betyr at du ikke trenger å involvere maskinlæring for anbefalingene.
Når du er ferdig med å bygge appen, kan du distribuere den på Heroku, Dash eller en webserver.

API: Ansiktsgjenkjenning API

10. Analyse av sentiment fra YouTube

I dette prosjektet kan du lage et dashbord som analyserer den generelle følelsen av populære YouTubere.

Over 2 milliarder brukere ser YouTube -videoer minst en gang i måneden. Populære YouTubere får hundrevis av milliarder visninger med innholdet sitt. Imidlertid har mange av disse påvirkerne blitt utsatt for skudd på grunn av kontroverser tidligere, og den offentlige oppfatningen endres stadig.

Du kan bygge en sentimentanalysemodell og lage et dashbord for å visualisere følelser rundt kjendiser over tid.

For å bygge dette kan du ta følgende trinn:

Skrap kommentarer til videoene til YouTubers du vil analysere.
Bruk en forhåndsutdannet sentimentanalysemodell for å forutsi hver kommentar.
Visualiser modellens spådommer på et dashbord. Du kan til og med lage en dashbord -app ved hjelp av biblioteker som Dash (Python) eller Shiny (R).
Du kan gjøre dashbordet interaktivt ved å la brukerne filtrere følelser etter tidsramme, navn på YouTuber og videosjanger.

API: YouTube -kommentarskraper

Oppsummering

Maskinlæringsindustrien er stor og full av muligheter. Hvis du vil bryte deg inn i bransjen uten formell utdanningsbakgrunn, er den beste måten å vise at du har ferdighetene som er nødvendige for å gjøre jobben, gjennom prosjekter.

Maskinlæringsaspektet for de fleste prosjektene som er oppført ovenfor er ganske enkelt. På grunn av demokratisering av maskinlæring kan modellbyggingsprosessen lett oppnås gjennom forhåndsutdannede modeller og APIer.

Åpen kildekode kunstig intelligens prosjekter som Keras og FastAI har også bidratt til å fremskynde modellbyggingsprosessen. Den vanskelige delen av disse maskinlæring og datavitenskapelige prosjekter er datainnsamling, forbehandling og distribusjon. Hvis du får en jobb i maskinlæring, vil de fleste algoritmer være ganske enkle å bygge. Det vil bare ta en dag eller to å lage en salgsforutsigelsesmodell. Du vil bruke mesteparten av tiden din på å finne passende datakilder og sette modellene i produksjon for å få forretningsverdi.

original. Ompostet med tillatelse.

Relatert:

= Forrige innlegg

Neste post =>

Topphistorier siste 30 dager

Mest populær
Leser du Excel -filer med Python? Det er en 1000x raskere måte Automatiser Microsoft Excel og Word ved hjelp av Python Datavitenskapere uten datatekniske ferdigheter vil møte den harde sannheten Slik lager du fantastiske webapps for dine datavitenskapsprosjekter En datavitenskapsportefølje som gir deg jobben

De fleste delte
The Machine & Deep Learning Compendium Open Book Datavitenskapere uten datatekniske ferdigheter vil møte den harde sannheten Hypotesetesting forklart Data Science Cheat Sheet 2.0 8 dype læringsprosjektideer for nybegynnere