Julkaissut Platon

seuraajia: 0

20 koneoppimisprojektia, jotka palkkaavat sinut

Tunnisteet: Ura, Koneen oppiminen, projekti

Jos haluat murtautua koneoppimisen ja tietotieteen työmarkkinoille, sinun on osoitettava taitojesi taito, varsinkin jos olet itseoppinut verkkokurssien ja käynnistysleirien kautta. Projektisalkku on loistava tapa harjoitella uutta ammattiasi ja tarjota vakuuttavia todisteita siitä, että työntekijän pitäisi palkata sinut kilpailun aikana.

kommentit

By Khushbu Shah, Content Manager, ProjectPro.

Teko- ja koneoppimisteollisuus kukoistaa kuin koskaan ennen. Vuodesta 2021 alkaen tekoälyn käytön lisääntyminen yrityksissä luo 2.9 biljoonaa dollaria liikearvoa. Tekoäly on automatisoinut monia teollisuudenaloja ympäri maailmaa ja muuttanut niiden toimintaa. Useimmat suuret yritykset käyttävät tekoälyä tuottavuuden maksimoimiseksi työnkulussaan, ja teollisuudenalat, kuten markkinointi ja terveydenhuolto, ovat muuttuneet tekoälyn yhdentymisen vuoksi.

Kuvan lähde: Unsplash

Tämän vuoksi tekoälyammattilaisten kysyntä on kasvanut viime vuosina. Tekoälyyn ja koneoppimiseen liittyvien työpaikkailmoitusten määrä on kasvanut lähes 100% vuodesta 2015 vuoteen 2018. Tämä määrä on kasvanut sen jälkeen ja sen ennustetaan kasvavan vuonna 2021.

Jos aiot murtautua koneoppimisalalle, hyvä uutinen on, että työpaikoista ei ole pulaa. Yritykset tarvitsevat lahjakkaita työntekijöitä, jotka pystyvät edelläkävijäksi siirtymään koneoppimiseen. Kuitenkin työmarkkinoille tunkeutuvat ihmiset, jotka haluavat murtautua datateollisuuteen. Koska mikään erityinen koulutusohjelma ei tarkoitettu koneoppimista haluaville opiskelijoille, monet ML-harjoittajat ovat itseopiskelijoita.

Andrew Ngin koneoppimisen verkkokurssille on ilmoittautunut yli 4 miljoonaa opiskelijaa.

Valitettavasti verkkokursseille ilmoittautuminen tai koneoppiminen Bootcamp auttaa sinua oppimaan teoreettiset käsitteet, mutta ei valmista sinua alan työhön. Teorian oppimisen jälkeen on vielä paljon käytännön työtä. Oletetaan, että tiedät koneoppimisalgoritmien perusteet - ymmärrät, miten regressio- ja luokitusmallit toimivat, ja tiedät erilaiset klusterointimenetelmät.

Miten aiot harjoitella taitoja, joita olet oppinut ratkaisemaan tosielämän ongelman? Yksinkertainen vastaus on: Harjoittele, harjoittele ja harjoittele monipuolisesti koneoppimisprojektit.

Kun olet oppinut teoreettiset käsitteet, sinun on aloitettava tekoäly- ja koneoppimisprojektit. Nämä projektit antavat sinulle harjoittelun, jota tarvitaan alan taitojen hiontaan, ja samalla ne ovat suuri lisäarvo koneoppimisvalikoimaasi.

Tutkitaan ilman paljon asioita joitakin ML -projektiideoita, jotka eivät vain tee portfoliosta hyvännäköisiä, vaan parantavat myös merkittävästi koneoppimistasi. Tämä on kuratoitu luettelo parhaista koneoppimisprojekteista opiskelijoille, pyrkiville koneoppimisen harjoittajille ja muille kuin teknisille aloille. Voit työskennellä näissä projekteissa taustastasi riippumatta, kunhan sinulla on jonkin verran koodausta ja koneoppimistaitoja. Tämä on luettelo aloittelijan ja edistyneen tason koneoppimisprojekteista.

Jos olet uusi datateollisuudessa ja sinulla on vain vähän kokemusta tosielämän projekteista, aloita aloittelijan tason ML-projekteista ennen kuin siirryt haastavampiin.

Koneoppimisprojektit aloittelijoille

1. Kaggle Titanic Prediction

Tämän luettelon ensimmäinen projekti on yksi yksinkertaisimmista ML -projekteista, joita voit ottaa vastaan. Tätä projektia suositellaan datateollisuuden aloittelijoille. Titanic -tietojoukko on saatavilla Kagglessa, ja sen latauslinkki on alla.

Tämä aineisto sisältää matkustajia, jotka matkustivat titaanilla. Siinä on yksityiskohtia, kuten matkustajan ikä, lipun hinta, hytti ja sukupuoli. Näiden tietojen perusteella sinun on ennustettava, selvisivätkö nämä matkustajat vai eivät.

Se on yksinkertainen binääriluokitusongelma, ja sinun tarvitsee vain ennustaa, selviikö tietty matkustaja. Parasta tässä tietojoukossa on se, että kaikki esikäsittely tehdään puolestasi. Sinulla on mukava, puhdas tietojoukko kouluttaaksesi koneoppimismalliasi.

Koska tämä on luokitusongelma, voit käyttää ennustavan mallin rakentamiseen algoritmeja, kuten logistista regressiota, päätöspuita ja satunnaisia metsiä. Voit valita parempia tuloksia myös valitsemalla kaltevuuden lisäämismalleja, kuten XGBoost-luokittelijan.

aineisto: Kaggle Titanic -datasetti

2. Asunnon hinnan ennustaminen

Asuntojen hintoja koskevat tiedot ovat myös hyvä aloittaa, jos olet aloittelija koneoppimisessa. Tämä projekti käyttää Kagglesta saatavilla olevaa talon hinnoitteluaineistoa. Tämän tietojoukon kohdemuuttuja on tietyn talon hinta, joka sinun on ennustettava käyttämällä tietoja, kuten talon pinta -ala, makuuhuoneiden lukumäärä, kylpyhuoneiden määrä ja apuohjelmat.

Se on regressio -ongelma, ja voit rakentaa mallin käyttämällä tekniikoita, kuten lineaarista regressiota. Voit myös käyttää kehittyneempää lähestymistapaa ja käyttää satunnaista metsän regressoria tai gradientin tehostamista asuntojen hintojen ennustamiseen.

Tässä tietojoukossa on 80 saraketta, ilman kohdemuuttujaa. Sinun on käytettävä joitakin ulottuvuuden pienentämistekniikoita ominaisuuksien käsinvalinnassa, koska liikaa muuttujia lisäämällä mallisi voi toimia huonosti.

Tietojoukossa on myös monia kategorisia muuttujia, joten sinun on käsiteltävä niitä oikein käyttämällä tekniikoita, kuten yhden kuuman koodauksen tai tarran koodausta.

Mallin rakentamisen jälkeen voit lähettää ennusteesi Kagglen talon hinnoittelukilpailuun, koska se on vielä auki. Kilpailijoiden paras RMSE on 0, ja monet ihmiset ovat saavuttaneet hyviä tuloksia, kuten 0.15 regressio- ja kaltevuusparannustekniikoiden avulla.

aineisto: Kaggle House Hintaennuste -tietojoukko

3. Viinin laadun ennustaminen

Viinin laadun ennustetiedot ovat myös erittäin suosittuja datateollisuuden aloittelijoiden keskuudessa. Tässä projektissa käytät kiinteää happamuutta, haihtuvaa happamuutta, alkoholia ja tiheyttä punaviinin laadun ennustamiseen.

Tätä voidaan pitää joko luokittelu- tai regressio -ongelmana. The viinin laatu muuttuja, joka sinun on ennustettava tietojoukossa, vaihtelee välillä 0–10, joten voit rakentaa ennustettavaksi regressiomallin. Toinen lähestymistapa on jakaa arvot (0–10) erillisiin aikaväleihin ja muuntaa ne kategorisiin muuttujiin. Voit luoda kolme luokkaa, esimerkiksi - matala, keskikokoinen, ja korkea.

Voit sitten rakentaa ennusteen tekemiseksi päätöspuun luokittelijan tai minkä tahansa luokitusmallin. Se on suhteellisen puhdas ja suoraviivainen tietokokonaisuus regressio- ja luokittelukoneen oppimistaitojen harjoittamiseen.

aineisto: Kaggle Punaviinin laadun tietojoukko

4. Sydänsairauksien ennustaminen

Jos haluat tutkia terveydenhuollon tietojoukkoa, tämä on loistava aloittelijan tason alku. Tätä aineistoa käytetään ennustamaan CHD: n (sepelvaltimotauti) 10 vuoden riskiä. Tämän aineiston riippuvaiset muuttujat ovat sydänsairauksien riskitekijöitä, kuten diabetes, tupakointi, korkea verenpaine ja korkea kolesterolitaso.

Riippumaton muuttuja on 10 vuoden CHD-riski. Se on binäärinen luokitusongelma, ja tavoitemuuttuja on joko 0 tai 1–0 potilaille, joilla ei ole koskaan kehittynyt sydänsairautta, ja 1 potilaille, jotka saivat sen. Voit valita joitakin ominaisuuksia tässä tietojoukossa tunnistaaksesi ominaisuuksia, jotka vaikuttavat eniten sydänriskiin. Sitten voit sovittaa luokitusmallin riippumattomiin muuttujiin.

Tämä aineisto on erittäin epätasapainossa, koska monet tämän tietojoukon potilaista olivat emme kehittää sydänsairaus. Epätasapainoinen tietojoukko on käsiteltävä käyttämällä oikeita ominaisuustekniikoita, kuten ylinäytteistystä, painon säätöä tai alinäytteenottoa. Jos sitä ei käsitellä oikein, päädyt malliin, joka yksinkertaisesti ennustaa enemmistöluokan kullekin datapisteelle eikä pysty tunnistamaan potilaita, jotka teki kehittää sydänsairaus. Tämä on erinomainen aineisto, jonka avulla voit harjoitella ominaisuuksien suunnittelua ja koneoppimistaitojasi.

aineisto: Kaggle Heart Disease -tietojoukko

5. MNIST -luokitus

- MNIST tietojoukko on askeleesi syvään oppimiseen. Tämä aineisto koostuu harmaasävyisistä kuvista käsin kirjoitetuista numeroista 0 - 9. Tehtäväsi olisi tunnistaa numero käyttämällä syväoppimisalgoritmia. Tämä on moniluokkainen luokitusongelma, jossa on kymmenen mahdollista tulostusluokkaa. Voit käyttää CNN: ää (Convolutional Neural Network) tämän luokituksen suorittamiseen.

MNIST -tietojoukko on rakennettu Pythonin Keras -kirjastoon. Sinun tarvitsee vain asentaa Keras, tuoda kirjasto ja ladata tietojoukko. Tässä tietojoukossa on noin 60,000 80 kuvaa, joten voit käyttää noin 20% näistä kuvista koulutukseen ja XNUMX% testeihin.

aineisto: Kaggle -numerotunnistimen tietojoukko

6. Twitter -tietojen tunneanalyysi

Kagglesta on saatavana monia Twitterin mielialan analysointitietoja. Yksi suosituimmista tietojoukoista on sentiment140, joka sisältää 1.6 miljoonaa esikäsiteltyä twiittiä. Tämä on loistava tietojoukko aluksi, jos olet uusi tunneanalyysissä.

Nämä twiitit on merkitty, ja kohdemuuttuja on tunne. Tämän sarakkeen yksilölliset arvot ovat 0 (negatiivinen), 2 (neutraali) ja 4 (positiivinen).

Näiden twiittien esikäsittelyn ja vektoreiksi muuntamisen jälkeen voit käyttää luokittelumallia opettamaan niitä ja niihin liittyviä tunteita. Tässä tehtävässä voit käyttää algoritmeja, kuten logistista regressiota, päätöspuun luokittelijaa tai XGBoost -luokittelijaa.

Toinen vaihtoehto on käyttää syväoppimismallia, kuten LSTM, tunteiden ennustamiseen. Tämä on kuitenkin hieman haastavampi lähestymistapa ja kuuluu edistyneiden hankkeiden luokkaan.

Voit myös käyttää tätä merkittyä tietojoukkoa pohjana tuleville tunteiden analysointitehtäville.

Jos sinulla on twiittejä, jotka haluat kerätä ja joilla voit analysoida tunteita, voit käyttää tulevaisuuden ennusteisiin mallia, joka on aiemmin koulutettu tunteesta140.

aineisto: Kaggle Sentiment140 Tietojoukko

7. Pima Intian diabeteksen ennustus

Pima Indian Diabetes Datasetia käytetään diagnostisten mittausten perusteella ennustamaan, onko potilaalla diabetes.

Muuttujien, kuten BMI, ikä ja insuliini, perusteella malli ennustaa diabeteksen potilaille. Tässä tietojoukossa on yhdeksän muuttujaa - kahdeksan riippumatonta muuttujaa ja yksi kohdemuuttuja.

Kohdemuuttuja on 'diabetes', joten ennustat 1 diabeteksen esiintymiselle tai 0 diabeteksen puuttumiselle.

Tämä on luokitusongelma kokeilla malleja, kuten logistinen regressio, päätöspuun luokittelija tai satunnainen metsän luokittelija.

Kaikki tämän tietojoukon riippumattomat muuttujat ovat numeerisia, joten tämä on loistava tietojoukko aluksi, jos sinulla on minimaalinen ominaisuuksien suunnittelukokemus.

Tämä on Kaggle -tietojoukko, joka on avoin aloittelijoille. Verkossa on monia opetusohjelmia, jotka opastavat ratkaisun koodaamisessa Pythonissa ja R. Nämä muistikirjan opetusohjelmat ovat loistava tapa oppia ja saada kätesi likaiseksi, jotta voit siirtyä monimutkaisempiin projekteihin.

aineisto: Kaggle Pima Indian Diabetes Dataset

8. Rintasyövän luokittelu

Kagglen rintasyöpäluokitustietoaineisto on toinen erinomainen tapa harjoittaa koneoppimista ja tekoälytaitoja.

Useimmat valvotut koneoppimisongelmat todellisessa maailmassa ovat tämänkaltaisia luokitusongelmia. Keskeinen haaste rintasyövän tunnistamisessa on kyvyttömyys erottaa hyvänlaatuiset (ei-syöpä) ja pahanlaatuiset (syövät) kasvaimet. Tietojoukossa on muuttujia, kuten kasvaimen "säde_mean" ja "pinta -ala", ja sinun on luokiteltava näiden ominaisuuksien perusteella, onko kasvain syöpä vai ei. Tämän aineiston kanssa on suhteellisen helppo työskennellä, koska mitään merkittävää tietojen esikäsittelyä ei tarvitse tehdä. Se on myös tasapainoinen tietojoukko, joka tekee tehtävästäsi hallittavamman, koska sinun ei tarvitse tehdä paljon ominaisuuksien suunnittelua.

Yksinkertaisen logistisen regressioluokittelijan kouluttaminen tällä aineistolla voi antaa sinulle jopa 0.90 tarkkuuden.

aineisto: Kaggle Rintasyövän luokittelun tietojoukko

9. TMDB Box Office -ennuste

Tämä Kaggle -tietojoukko on loistava tapa harjoitella regressio -taitojasi. Se koostuu noin 7000 elokuvasta, ja sinun on käytettävä muuttujia elokuvan tulojen ennustamiseen.

Tietopisteitä ovat näyttelijät, miehistö, budjetti, kielet ja julkaisupäivät. Tietojoukossa on 23 muuttujaa, joista yksi on kohdemuuttuja.

Perus lineaarinen regressiomalli voi antaa sinulle R-neliön yli 0.60, joten voit käyttää tätä lähtötilanteen ennustusmallina. Yritä voittaa tämä tulos käyttämällä XGBoost -regressiota tai Light GBM -tekniikoita.

Tämä tietojoukko on hieman monimutkaisempi kuin edellinen, koska joissakin sarakkeissa on tietoja sisäkkäisissä sanakirjoissa. Sinun on suoritettava ylimääräinen esikäsittely, jotta voit poimia nämä tiedot käyttökelpoisessa muodossa, jotta voit kouluttaa mallin siihen.

Tulojen ennustaminen on loistava projekti, joka esittelee salkkuasi, koska se tarjoaa liiketoiminta -arvoa monille elokuvateollisuuden ulkopuolisille aloille.

aineisto: Kaggle TMDB Box Office -ennustustietojoukko

10. Asiakassegmentti Pythonissa

Kagglen asiakassegmentointiaineisto on loistava tapa aloittaa ilman valvontaa tapahtuva koneoppiminen. Tämä tietojoukko koostuu asiakkaan tiedoista, kuten iästä, sukupuolesta, vuosituloista ja menopisteistä.

Sinun on käytettävä näitä muuttujia asiakassegmenttien rakentamiseen. Samankaltaiset asiakkaat tulisi ryhmitellä samanlaisiin klustereihin. Voit käyttää tähän tehtävään algoritmeja, kuten K-Means-klusterointia tai hierarkkista klusterointia. Asiakkaiden segmentointimallit voivat tarjota liiketoiminnan arvoa.

Yritykset haluavat usein erottaa asiakkaitaan eri markkinointitekniikoista jokaiselle asiakastyypille.

Tämän aineiston päätavoitteet ovat:

Asiakkaiden segmentoinnin saavuttaminen koneoppimisen tekniikoilla
Tunnista kohdeasiakkaasi erilaisille markkinointistrategioille
Ymmärtää, miten markkinointistrategiat toimivat todellisessa maailmassa

Ryhmittelymallin luominen tätä tehtävää varten voi auttaa salkkuasi erottautumaan, ja segmentointi on loistava taito, jos haluat saada tekoälyyn liittyvää työtä markkinointialalla.

aineisto: Kaggle Mallin asiakkaiden segmentoinnin tietojoukko

Keskitason/edistyneen tason koneoppimisprojektit ansioluetteloosi

Kun olet valmis työskentelemään yllä lueteltujen yksinkertaisten koneoppimisprojektien parissa, voit siirtyä haastavampiin projekteihin.

1. Myynnin ennustaminen

Aikasarjojen ennustaminen on koneoppimistekniikka, jota käytetään alalla usein. Menneiden tietojen käytöllä tulevan myynnin ennustamiseen liittyy suuri määrä yrityskäyttötapauksia. Kaggle Demand Forecasting -tietoaineistoa voidaan käyttää tämän projektin harjoittamiseen.

Tässä tietojoukossa on 5 vuoden myyntitiedot, ja sinun on ennakoitava myynti seuraaville kolmelle kuukaudelle. Tietojoukossa on kymmenen eri kauppaa, ja jokaisessa kaupassa on 50 tuotetta.

Voit ennustaa myyntiä kokeilemalla erilaisia menetelmiä - ARIMA, Vector Autoregression tai syväoppiminen. Yksi menetelmä, jota voit käyttää tässä projektissa, on mitata myynnin kasvu kuukausittain ja kirjata se. Rakenna sitten malli edellisen ja nykyisen kuukauden myynnin erotuksen perusteella. Loma- ja kausiluonteisten tekijöiden huomioon ottaminen voi parantaa koneoppimismallisi suorituskykyä.

aineisto: Kaggle Store -tuotteen kysynnän ennustaminen

2. Asiakaspalvelu Chatbot

Asiakaspalvelun chatbot käyttää tekoälyä ja koneoppimistekniikoita vastatakseen asiakkaisiin ja ottamaan ihmisen edustajan roolin. Chatbotin pitäisi pystyä vastaamaan yksinkertaisiin kysymyksiin asiakkaiden tarpeiden tyydyttämiseksi.

Tällä hetkellä voit rakentaa kolmenlaisia chatbotteja:

Sääntöpohjaiset chatbotit-Nämä chatbotit eivät ole älykkäitä. Heille syötetään joukko ennalta määriteltyjä sääntöjä ja ne vastaavat käyttäjille vain näiden sääntöjen perusteella. Joissakin chatboteissa on myös ennalta määritelty joukko kysymyksiä ja vastauksia, eivätkä ne voi vastata kyselyihin, jotka eivät kuulu tämän verkkotunnuksen ulkopuolelle.
Riippumattomat chatbotit - Riippumattomat chatbotit käyttävät koneoppimista käyttäjän pyyntöjen käsittelyyn ja analysointiin sekä vastausten antamiseen.
NLP Chatbotit - Nämä chatbotit voivat ymmärtää sanamalleja ja erottaa eri sanayhdistelmät toisistaan. He ovat edistyneimpiä kaikista kolmesta chatbot -tyypistä, koska he voivat keksiä mitä sanoa seuraavaksi niiden sanamallien perusteella, joihin heidät on koulutettu.

NLP -chatbotti on mielenkiintoinen koneoppimisprojekti -idea. Tarvitset olemassa olevan sanaryhmän mallisi opettamiseen, ja löydät helposti Python -kirjastot. Sinulla voi olla myös ennalta määritetty sanakirja, jossa on luettelo kysymys- ja vastauspareista, jotka haluat kouluttaa mallisi.

3. Villieläinten esineiden tunnistusjärjestelmä

Jos asut alueella, jolla havaitaan usein villieläimiä, on hyödyllistä ottaa käyttöön kohteen tunnistusjärjestelmä, joka tunnistaa niiden läsnäolon alueellasi. Luo tällainen järjestelmä seuraavasti:

Asenna kamerat alueelle, jota haluat seurata.
Lataa kaikki videomateriaalit ja tallenna ne.
Luo Python -sovellus tulevien kuvien analysoimiseksi ja villieläinten tunnistamiseksi.

Microsoft on rakentanut Image Recognition -sovellusliittymän villieläinkameroista kerättyjen tietojen avulla. He julkaisivat tähän tarkoitukseen avoimen lähdekoodin esikoulutetun mallin nimeltä MegaDetector.

Voit käyttää tätä esikoulutettua mallia Python-sovelluksessasi tunnistamaan villieläimet kerättyjen kuvien perusteella. Se on yksi jännittävimmistä tähän mennessä mainituista ML-projekteista, ja se on melko helppo toteuttaa, koska tähän tarkoitukseen on saatavilla esikoulutettu malli.

API:t: MegaDetector

4. Spotify Music Recommender -järjestelmä

Spotify suosittelee tekoälyn avulla musiikkia käyttäjilleen. Voit yrittää rakentaa suosittelujärjestelmän Spotifyn julkisesti saatavilla olevien tietojen perusteella.

Spotifyssa on sovellusliittymä, jonka avulla voit noutaa äänitietoja - löydät esimerkiksi julkaisuvuoden, avaimen, suosion ja esittäjän ominaisuuksia. Voit käyttää tätä sovellusliittymää Pythonissa käyttämällä Spotipy -kirjastoa.

Voit myös käyttää Spotify -tietojoukkoa Kagglessa, jossa on noin 600 XNUMX riviä. Näiden tietojoukkojen avulla voit ehdottaa parasta vaihtoehtoa kunkin käyttäjän suosikki muusikolle. Voit myös esittää kappaleita koskevia suosituksia kunkin käyttäjän haluaman sisällön ja tyylilajin perusteella.

Tämä suositusjärjestelmä voidaan rakentaa K-Means-klusteroinnin avulla-vastaavat datapisteet ryhmitellään. Voit suositella loppukäyttäjälle kappaleita, joiden välinen etäisyys klusterin sisällä on vähäinen.

Kun olet rakentanut suosittelujärjestelmän, voit myös muuttaa sen yksinkertaiseksi Python -sovellukseksi ja ottaa sen käyttöön. Voit saada käyttäjät syöttämään suosikkikappaleitaan Spotifyssa ja näyttämään sitten mallisuosituksesi näytöllä, joka muistuttaa parhaiten heidän nauttimiaan kappaleita.

aineisto: Kaggle Spotify -tietojoukko

5. Markkinakorin analyysi

Market Basket Analysis on suosittu tekniikka, jota vähittäiskauppiaat käyttävät tunnistamaan kohteita, jotka voidaan myydä yhdessä.

Esimerkiksi:

Pari vuotta sitten tutkimusanalyytikko havaitsi korrelaation oluen ja vaippojen myynnin välillä. Useimmiten aina, kun asiakas tuli myymälään ostamaan olutta, he ostivat myös vaippoja yhdessä.

Tämän vuoksi kaupat alkoivat myydä olutta ja vaippoja yhdessä samalla käytävällä markkinointistrategiana myynnin lisäämiseksi. Ja se toimi.

Oletettiin, että oluella ja vaipoilla oli korkea korrelaatio, koska miehet ostivat niitä usein yhdessä. Miehet kävelivät kauppaan ostamaan olutta yhdessä useiden muiden kotitaloustarvikkeiden kanssa perheelleen (mukaan lukien vaipat). Tämä vaikuttaa melko mahdottomalta korrelaatiolta, mutta se tapahtui.

Market Basket Analysis voi auttaa yrityksiä tunnistamaan piilotettuja korrelaatioita usein yhdessä ostettavien tuotteiden välillä. Nämä kaupat voivat sitten sijoittaa tavaransa tavalla, jonka avulla ihmiset löytävät ne helpommin.

Voit rakentaa ja kouluttaa mallisi Kagglen Market Basket Optimization -tietojoukon avulla. Yleisimmin käytetty algoritmi markkinakorin analyysin suorittamiseen on Apriori -algoritmi.

aineisto: Kaggle Market Basket Optimization -tietojoukko

6. NYC: n taksimatkan kesto

Tietojoukossa on muuttujia, jotka sisältävät taksimatkan alku- ja loppukoordinaatit, ajan ja matkustajamäärän. Tämän ML -projektin tavoitteena on ennustaa matkan kesto kaikilla näillä muuttujilla. Se on regressio -ongelma.

Muuttujat, kuten aika ja koordinaatit, on käsiteltävä asianmukaisesti ja muunnettava ymmärrettävään muotoon. Tämä projekti ei ole niin yksinkertainen kuin miltä se näyttää. Tässä tietojoukossa on myös joitakin poikkeamia, jotka tekevät ennustamisesta monimutkaisempaa, joten sinun on käsiteltävä tämä ominaisuustekniikoilla.

Tämän NYC Taxi Trip Kaggle -kilpailun arviointikriteerit ovat RMSLE tai Root Mean Squared Log Error. Kagglen suosituin hakemus sai RMSLE -pisteet 0.29, ja Kagglen perusmalli on RMSLE -arvo 0.89.

Voit ratkaista tämän Kaggle -projektin millä tahansa regressioalgoritmilla, mutta tämän haasteen tehokkaimmat kilpailijat ovat joko käyttäneet kaltevuuden tehostamismalleja tai syvän oppimisen tekniikoita.

aineisto: Kaggle NYC -taksimatkan kesto -tietojoukko

7. Reaaliaikainen roskapostin tunnistus

Tässä projektissa voit käyttää koneoppimistekniikoita erottaaksesi roskapostiviestit (laittomat) ja kinkku (oikeutetut) viestit.

Tämän saavuttamiseksi voit käyttää Kaggle SMS Spam Collection -tietojoukkoa. Tämä tietojoukko sisältää joukon noin 5 XNUMX viestiä, jotka on merkitty roskapostiksi tai kinkuksi.

Voit rakentaa reaaliaikaisen roskapostin havaitsemisjärjestelmän seuraavasti:

Käytä Kagglen SMS -roskapostikokoelmatietojoukkoa koneoppimismallin kouluttamiseen.
Luo yksinkertainen chat-palvelin Pythoniin.
Ota koneoppimismalli käyttöön chat-palvelimellasi ja varmista, että kaikki saapuva liikenne kulkee mallin läpi.
Anna viestien käydä läpi vain, jos ne on luokiteltu kinkuksi. Jos ne ovat roskapostia, palauta virheviesti.

Koneoppimismallin luomiseksi sinun on ensin käsiteltävä tekstiviestit, jotka ovat Kagglen tekstiviestien roskapostikokoelmassa. Muunna sitten nämä viestit sanapussiksi, jotta ne voidaan helposti siirtää luokittelumalliisi ennustamista varten.

aineisto: Kaggle SMS -roskapostikokoelman tietojoukko

8. Myers-Briggsin persoonallisuuden ennustussovellus

Voit luoda sovelluksen, joka ennustaa käyttäjän persoonallisuustyypin heidän sanomiensa perusteella.

Myers-Briggs-tyyppimittari luokittelee yksilöt 16 eri persoonallisuustyyppiin. Se on yksi maailman suosituimmista persoonallisuustesteistä.

Jos yrität löytää persoonallisuustyyppisi Internetistä, löydät monia online -tietokilpailuja. Kun olet vastannut noin 20–30 kysymykseen, sinut määritetään persoonallisuustyypiksi.

Tässä projektissa voit kuitenkin koneoppimisen avulla ennustaa kenenkään persoonallisuustyypin vain yhden lauseen perusteella.

Tässä on vaiheet, joita voit tehdä tämän saavuttamiseksi:

Luo moniluokkainen luokitusmalli ja kouluta se Mygg-Briggs-tietojoukolla Kagglessa. Tämä sisältää tietojen esikäsittelyn (pysäytyssanojen ja tarpeettomien merkkien poistamisen) ja joitain ominaisuuksien suunnittelua. Voit käyttää tähän tarkoitukseen matalaa oppimismallia, kuten logistista regressiota, tai syvää oppimismallia, kuten LSTM: ää.
Voit luoda sovelluksen, jonka avulla käyttäjät voivat kirjoittaa minkä tahansa lauseen.
Tallenna koneoppimismallisi painot ja integroi malli sovellukseesi. Kun loppukäyttäjä on syöttänyt sanan, näytä persoonallisuustyyppisi näytöllä sen jälkeen, kun malli on ennustanut.

aineisto: Kaggle MBTI -tyyppinen tietojoukko

9. Mielialan tunnistusjärjestelmä + suositusjärjestelmä

Oletko koskaan ollut surullinen ja kokenut, että sinun on katsottava jotain hauskaa piristääksesi sinua? Tai oletko koskaan tuntenut itsesi niin turhautuneeksi, että sinun täytyi rentoutua ja katsoa jotain rentouttavaa?

Tämä projekti on yhdistelmä kahdesta pienemmästä hankkeesta.

Voit rakentaa sovelluksen, joka tunnistaa käyttäjän mielialan live -verkkomateriaalin ja käyttäjän ilmeeseen perustuvan elokuvaehdotuksen perusteella.

Voit rakentaa tämän tekemällä seuraavat vaiheet:

Luo sovellus, joka voi vastaanottaa live -videosyötteen.
Pythonin kasvojentunnistusliittymän avulla voit tunnistaa kasvot ja tunteet videosyötteen kohteista.
Kun olet luokitellut nämä tunteet eri luokkiin, aloita suosittelujärjestelmän rakentaminen. Tämä voi olla joukko kovakoodattuja arvoja kullekin tunteelle, joten sinun ei tarvitse käyttää koneoppimista suositusten saamiseksi.
Kun olet rakentanut sovelluksen, voit ottaa sen käyttöön Herokussa, Dashissa tai verkkopalvelimessa.

API:t: Kasvontunnistusliittymä

10. YouTube-kommenttien mielipideanalyysi

Tässä projektissa voit luoda koontinäytön, joka analysoi suosittujen YouTuben käyttäjien yleistä mielipidettä.

Yli 2 miljardia käyttäjää katsoo YouTube -videoita vähintään kerran kuukaudessa. Suositut YouTube -käyttäjät keräävät sisällöllä satoja miljardeja katselukertoja. Monet näistä vaikuttajista ovat kuitenkin joutuneet tuleen kiistojen vuoksi menneisyydessä, ja yleisön käsitys muuttuu jatkuvasti.

Voit rakentaa tunteiden analysointimallin ja luoda koontinäytön visualisoimaan julkkisten tuntemuksia ajan mittaan.

Voit rakentaa tämän tekemällä seuraavat vaiheet:

Kaappaa analysoitavien YouTuben käyttäjien kommentit videoista.
Käytä ennalta koulutettua tunneanalyysimallia ennusteiden tekemiseen jokaisesta kommentista.
Visualisoi mallin ennusteet kojelaudalla. Voit jopa luoda koontinäytösovelluksen käyttämällä kirjastoja, kuten Dash (Python) tai Shiny (R).
Voit tehdä hallintapaneelista interaktiivisen sallimalla käyttäjien suodattaa tunteita ajanjakson, YouTuberin nimen ja videolajin mukaan.

API:t: YouTuben kommenttien kaavin

Yhteenveto

Koneoppimisala on laaja ja täynnä mahdollisuuksia. Jos haluat murtautua alalle ilman muodollista koulutustaustaa, paras tapa osoittaa, että sinulla on työn tekemiseen tarvittavat taidot, on hankkeiden kautta.

Useimpien yllä lueteltujen projektien koneoppimisnäkökohta on melko yksinkertainen. Koneoppimisen demokratisoitumisen ansiosta mallien rakentamisprosessi voidaan saavuttaa helposti esikoulutettujen mallien ja sovellusliittymien avulla.

Myös avoimen lähdekoodin tekoälyhankkeet, kuten Keras ja FastAI, ovat auttaneet nopeuttamaan mallien rakentamista. Näiden koneoppimisen hankala osa ja datatieteen hankkeita on tietojen keräämistä, esikäsittelyä ja käyttöönottoa. Jos aloitat koneoppimisen, useimmat algoritmit ovat melko yksinkertaisia rakentaa. Myyntiennustusmallin luominen kestää vain päivän tai kaksi. Käytät suurimman osan ajastasi sopivien tietolähteiden etsimiseen ja mallien käyttöönottoon liiketoiminnan arvon saamiseksi.

Alkuperäinen. Postitettu luvalla.

Related:

= Edellinen viesti

Seuraava viesti =>

Suosituimmat tarinat viimeisen 30 päivän aikana

Suosituin
Luetko Excel -tiedostoja Pythonilla? On 1000x nopeampi tapa Automatisoi Microsoft Excel ja Word Pythonin avulla Datatieteilijät, joilla ei ole tietotekniikkataitoja, kohtaavat ankaran totuuden Kuinka luoda upeita verkkosovelluksia tietotekniikkaprojekteillesi Data Science Portfolio, joka tuo sinulle työn

Eniten jaettu
Kone- ja syväoppimiskokonaisuuden avoin kirja Datatieteilijät, joilla ei ole tietotekniikkataitoja, kohtaavat ankaran totuuden Hypoteesien testaus selitetty Data Science -huijaussivu 2.0 8 Deep Learning Project Ideoita aloittelijoille