Taasavaldanud Platon

järgijaid: 0

20 masinõppeprojekti, mis aitavad teid palgata

Kui soovite tungida masinõppe ja andmeteaduse tööturule, peate demonstreerima oma oskusi, eriti kui olete iseõppinud veebikursuste ja alglaagrite kaudu. Projektiportfell on suurepärane viis oma uue käsitöö praktiseerimiseks ja veenvate tõendite pakkumiseks selle kohta, et töötaja peaks teid konkursi asemel palkama.

kommentaarid

By Khushbu Shah, ProjectPro sisuhaldur.

Tehisintellekti ja masinõppe tööstus õitseb nagu ei kunagi varem. Alates 2021. aastast loob tehisintellekti kasutamise suurenemine ettevõtetes 2.9 triljoni dollari väärtuses äriväärtust. AI on automatiseerinud paljusid tööstusharusid kogu maailmas ja muutnud nende toimimisviisi. Enamik suuri ettevõtteid kaasab tehisintellekti, et maksimeerida oma töövoogu tootlikkust, ning sellised tööstusharud nagu turundus ja tervishoid on tehisintellekti konsolideerumise tõttu läbi teinud paradigma muutuse.

Pildi allikas: Unsplash

Seetõttu on viimastel aastatel kasvanud nõudlus AI spetsialistide järele. Aastatel 100–2015 on tehisintellekti ja masinõppega seotud töökuulutuste arv kasvanud peaaegu 2018%. See arv on sellest ajast alates kasvanud ja 2021. aastal prognooside kohaselt suureneb see arv.

Kui soovite tungida masinõppetööstusse, on hea uudis see, et saadaolevatest töökohtadest pole puudust. Ettevõtted vajavad andekat tööjõudu, kes on suuteline liikuma masinõppele. Tööturule imbuvad aga inimesed, kes soovivad murda andmetööstusse. Kuna ükski konkreetne kraadiõppeprogramm pole mõeldud üliõpilastele, kes soovivad õppida masinõpet, on paljud ambitsioonikad ML-praktikud iseõppijad.

Andrew Ngi masinõppe veebikursusel on registreerunud üle 4 miljoni õpilase.

Kahjuks aitab veebikursustele registreerumine või masinõppe Bootcampis osalemine teil teoreetilisi kontseptsioone õppida, kuid ei valmista teid ette tööks selles valdkonnas. Teooria õppimisel on vaja teha palju rohkem praktilist tööd. Oletame, et tunnete masinõppe algoritmide põhitõdesid – saate aru, kuidas regressiooni- ja klassifitseerimismudelid töötavad, ja teate erinevaid klastrite tüüpe.

Kuidas kavatsete õpitud oskusi reaalses elus esineva probleemi lahendamiseks harjutada? Lihtne vastus on: harjutage, harjutage ja harjutage mitmekesiselt masinõppe projektid.

Kui olete teoreetiliste kontseptsioonide õppimise lõpetanud, peaksite hakkama töötama AI ja masinõppe projektidega. Need projektid annavad teile valdkonna oskuste lihvimiseks vajalikku praktikat ja on samal ajal teie masinõppe portfellile suureks lisaväärtuseks.

Ilma pikema jututa uurime mõnda ML-projektide ideed, mis mitte ainult ei muuda teie portfoolio hea välja, vaid parandavad oluliselt ka teie masinõppeoskusi. See on kureeritud nimekiri mõnest parimast masinõppeprojektist õpilastele, ambitsioonikatele masinõppe praktikutele ja üksikisikutele mittetehnilistest valdkondadest. Saate nende projektidega töötada olenemata oma taustast, kui teil on teatud kodeerimis- ja masinõppeoskused. See on algajate ja edasijõudnute taseme masinõppeprojektide loend.

Kui olete andmetööstuses uustulnuk ja teil on reaalsete projektidega vähe kogemusi, alustage algaja taseme ML-projektidega, enne kui lähete edasi keerukamate projektidega.

Masinõppeprojektid algajatele

1. Kaggle Titanicu ennustus

Selle loendi esimene projekt on üks lihtsamaid ML-projekte, mida saate võtta. See projekt on soovitatav andmetööstuse algajatele. Titanicu andmestik on saadaval Kaggle'is ja selle allalaadimise link on toodud allpool.

See andmestik hõlmab reisijaid, kes reisisid Titanicul. Sellel on üksikasjad, nagu reisija vanus, piletihind, salong ja sugu. Selle teabe põhjal peate ennustama, kas need reisijad jäid ellu või mitte.

Tegemist on lihtsa binaarse klassifikatsiooni probleemiga ja kõik, mida pead tegema, on ennustada, kas konkreetne reisija jäi ellu. Parim asi selle andmestiku juures on see, et kogu eeltöötlus tehakse teie eest ära. Teil on kena ja puhas andmestik oma masinõppemudeli koolitamiseks.

Kuna tegemist on klassifitseerimisprobleemiga, saate ennustava mudeli koostamiseks kasutada selliseid algoritme nagu logistiline regressioon, otsustuspuud ja juhuslikud metsad. Paremate tulemuste saamiseks saate selle algaja taseme masinõppeprojekti jaoks valida ka gradiendi võimendamise mudelid, näiteks XGBoosti klassifikaatori.

Andmekogum: Kaggle Titanicu andmestik

2. Majahinna ennustamine

Majahindade andmed on alustuseks suurepärased ka siis, kui olete masinõppes algaja. See projekt kasutab Kaggle'is saadaolevat majahinna andmestikku. Selle andmestiku sihtmuutujaks on konkreetse maja hind, mida peate prognoosima, kasutades sellist teavet nagu maja pindala, magamistubade arv, vannitubade arv ja kommunaalkulud.

See on regressiooniprobleem ja mudeli koostamiseks võite kasutada selliseid tehnikaid nagu lineaarne regressioon. Võite kasutada ka täpsemat lähenemist ja kasutada majahindade ennustamiseks juhuslikku metsa regressorit või gradiendi võimendust.

Sellel andmestikul on 80 veergu, välja arvatud sihtmuutuja. Funktsioonide käsitsi valimiseks peate kasutama mõningaid mõõtmete vähendamise tehnikaid, kuna liiga paljude muutujate lisamine võib teie mudeli halvasti töötada.

Andmekogus on ka palju kategoorilisi muutujaid, nii et peate nendega korralikult tegelema, kasutades selliseid meetodeid nagu one-hot kodeering või sildikodeering.

Pärast mudeli koostamist saate esitada oma ennustused majade hinnakonkursile Kaggles, kuna see on veel avatud. Konkurentide parim saavutatud RMSE on 0 ja paljud inimesed on saavutanud regressiooni ja gradiendi võimendamise tehnikate abil häid tulemusi nagu 0.15.

Andmekogum: Kaggle maja hinnaennustuse andmestik

3. Veini kvaliteedi ennustus

Veinide kvaliteedi ennustusandmekogum on ka andmetööstuse algajate seas väga populaarne. Selles projektis kasutate punase veini kvaliteedi ennustamiseks fikseeritud happesust, lenduvat happesust, alkoholi ja tihedust.

Seda võib käsitleda kas klassifitseerimis- või regressiooniprobleemina. The veini kvaliteet muutuja, mida peate andmestikus ennustama, jääb vahemikku 0–10, et saaksite ennustamiseks koostada regressioonimudeli. Teine võimalus on jagada väärtused (0–10) diskreetseteks intervallideks ja teisendada need kategoorilisteks muutujateks. Saate luua näiteks kolm kategooriat — madal, keskmine, ja suur.

Seejärel saate prognoosi tegemiseks koostada otsustuspuu klassifikaatori või mis tahes klassifikatsioonimudeli. See on suhteliselt puhas ja arusaadav andmestik, mille abil saate oma regressiooni ja klassifitseerimise masinõppeoskusi harjutada.

Andmekogum: Kaggle punase veini kvaliteedi andmestik

4. Südamehaiguste ennustamine

Kui soovite tervishoiutööstuses mõnda andmekogumit uurida, on see alustuseks suurepärane algtaseme andmestik. Seda andmekogumit kasutatakse CHD (südame isheemiatõve) 10-aastase riski ennustamiseks. Selle andmestiku sõltuvad muutujad on südamehaiguste, sealhulgas diabeedi, suitsetamise, kõrge vererõhu ja kõrge kolesteroolitaseme riskifaktorid.

Sõltumatu muutuja on CHD 10-aastane risk. See on binaarne klassifikatsiooniprobleem ja sihtmuutuja on kas 0 või 1–0 patsientidel, kellel ei ole kunagi südamehaigust tekkinud, ja 1 patsientidel, kellel see haigus tekkis. Saate selle andmestiku puhul teha teatud funktsioonide valiku, et tuvastada funktsioone, mis põhjustavad kõige rohkem südameriski. Seejärel saate sõltumatutele muutujatele sobitada klassifitseerimismudeli.

See andmestik on väga tasakaalustamata, kuna paljud selles andmekogumis olevad patsiendid seda tegid mitte arendada südamehaigusi. Tasakaalustamata andmestikku tuleb käsitleda õigete funktsioonitehniliste tehnikate abil, nagu ülediskreetimine, kaalu häälestamine või aladiskreetmine. Kui seda õigesti ei käsitleta, saate lõpuks mudeli, mis lihtsalt ennustab iga andmepunkti enamusklassi ega suuda tuvastada patsiente, kes tegin arendada südamehaigusi. See on suurepärane andmekogum funktsioonide inseneri- ja masinõppeoskuste harjutamiseks.

Andmekogum: Kaggle'i südamehaiguste andmestik

5. MNIST numbriline klassifikatsioon

. MNIST andmestik on teie hüppelaud süvaõppe valdkonda. See andmestik koosneb halltoonides kujutistest käsitsi kirjutatud numbritest vahemikus 0 kuni 9. Teie ülesandeks oleks tuvastada number süvaõppe algoritmi abil. See on kümne võimaliku väljundklassiga mitme klassi klassifikatsiooniprobleem. Selle klassifikatsiooni tegemiseks võite kasutada CNN-i (Convolutional Neural Network).

MNIST-i andmestik on üles ehitatud Pythoni Kerase teegis. Kõik, mida pead tegema, on Kerase installimine, teegi importimine ja andmestiku laadimine. Sellel andmestikul on umbes 60,000 80 pilti, nii et saate kasutada umbes 20% neist piltidest treenimiseks ja veel XNUMX% testimiseks.

Andmekogum: Kaggle numbrituvastaja andmestik

6. Twitteri andmete tundeanalüüs

Kaggle'is on saadaval palju Twitteri sentimentide analüüsi andmekogumeid. Üks populaarsemaid andmekogumeid on sentiment140, mis sisaldab 1.6 miljonit eeltöödeldud säutsu. See on suurepärane andmekogum, millest alustada, kui olete sentimentide analüüsis uus.

Need säutsud on varustatud märkustega ja sihtmuutujaks on sentiment. Selle veeru kordumatud väärtused on 0 (negatiivne), 2 (neutraalne) ja 4 (positiivne).

Pärast nende säutsude eeltöötlemist ja vektoriteks teisendamist saate kasutada klassifitseerimismudelit, et neid nendega seotud meeleoludega treenida. Selle ülesande jaoks saate kasutada selliseid algoritme nagu logistiline regressioon, otsustuspuu klassifikaator või XGBoost klassifikaator.

Teine võimalus on kasutada sentimentide ennustamiseks sügavat õppimismudelit, nagu LSTM. See on aga veidi keerulisem lähenemine ja kuulub edasijõudnute projektide kategooriasse.

Seda märgistatud andmestikku saate kasutada ka tulevaste sentimentianalüüsi ülesannete aluseks.

Kui teil on säutse, mida soovite koguda ja mille kohta sentimenti analüüsi teha, saate tulevikuennustuste tegemiseks kasutada mudelit, mida on eelnevalt sentiment140 alal koolitatud.

Andmekogum: Andmekogum Kaggle Sentiment140

7. Pima India diabeedi ennustus

Pima India diabeediandmestikku kasutatakse diagnostiliste mõõtmiste põhjal, et ennustada, kas patsiendil on diabeet.

Tuginedes muutujatele, nagu KMI, vanus ja insuliin, ennustab mudel patsientidel diabeeti. Sellel andmekogumil on üheksa muutujat – kaheksa sõltumatut muutujat ja üks sihtmuutuja.

Sihtmuutuja on 'diabeet", seega ennustate 1 diabeedi olemasolu või 0 diabeedi puudumist.

See on klassifitseerimisprobleem katsetamiseks selliste mudelitega nagu logistiline regressioon, otsustuspuu klassifikaator või juhuslik metsaklassifikaator.

Kõik selle andmestiku sõltumatud muutujad on numbrilised, seega on see suurepärane andmekogum alustuseks, kui teil on minimaalne funktsioonide projekteerimise kogemus.

See on algajatele avatud Kaggle'i andmestik. Internetis on palju õpetusi, mis juhendavad teid Pythonis ja R-is lahenduse kodeerimisel. Need märkmiku õpetused on suurepärane viis õppimiseks ja käte määrimiseks, et saaksite liikuda edasi keerukamate projektide juurde.

Andmekogum: Kaggle Pima India diabeedi andmestik

8. Rinnavähi klassifikatsioon

Kaggle'i rinnavähi klassifikatsiooni andmestik on veel üks suurepärane viis masinõppe ja tehisintellekti oskuste harjutamiseks.

Enamik reaalses maailmas jälgitavaid masinõppeprobleeme on sellised klassifikatsiooniprobleemid nagu see. Peamine väljakutse rinnavähi tuvastamisel on suutmatus teha vahet healoomuliste (mittevähiliste) ja pahaloomuliste (vähkkasvajate) vahel. Andmestikul on sellised muutujad nagu kasvaja raadius_keskmine ja pindala_keskmine ning peate nende tunnuste alusel klassifitseerima, kas kasvaja on vähkkasvaja või mitte. Selle andmestikuga on suhteliselt lihtne töötada, kuna pole vaja teha olulist andmete eeltöötlust. See on ka hästi tasakaalustatud andmekogum, mis muudab teie ülesande paremini hallatavaks, kuna te ei pea palju funktsioone projekteerima.

Lihtsa logistilise regressiooni klassifikaatori koolitamine sellel andmekogumil võib anda teile täpsuse kuni 0.90.

Andmekogum: Kaggle'i rinnavähi klassifikatsiooni andmestik

9. TMDB kassaennustus

See Kaggle'i andmestik on suurepärane viis oma regressioonioskuste harjutamiseks. See koosneb umbes 7000 filmist ja filmi tulude prognoosimiseks peate kasutama olemasolevaid muutujaid.

Andmepunktid hõlmavad näitlejaid, meeskonda, eelarvet, keeli ja väljalaskekuupäevi. Andmekogus on 23 muutujat, millest üks on sihtmuutuja.

Lineaarse regressiooni põhimudel võib anda teile R-ruudu väärtuseks üle 0.60, nii et saate seda kasutada oma baasjoone ennustusmudelina. Proovige seda tulemust ületada, kasutades selliseid tehnikaid nagu XGBoost regressioon või Light GBM.

See andmestik on eelmisest pisut keerulisem, kuna mõnes veerus on andmed pesastatud sõnaraamatutes. Peate tegema täiendavaid eeltöötlusi, et eraldada need andmed kasutatavas vormingus mudeli õpetamiseks.

Tulude prognoosimine on suurepärane projekt oma portfellis esitlemiseks, kuna see pakub ärilist väärtust mitmesugustele valdkondadele väljaspool filmitööstust.

Andmekogum: Kaggle TMDB Box Office ennustuste andmestik

10. Klientide segmenteerimine Pythonis

Kaggle'i klientide segmenteerimise andmestik on suurepärane viis järelevalveta masinõppega alustamiseks. See andmestik koosneb kliendi üksikasjadest, nagu nende vanus, sugu, aastasissetulek ja kuluskoor.

Neid muutujaid peate kasutama kliendisegmentide koostamiseks. Sarnased kliendid tuleks rühmitada sarnastesse klastritesse. Selle ülesande jaoks saate kasutada selliseid algoritme nagu K-Meansi rühmitamine või hierarhiline rühmitamine. Klientide segmenteerimismudelid võivad pakkuda äriväärtust.

Ettevõtted soovivad sageli oma kliente eraldada, et pakkuda iga klienditüübi jaoks erinevaid turundusvõtteid.

Selle andmestiku peamised eesmärgid on järgmised:

Klientide segmenteerimise saavutamine masinõppe tehnikaid kasutades
Tuvastage oma sihtkliendid erinevate turundusstrateegiate jaoks
Saate aru, kuidas turundusstrateegiad reaalses maailmas töötavad

Selle ülesande jaoks klastrimudeli loomine võib aidata teie portfellil silma paista ja segmenteerimine on suurepärane oskus, kui soovite saada AI-ga seotud tööd turundusvaldkonnas.

Andmekogum: Kaggle Malli klientide segmenteerimise andmestik

Kesk-/kõrgtasemel masinõppeprojektid teie CV jaoks

Kui olete eespool loetletud lihtsate masinõppeprojektide kallal töötamise lõpetanud, saate liikuda keerukamate projektide juurde.

1. Müügiprognoos

Aegridade prognoosimine on masinõppetehnika, mida kasutatakse tööstuses väga sageli. Varasemate andmete kasutamisel tulevase müügi ennustamiseks on suur hulk ärilisi kasutusjuhtumeid. Selle projekti harjutamiseks saab kasutada andmestikku Kaggle Demand Forecasting.

Sellel andmekogumil on 5 aasta müügiandmed ja peate prognoosima järgmise kolme kuu müüki. Andmestikus on kümme erinevat kauplust ja igas poes on 50 toodet.

Müügi ennustamiseks saab proovida erinevaid meetodeid — ARIMA, Vector Autoregression või sügavõpe. Üks meetod, mida saate selle projekti jaoks kasutada, on iga kuu müügi kasvu mõõtmine ja selle registreerimine. Seejärel looge mudel eelmise kuu ja käesoleva kuu müügi vahe põhjal. Selliste tegurite, nagu pühad ja hooajalisus, arvessevõtmine võib teie masinõppemudeli toimivust parandada.

Andmekogum: Kaggle Store'i kaupade nõudluse prognoosimine

2. Klienditeeninduse vestlusbot

Klienditeeninduse vestlusbot kasutab klientidele vastamiseks tehisintellekti ja masinõppe tehnikaid, võttes inimese esindaja rolli. Vestlusbot peaks suutma vastata lihtsatele küsimustele, et rahuldada klientide vajadusi.

Praegu saate luua kolme tüüpi vestlusroboteid:

Reeglipõhised vestlusrobotid – need vestlusrobotid ei ole intelligentsed. Neile antakse ette eelmääratletud reeglid ja nad vastavad kasutajatele ainult nende reeglite alusel. Mõned vestlusrobotid on varustatud ka eelnevalt määratletud küsimuste ja vastuste komplektiga ning ei saa vastata päringutele, mis jäävad sellest domeenist välja.
Sõltumatud vestlusrobotid – Sõltumatud vestlusrobotid kasutavad masinõpet, et töödelda ja analüüsida kasutaja päringuid ning anda sellele vastavaid vastuseid.
NLP-vestlusbotid – need vestlusrobotid saavad aru sõnade mustritest ja eristada erinevaid sõnakombinatsioone. Nad on kõigist kolmest vestlusroboti tüübist kõige arenenumad, kuna saavad väljaõppe saanud sõnamustrite põhjal välja mõelda, mida järgmiseks öelda.

NLP-vestlusbot on huvitav masinõppeprojekti idee. Mudeli treenimiseks vajate olemasolevat sõnakorpust ja selle tegemiseks leiate hõlpsalt Pythoni teegid. Teil võib olla ka eelmääratletud sõnastik küsimuste ja vastuste paaride loendiga, mida soovite oma mudelit koolitada.

3. Metsloomade objektide tuvastamise süsteem

Kui elate piirkonnas, kus metsloomi sageli nähakse, on kasulik rakendada objektide tuvastamise süsteem, et tuvastada nende olemasolu teie piirkonnas. Sellise süsteemi loomiseks järgige neid samme:

Paigaldage kaamerad piirkonda, mida soovite jälgida.
Laadige alla kõik videomaterjalid ja salvestage need.
Looge sissetulevate piltide analüüsimiseks ja metsloomade tuvastamiseks Pythoni rakendus.

Microsoft on loonud pildituvastuse API, kasutades looduskaameratest kogutud andmeid. Nad andsid selleks otstarbeks välja avatud lähtekoodiga eelkoolitatud mudeli, mida nimetatakse MegaDetectoriks.

Saate kasutada seda eelkoolitatud mudelit oma Pythoni rakenduses metsloomade tuvastamiseks kogutud piltide põhjal. See on üks põnevamaid seni mainitud ML-projekte ja seda on üsna lihtne rakendada, kuna selleks on olemas eelkoolitatud mudel.

API-d: Megadetektor

4. Spotify Music Recommender System

Spotify kasutab kasutajatele muusika soovitamiseks tehisintellekti. Võite proovida luua soovitamissüsteemi Spotify avalikult kättesaadavate andmete põhjal.

Spotifyl on API, mida saate kasutada heliandmete hankimiseks – leiate selliseid funktsioone nagu väljalaskeaasta, võti, populaarsus ja esitaja. Sellele API-le juurdepääsuks Pythonis saate kasutada Spotipy-nimelist teeki.

Kaggle'is saate kasutada ka Spotify andmestikku, millel on umbes 600 XNUMX rida. Neid andmekogumeid kasutades saate soovitada parimat alternatiivi iga kasutaja lemmikmuusikule. Samuti saate esitada laulusoovitusi iga kasutaja eelistatud sisu ja žanri põhjal.

Selle soovitussüsteemi saab luua K-Meansi klastrite abil - sarnased andmepunktid rühmitatakse. Saate lõppkasutajale soovitada lugusid, mille klastrisisese vahemaa on minimaalne.

Kui olete soovitussüsteemi loonud, saate selle muuta lihtsaks Pythoni rakenduseks ja juurutada. Saate panna kasutajad Spotifysse oma lemmiklaulud sisestama ja seejärel kuvama ekraanil oma mudelisoovitusi, mis on kõige sarnasemad lugudega, mis neile meeldisid.

Andmekogum: Kaggle Spotify andmestik

5. Turukorvi analüüs

Turukorvi analüüs on populaarne tehnika, mida jaemüüjad kasutavad kaupade tuvastamiseks, mida saab koos müüa.

Näiteks:

Paar aastat tagasi tuvastas uurimisanalüütik korrelatsiooni õlle ja mähkmete müügi vahel. Enamasti, kui klient astus poodi õlut ostma, ostis ta koos ka mähkmeid.

Tänu sellele hakkasid kauplused müügi suurendamise turundusstrateegiana ühes vahekäigus koos õlut ja mähkmeid müüma. Ja see töötas.

Eeldati, et õllel ja mähkmetel on suur korrelatsioon, kuna mehed ostsid neid sageli koos. Mehed astusid poodi, et osta õlut koos mitmete muude pere tarvikutega (sh mähkmed). See tundub üsna võimatu korrelatsioonina, kuid see juhtus.

Turukorvi analüüs võib aidata ettevõtetel tuvastada varjatud seoseid kaupade vahel, mida sageli koos ostetakse. Need poed saavad seejärel oma kaubad paigutada viisil, mis võimaldab inimestel neid hõlpsamini leida.

Saate oma mudeli koostamiseks ja koolitamiseks kasutada Kaggle'i turukorvi optimeerimise andmestikku. Turukorvi analüüsi teostamiseks kasutatav kõige sagedamini kasutatav algoritm on Apriori algoritm.

Andmekogum: Kaggle turu ostukorvi optimeerimise andmestik

6. NYC taksoreisi kestus

Andmestikul on muutujad, mis sisaldavad taksoreisi algus- ja lõppkoordinaate, aega ja reisijate arvu. Selle ML-projekti eesmärk on ennustada reisi kestust kõigi nende muutujatega. See on regressiooniprobleem.

Muutujad, nagu aeg ja koordinaadid, tuleb asjakohaselt eelnevalt töödelda ja teisendada arusaadavasse vormingusse. See projekt ei ole nii lihtne, kui tundub. Sellel andmekogul on ka mõned kõrvalekalded, mis muudavad prognoosimise keerukamaks, seega peate seda käsitlema funktsioonide inseneritehnikate abil.

Selle NYC Taxi Trip Kaggle võistluse hindamiskriteeriumid on RMSLE või Root Mean Squared Log Error. Kaggle'i kõrgeim esitus sai RMSLE-skooriks 0.29 ja Kaggle'i baasmudeli RMSLE-i väärtus on 0.89.

Selle Kaggle'i projekti lahendamiseks võite kasutada mis tahes regressioonialgoritmi, kuid selle väljakutse kõige edukamad konkurendid on kasutanud kas gradiendi võimendamise mudeleid või süvaõppe tehnikaid.

Andmekogum: Kaggle NYC taksoreisi kestuse andmestik

7. Reaalajas rämpsposti tuvastamine

Selles projektis saate masinõppetehnikate abil eristada rämpsposti (ebaseaduslik) ja ham (legitiimne) sõnumeid.

Selle saavutamiseks võite kasutada Kaggle SMS Spam Collection andmestikku. See andmestik sisaldab umbes 5 sõnumit, mis on märgistatud rämpspostiks või singiks.

Reaalajas rämpspostituvastussüsteemi loomiseks saate teha järgmisi samme.

Kasutage masinõppemudeli koolitamiseks Kaggle'i SMS-rämpspostikogumise andmestikku.
Looge Pythonis lihtne jututoa server.
Juurutage masinõppemudel oma jututoa serveris ja veenduge, et kogu sissetulev liiklus läbiks mudelit.
Lubage sõnumid läbida ainult siis, kui need on liigitatud singiks. Kui need on rämpspost, tagastage selle asemel veateade.

Masinõppemudeli koostamiseks peate esmalt eeltöötlema Kaggle'i SMS-i rämpspostikogumisandmestiku tekstisõnumeid. Seejärel teisendage need sõnumid sõnade kotiks, et neid saaks hõlpsasti ennustamiseks oma klassifikatsioonimudelisse edastada.

Andmekogum: Kaggle SMS-i rämpsposti kogumise andmestik

8. Myers-Briggi isiksuse ennustamise rakendus

Saate luua rakenduse, et ennustada kasutaja isiksusetüüpi nende sõnade põhjal.

Myers-Briggs'i tüübinäitaja liigitab inimesed 16 erinevasse isiksusetüüpi. See on üks populaarsemaid isiksuseteste maailmas.

Kui proovite Internetist leida oma isiksusetüüpi, leiate palju veebiviktoriine. Pärast umbes 20–30 küsimusele vastamist määratakse teile isiksusetüüp.

Kuid selles projektis saate masinõppe abil ennustada igaühe isiksusetüüpi ainult ühe lause põhjal.

Siin on sammud, mida saate selle saavutamiseks teha.

Looge mitmest klassist koosnev klassifitseerimismudel ja treenige seda Myers-Briggs'i andmekogumis Kaggle'is. See hõlmab andmete eeltöötlust (peasõnade ja mittevajalike märkide eemaldamine) ja mõningaid funktsioonide kavandamist. Sel eesmärgil saate kasutada madalat õppimismudelit (nt logistiline regressioon) või sügavat õppimismudelit (nt LSTM).
Saate luua rakenduse, mis võimaldab kasutajatel sisestada mis tahes vabalt valitud lause.
Salvestage oma masinõppemudeli kaalud ja integreerige mudel oma rakendusega. Pärast seda, kui lõppkasutaja on sõna sisestanud, kuvage tema isiksusetüüp ekraanil pärast seda, kui mudel on ennustanud.

Andmekogum: Kaggle MBTI tüübi andmestik

9. Meeleolutuvastussüsteem + Soovitussüsteem

Kas olete kunagi olnud kurb ja tundnud, et peate vaatama midagi naljakat, et teid rõõmustada? Või kas olete kunagi tundnud nii pettumust, et oleksite pidanud lõõgastuma ja vaatama midagi lõõgastavat?

See projekt on kahe väiksema projekti kombinatsioon.

Saate luua rakenduse, mis tuvastab kasutaja tuju reaalajas veebikaadri ja filmisoovituse põhjal kasutaja ilme põhjal.

Selle loomiseks võite teha järgmisi samme:

Looge rakendus, mis suudab vastu võtta reaalajas videovoogu.
Kasutage Pythoni näotuvastuse API-t, et tuvastada videovoo objektidel nägusid ja emotsioone.
Pärast nende emotsioonide liigitamist erinevatesse kategooriatesse alustage soovitussüsteemi loomist. See võib olla iga emotsiooni jaoks kodeeritud väärtuste komplekt, mis tähendab, et soovituste jaoks ei pea te masinõpet kaasama.
Kui olete rakenduse loomise lõpetanud, saate selle juurutada Herokus, Dashis või veebiserveris.

API-d: Näotuvastuse API

10. YouTube'i kommentaaride sentimentide analüüs

Selles projektis saate luua armatuurlaua, mis analüüsib populaarsete YouTube'i kasutajate üldist suhtumist.

Üle 2 miljardi kasutaja vaatab YouTube'i videoid vähemalt kord kuus. Populaarsed YouTuberid koguvad oma sisuga sadu miljardeid vaatamisi. Paljud neist mõjutajatest on aga mineviku vastuolude tõttu kriitika alla sattunud ja avalikkuse arusaam on pidevas muutumises.

Saate koostada sentimentanalüüsi mudeli ja luua armatuurlaua, et visualiseerida kuulsuste ümber valitsevaid tundeid aja jooksul.

Selle loomiseks võite teha järgmisi samme:

Koguge analüüsitavate YouTube'i kasutajate videote kommentaarid.
Kasutage iga kommentaari kohta ennustuste tegemiseks eelkoolitatud sentimentide analüüsi mudelit.
Visualiseerige mudeli ennustusi armatuurlaual. Saate isegi luua armatuurlaua rakenduse, kasutades selliseid teeke nagu Dash (Python) või Shiny (R).
Saate muuta armatuurlaua interaktiivseks, lubades kasutajatel filtreerida sentimente ajaraami, YouTuberi nime ja videožanri järgi.

API-d: YouTube'i kommentaarikaabits

kokkuvõte

Masinõppetööstus on suur ja täis võimalusi. Kui soovite tungida tööstusesse ilma ametliku haridustaustata, on parim viis näidata, et teil on töö tegemiseks vajalikud oskused, läbi projektide.

Enamiku ülaltoodud projektide masinõppe aspekt on üsna lihtne. Tänu masinõppe demokratiseerumisele saab mudelite loomise protsessi hõlpsalt saavutada eelkoolitatud mudelite ja API-de abil.

Mudeli loomise protsessi on aidanud kiirendada ka avatud lähtekoodiga tehisintellekti projektid, nagu Keras ja FastAI. Nende masinõppe keeruline osa ja andmeteaduse projektid on andmete kogumine, eeltöötlemine ja juurutamine. Kui töötate masinõppes, on enamiku algoritmide koostamine üsna lihtne. Müügiennustusmudeli loomiseks kulub vaid päev või paar. Suurema osa ajast kulutate sobivate andmeallikate otsimisele ja mudelite tootmisele, et saada äriväärtust.

Originaal. Loaga uuesti postitatud.

Seotud:

= Eelmine post

Järgmine postitus =>

Viimase 30 päeva populaarseimad lood

Populaarseim
Kas sa loed Exceli faile Pythoniga? On 1000 korda kiirem viis Automatiseerige Microsoft Excel ja Word Pythoni abil Andmeteadlased, kellel pole andmetehnoloogia oskusi, seisavad silmitsi karmi tõega Kuidas luua oma andmeteaduse projektide jaoks hämmastavaid veebirakendusi Andmeteaduse portfell, mis annab teile töökoha

Kõige rohkem jagatud
Masina ja süvaõppe kogumiku avatud raamat Andmeteadlased, kellel pole andmetehnoloogia oskusi, seisavad silmitsi karmi tõega Hüpoteesi testimine selgitatud Data Science Cheat Sheet 2.0 8 süvaõppeprojekti ideed algajatele