Ponovno objavil Platon

Spremljevalci: 0

20 projektov strojnega učenja, ki vas bodo zaposlili

Če se želite prebiti na trg dela s strojnim učenjem in znanostjo o podatkih, boste morali dokazati svoje znanje, še posebej, če ste samouk s spletnimi tečaji in tečaji. Projektni portfelj je odličen način, da vadite svojo novo obrt in ponudite prepričljive dokaze, da bi vas moral zaposleni zaposliti namesto konkurence.

komentarji

By Khushbu Shah, vodja vsebine pri ProjectPro.

Industrija umetne inteligence in strojnega učenja je v razcvetu kot še nikoli doslej. Od leta 2021 bo povečanje uporabe umetne inteligence v podjetjih ustvarilo 2.9 bilijona dolarjev poslovne vrednosti. AI je avtomatizirala številne industrije po vsem svetu in spremenila njihov način delovanja. Večina velikih podjetij vključuje umetno inteligenco za povečanje produktivnosti v svojem delovnem toku, panoge, kot sta trženje in zdravstvo, pa so zaradi konsolidacije AI doživele spremembo paradigme.

Vir slike: Unsplash

Zaradi tega se je v zadnjih nekaj letih povečalo povpraševanje po strokovnjakih za umetno inteligenco. Od leta 100 do 2015 se je število objav za delovna mesta, povezanih z umetno inteligenco in strojnim učenjem, povečalo za skoraj 2018 %. To število se je od takrat povečalo in naj bi se povečalo leta 2021.

Če se želite prebiti v industrijo strojnega učenja, je dobra novica, da razpoložljivih delovnih mest ne primanjkuje. Podjetja potrebujejo nadarjeno delovno silo, ki je sposobna pionirskega prehoda na strojno učenje. Vendar pa se na trg dela infiltrirajo ljudje, ki se želijo prebiti v podatkovno industrijo. Ker noben poseben študijski program ni namenjen študentom, ki se želijo naučiti strojnega učenja, je veliko nadobudnih praktikov ML samoukov.

V spletni tečaj strojnega učenja Andrewa Nga je vpisanih več kot 4 milijone študentov.

Na žalost vam vpis v spletne tečaje ali Bootcamp strojnega učenja pomaga pri učenju teoretičnih konceptov, vendar vas ne pripravi na delo v industriji. Po tem, ko ste se naučili teorije, je treba opraviti veliko več praktičnega dela. Recimo, da poznate osnove algoritmov strojnega učenja – razumete, kako delujejo modeli regresije in klasifikacije, in poznate različne vrste metod združevanja v grozde.

Kako boste vadili veščine, ki ste se jih naučili za reševanje resničnega problema? Preprost odgovor je: vadite, vadite in vadite raznoliko projekti strojnega učenja.

Ko končate z učenjem teoretičnih konceptov, bi morali začeti delati na projektih AI in strojnega učenja. Ti projekti vam bodo omogočili prakso, potrebno za izpopolnjevanje svojih veščin na tem področju, in hkrati predstavljajo veliko dodano vrednost vašemu portfelju strojnega učenja.

Brez velikega odlašanja raziščimo nekaj idej za projekte ML, ki ne bodo le polepšale vaš portfelj, ampak bodo tudi znatno izboljšale vaše veščine strojnega učenja. To je kuriran seznam nekaterih najboljših projektov strojnega učenja za študente, ambiciozne strokovnjake za strojno učenje in posameznike iz netehničnih področij. Na teh projektih lahko delate ne glede na svoje ozadje, če imate nekaj kodiranja in znanja o spretnostih strojnega učenja. To je seznam projektov strojnega učenja za začetnike in napredne ravni.

Če ste novi v podatkovni industriji in imate malo izkušenj z resničnimi projekti, začnite s projekti ML na začetni ravni, preden se premaknete na zahtevnejše.

Projekti strojnega učenja za začetnike

1. Kaggle Titanic Napoved

Prvi projekt na tem seznamu je eden najbolj preprostih projektov ML, ki jih lahko prevzamete. Ta projekt je priporočljiv za popolne začetnike v podatkovni industriji. Podatkovni niz Titanic je na voljo na Kaggle, povezava za prenos pa je navedena spodaj.

Ta nabor podatkov je o potnikih, ki so potovali na Titaniku. Vsebuje podrobnosti, kot so starost potnika, cena vozovnice, kabina in spol. Na podlagi teh informacij boste morali predvideti, ali so ti potniki preživeli ali ne.

Gre za preprost problem binarne klasifikacije in vse, kar morate storiti, je predvideti, ali je določen potnik preživel. Najboljša stvar pri tem naboru podatkov je, da se vsa predhodna obdelava opravi namesto vas. Imate lep, čist nabor podatkov za usposabljanje vašega modela strojnega učenja.

Ker je to problem klasifikacije, se lahko odločite za uporabo algoritmov, kot so logistična regresija, odločitvena drevesa in naključni gozdovi, da zgradite napovedni model. Za ta projekt strojnega učenja na začetni ravni lahko izberete tudi modele za povečanje gradienta, kot je klasifikator XGBoost, da dobite boljše rezultate.

Nabor podatkov: Nabor podatkov Kaggle Titanic

2. Napoved cene hiše

Podatki o cenah stanovanj so tudi odlični za začetek, če ste začetnik v strojnem učenju. Ta projekt bo uporabljal nabor podatkov o cenah hiš, ki je na voljo na Kaggle. Ciljna spremenljivka v tem naboru podatkov je cena določene hiše, ki jo boste morali predvideti z uporabo informacij, kot so površina hiše, število spalnic, število kopalnic in pripomočki.

Gre za regresijski problem in za sestavljanje modela lahko uporabite tehnike, kot je linearna regresija. Za napovedovanje cen stanovanj lahko uporabite tudi naprednejši pristop in uporabite naključni gozdni regresor ali povečanje gradienta.

Ta nabor podatkov ima 80 stolpcev, razen ciljne spremenljivke. Za ročno izbiro funkcij boste morali uporabiti nekaj tehnik zmanjševanja dimenzij, saj lahko z dodajanjem preveč spremenljivk vaš model deluje slabo.

V naboru podatkov je tudi veliko kategoričnih spremenljivk, zato jih morate pravilno obravnavati s tehnikami, kot je eno vroče kodiranje ali kodiranje etiket.

Ko zgradite svoj model, lahko svoje napovedi oddate na tekmovanje za določanje cen hiš v Kaggleju, saj je še vedno odprto. Najboljši RMSE, ki so ga dosegli tekmovalci, je 0 in veliko ljudi je doseglo dobre rezultate, kot je 0.15, s pomočjo tehnik regresije in pospeševanja gradienta.

Nabor podatkov: Nabor podatkov o napovedi cen hiš Kaggle

3. Napoved kakovosti vina

Nabor podatkov za napovedovanje kakovosti vina je zelo priljubljen tudi med začetniki v podatkovni industriji. V tem projektu boste za napovedovanje kakovosti rdečega vina uporabili fiksno kislost, hlapno kislost, alkohol in gostoto.

To je mogoče obravnavati kot problem klasifikacije ali regresije. The kakovost vina spremenljivka, ki jo morate predvideti v naboru podatkov, se giblje od 0–10, tako da lahko zgradite regresijski model za napovedovanje. Drug pristop, ki ga lahko uporabite, je, da razčlenite vrednosti (od 0–10) na diskretne intervale in jih pretvorite v kategorične spremenljivke. Ustvarite lahko tri kategorije, na primer — nizka, srednja, in visoko.

Nato lahko zgradite klasifikator drevesa odločitev ali kateri koli model klasifikacije, da naredite napoved. To je razmeroma čist in enostaven nabor podatkov za vadbo vaših veščin strojnega učenja regresije in klasifikacije.

Nabor podatkov: Nabor podatkov o kakovosti rdečega vina Kaggle

4. Napoved bolezni srca

Če želite raziskati nabor podatkov v zdravstveni industriji, je to odličen nabor podatkov za začetnike. Ta nabor podatkov se uporablja za napovedovanje 10-letnega tveganja za KBS (koronarna srčna bolezen). Odvisne spremenljivke v tem nizu podatkov so dejavniki tveganja za srčne bolezni, vključno s sladkorno boleznijo, kajenjem, visokim krvnim tlakom in visokimi ravnmi holesterola.

Neodvisna spremenljivka je 10-letno tveganje za CHD. Gre za binarni problem klasifikacije, ciljna spremenljivka pa je 0 ali 1–0 za bolnike, ki niso nikoli razvili bolezni srca, in 1 za bolnike, ki so se. V tem naboru podatkov lahko izvedete nekaj izbire funkcij, da ugotovite značilnosti, ki najbolj prispevajo k tveganju za srce. Nato lahko model klasifikacije prilagodite neodvisnim spremenljivkam.

Ta nabor podatkov je zelo neuravnotežen, ker je to storilo veliko bolnikov v tem naboru podatkov ne razvijejo bolezni srca. Z neuravnoteženim naborom podatkov je treba ravnati z uporabo pravih tehnik inženiringa funkcij, kot so prekomerno vzorčenje, prilagajanje teže ali premajhno vzorčenje. Če ga ne boste pravilno obravnavali, boste na koncu dobili model, ki preprosto predvideva večinski razred za vsako podatkovno točko in ne more identificirati bolnikov, ki ni razvijejo bolezni srca. To je odličen nabor podatkov za vadbo svojih veščin inženiringa funkcij in strojnega učenja.

Nabor podatkov: Nabor podatkov o srčnih boleznih Kaggle

5. Razvrstitev številk MNIST

O MNIST nabor podatkov je vaša odskočna deska na področju globokega učenja. Ta nabor podatkov je sestavljen iz sivinskih slik ročno napisanih števk od 0 do 9. Vaša naloga bi bila identificirati številko z uporabo algoritma globokega učenja. To je večrazredna klasifikacijska težava z desetimi možnimi izhodnimi razredi. Za izvedbo te klasifikacije lahko uporabite CNN (konvolucijsko nevronsko omrežje).

Nabor podatkov MNIST je zgrajen v knjižnici Keras v Pythonu. Vse, kar morate storiti, je namestiti Keras, uvoziti knjižnico in naložiti nabor podatkov. Ta nabor podatkov ima približno 60,000 slik, tako da lahko približno 80 % teh slik uporabite za usposabljanje in še 20 % za testiranje.

Nabor podatkov: Nabor podatkov Kaggle Digit Recognizer

6. Analiza razpoloženja podatkov Twitterja

Na Kaggle je na voljo veliko podatkovnih nizov za analizo razpoloženja Twitter. Eden najbolj priljubljenih podatkovnih nizov se imenuje sentiment140, ki vsebuje 1.6 milijona predhodno obdelanih tvitov. To je odličen nabor podatkov za začetek, če ste novi v analizi občutkov.

Ti tviti so bili označeni, ciljna spremenljivka pa je razpoloženje. Edinstvene vrednosti v tem stolpcu so 0 (negativno), 2 (nevtralno) in 4 (pozitivno).

Po predhodni obdelavi teh tvitov in pretvorbi v vektorje lahko uporabite klasifikacijski model, da jih usposobite z njihovim povezanim občutkom. Za to nalogo lahko uporabite algoritme, kot so logistična regresija, klasifikator drevesa odločanja ali klasifikator XGBoost.

Druga alternativa je uporaba modela globokega učenja, kot je LSTM, da bi pripravili napovedovanje razpoloženja. Vendar je to nekoliko zahtevnejši pristop in spada v kategorijo naprednih projektov.

Ta označeni nabor podatkov lahko uporabite tudi kot osnovo za prihodnje naloge analize razpoloženja.

Če imate kakšne tvite, ki jih želite zbrati in izvesti analizo razpoloženja, lahko uporabite model, ki je bil predhodno usposobljen za sentiment140, da naredite prihodnje napovedi.

Nabor podatkov: Nabor podatkov Kaggle Sentiment140

7. Pima Indian Diabetes Napoved

Pima Indian Diabetes Dataset se uporablja za napovedovanje, ali ima bolnik sladkorno bolezen na podlagi diagnostičnih meritev.

Na podlagi spremenljivk, kot so ITM, starost in inzulin, bo model napovedal sladkorno bolezen pri bolnikih. Ta nabor podatkov ima devet spremenljivk – osem neodvisnih spremenljivk in eno ciljno spremenljivko.

Ciljna spremenljivka je 'sladkorna bolezen', tako boste predvideli 1 za prisotnost sladkorne bolezni ali 0 za odsotnost sladkorne bolezni.

To je problem klasifikacije za eksperimentiranje z modeli, kot so logistična regresija, klasifikator drevesa odločanja ali klasifikator naključnih gozdov.

Vse neodvisne spremenljivke v tem naboru podatkov so številčne, zato je to odličen nabor podatkov za začetek, če imate minimalne izkušnje z inženiringom funkcij.

To je nabor podatkov Kaggle, ki je odprt za začetnike. Na spletu je veliko vadnic, ki vas vodijo skozi kodiranje rešitve v Pythonu in R. Te vadnice za prenosne računalnike so odličen način za učenje in si umažete roke, tako da se lahko premaknete na bolj zapletene projekte.

Nabor podatkov: Nabor podatkov o indijski sladkorni bolezni Kaggle Pima

8. Klasifikacija raka dojke

Nabor podatkov o klasifikaciji raka dojke na Kaggle je še en odličen način za vadbo strojnega učenja in veščin umetne inteligence.

Večina težav z nadzorovanim strojnim učenjem v resničnem svetu so težave s klasifikacijo, kot je ta. Ključni izziv pri identifikaciji raka dojke je nezmožnost razlikovanja med benignimi (ne-rakavi) in malignimi (rakavi) tumorji. Nabor podatkov ima spremenljivke, kot sta "radius_mean" in "area_mean" tumorja, zato boste morali na podlagi teh značilnosti razvrstiti, ali je tumor rakast ali ne. S tem naborom podatkov je relativno enostavno delati, saj ni treba opraviti nobene pomembne predhodne obdelave podatkov. Je tudi dobro uravnotežen nabor podatkov, zaradi česar je vaša naloga bolj obvladljiva, saj vam ni treba izvajati veliko inženiringa funkcij.

Izobraževanje preprostega logističnega regresijskega klasifikatorja na tem naboru podatkov vam lahko zagotovi natančnost do 0.90.

Nabor podatkov: Nabor podatkov o klasifikaciji raka dojke Kaggle

9. TMDB Box Office Napoved

Ta nabor podatkov Kaggle je odličen način za vadbo vaših regresijskih veščin. Sestavljen je iz približno 7000 filmov in za napovedovanje prihodkov filma boste morali uporabiti prisotne spremenljivke.

Prisotne podatkovne točke vključujejo igralce, ekipo, proračun, jezike in datume izdaje. V naboru podatkov je 23 spremenljivk, od katerih je ena ciljna spremenljivka.

Osnovni model linearne regresije vam lahko da R-kvadrat več kot 0.60, zato ga lahko uporabite kot svoj osnovni model napovedi. Poskusite premagati ta rezultat s tehnikami, kot sta regresija XGBoost ali Light GBM.

Ta nabor podatkov je nekoliko bolj zapleten kot prejšnji, saj imajo nekateri stolpci podatke v ugnezdenih slovarjih. Izvesti morate nekaj dodatne predhodne obdelave, da izvlečete te podatke v uporabni obliki in na njih usposobite model.

Napovedovanje prihodkov je odličen projekt za predstavitev v vašem portfelju, saj zagotavlja poslovno vrednost različnim domenam zunaj filmske industrije.

Nabor podatkov: Kaggle TMDB Box Office Nabor podatkov o napovedih

10. Segmentacija strank v Pythonu

Nabor podatkov o segmentaciji strank v Kaggleu je odličen način za začetek nenadzorovanega strojnega učenja. Ta nabor podatkov je sestavljen iz podrobnosti o strankah, kot so njihova starost, spol, letni dohodek in rezultat porabe.

Te spremenljivke morate uporabiti za izgradnjo segmentov strank. Podobne stranke je treba združiti v podobne skupine. Za to nalogo lahko uporabite algoritme, kot je združevanje v gruče K-Means ali hierarhično združevanje v gruče. Modeli segmentacije strank lahko zagotovijo poslovno vrednost.

Podjetja pogosto želijo ločiti svoje stranke, da bi za vsako vrsto strank pripravila različne marketinške tehnike.

Glavni cilji tega nabora podatkov vključujejo:

Doseganje segmentacije strank z uporabo tehnik strojnega učenja
Identificirajte svoje ciljne stranke za različne marketinške strategije
Razumeti, kako marketinške strategije delujejo v resničnem svetu

Z izgradnjo modela združevanja v gruče za to nalogo lahko vaš portfelj izstopa, segmentacija pa je odlična veščina, ki jo morate imeti, če želite dobiti službo, povezano z umetno inteligenco, v marketinški industriji.

Nabor podatkov: Nabor podatkov o segmentaciji strank Kaggle Mall

Projekti strojnega učenja srednje/napredne stopnje za vaš življenjepis

Ko končate z delom na preprostih projektih strojnega učenja, kot so zgoraj navedeni, lahko preidete na bolj zahtevne projekte.

1. Napovedovanje prodaje

Napovedovanje časovnih vrst je tehnika strojnega učenja, ki se zelo pogosto uporablja v industriji. Uporaba preteklih podatkov za napovedovanje prihodnje prodaje ima veliko primerov poslovne uporabe. Nabor podatkov za napovedovanje povpraševanja Kaggle se lahko uporablja za izvajanje tega projekta.

Ta nabor podatkov vsebuje podatke o prodaji za 5 let, prodajo pa boste morali predvideti za naslednje tri mesece. V naboru podatkov je navedenih deset različnih trgovin, v vsaki trgovini pa je 50 artiklov.

Za napovedovanje prodaje lahko preizkusite različne metode – ARIMA, vektorsko avtoregresijo ali globoko učenje. Ena metoda, ki jo lahko uporabite za ta projekt, je merjenje povečanja prodaje za vsak mesec in beleženje. Nato zgradite model na razliki med prodajo v prejšnjem in tekočem mesecu. Upoštevanje dejavnikov, kot so prazniki in sezonskost, lahko izboljša učinkovitost vašega modela strojnega učenja.

Nabor podatkov: Napovedovanje povpraševanja po artiklih v trgovini Kaggle

2. Klepetalnica za pomoč strankam

Klepetalni bot za storitve za stranke uporablja tehnike umetne inteligence in strojnega učenja za odgovarjanje strankam in prevzame vlogo človeškega predstavnika. Klepetalni robot bi moral biti sposoben odgovoriti na preprosta vprašanja, da bi zadovoljil potrebe strank.

Trenutno obstajajo tri vrste chatbotov, ki jih lahko zgradite:

Klepetalni roboti, ki temeljijo na pravilih – ti klepetalni roboti niso inteligentni. Dobijo nabor vnaprej določenih pravil in odgovarjajo uporabnikom samo na podlagi teh pravil. Nekateri klepetalni roboti imajo tudi vnaprej določen nabor vprašanj in odgovorov in ne morejo odgovoriti na poizvedbe, ki so izven te domene.
Neodvisni klepetalni roboti – Neodvisni klepetalni roboti uporabljajo strojno učenje za obdelavo in analizo uporabnikove zahteve ter ustrezne odgovore.
NLP Chatboti – Ti klepetalni roboti lahko razumejo vzorce v besedah in razlikujejo med različnimi kombinacijami besed. So najnaprednejši od vseh treh tipov klepetalnic, saj lahko glede na besedne vzorce, na katerih so bili izurjeni, izmislijo, kaj naj rečejo.

NLP chatbot je zanimiva ideja za projekt strojnega učenja. Potrebovali boste obstoječ korpus besed, na katerem boste usposobili svoj model, in za to lahko preprosto najdete knjižnice Python. Imate lahko tudi vnaprej določen slovar s seznamom parov vprašanj in odgovorov, ki jih želite usposobiti za svoj model.

3. Sistem za odkrivanje predmetov prostoživečih živali

Če živite na območju s pogostimi opazovanji divjih živali, je koristno, da uporabite sistem za zaznavanje predmetov, da prepoznate njihovo prisotnost na vašem območju. Sledite tem korakom, da zgradite sistem, kot je ta:

Namestite kamere na območje, ki ga želite nadzorovati.
Prenesite vse video posnetke in jih shranite.
Ustvarite aplikacijo Python za analizo prispelih slik in prepoznavanje divjih živali.

Microsoft je zgradil API za prepoznavanje slik z uporabo podatkov, zbranih s kamerami za prostoživeče živali. V ta namen so izdali odprtokodni predhodno usposobljen model, imenovan MegaDetector.

Ta vnaprej usposobljeni model lahko uporabite v svoji aplikaciji Python za prepoznavanje divjih živali iz zbranih slik. Gre za enega najbolj vznemirljivih projektov ML, omenjenih doslej, in je zaradi razpoložljivosti vnaprej usposobljenega modela za ta namen precej preprost za izvedbo.

API-ji: MegaDetektor

4. Spotify Music Recommender System

Spotify uporablja umetno inteligenco, da svojim uporabnikom priporoča glasbo. Lahko poskusite zgraditi sistem priporočil, ki temelji na javno dostopnih podatkih na Spotifyju.

Spotify ima API, ki ga lahko uporabite za pridobivanje zvočnih podatkov – najdete funkcije, kot so leto izdaje, ključ, priljubljenost in izvajalec. Za dostop do tega API-ja v Pythonu lahko uporabite knjižnico, imenovano Spotipy.

Uporabite lahko tudi nabor podatkov Spotify na Kaggle, ki ima približno 600 vrstic. Z uporabo teh podatkovnih nizov lahko predlagate najboljšo alternativo za najljubšega glasbenika vsakega uporabnika. Prav tako lahko pripravite priporočila skladb na podlagi vsebine in zvrsti, ki jih želi vsak uporabnik.

Ta sistem priporočil je mogoče zgraditi z združevanjem K-Means – podobne podatkovne točke bodo združene. Končnemu uporabniku lahko priporočite skladbe z minimalno razdaljo med njimi.

Ko zgradite priporočilni sistem, ga lahko spremenite tudi v preprosto aplikacijo Python in jo namestite. Uporabnike lahko spodbudite, da vnesejo svoje najljubše pesmi na Spotify, nato pa na zaslonu prikažete priporočila vaših modelov, ki so najbolj podobna skladbam, v katerih so uživali.

Nabor podatkov: Nabor podatkov Kaggle Spotify

5. Analiza tržne košarice

Analiza tržne košarice je priljubljena tehnika, ki jo uporabljajo trgovci na drobno za prepoznavanje artiklov, ki jih je mogoče prodati skupaj.

Na primer:

Nekaj let nazaj je raziskovalni analitik ugotovil korelacijo med prodajo piva in plenic. Največkrat, ko je stranka šla v trgovino po pivo, sta skupaj kupila tudi plenice.

Zaradi tega so trgovine začele prodajati pivo in plenice skupaj na istem hodniku kot marketinško strategijo za povečanje prodaje. In uspelo je.

Domnevalo se je, da imata pivo in plenice visoko korelacijo, saj so jih moški pogosto kupovali skupaj. Moški so hodili v trgovino, da bi kupili pivo, skupaj z več drugimi gospodinjskimi predmeti za svojo družino (vključno s plenicami). To se zdi precej nemogoča korelacija, vendar se je zgodilo.

Analiza tržne košarice lahko podjetjem pomaga prepoznati skrite korelacije med predmeti, ki se pogosto kupujejo skupaj. Te trgovine lahko nato svoje izdelke postavijo na način, ki ljudem omogoča, da jih lažje najdejo.

Za izdelavo in usposabljanje modela lahko uporabite nabor podatkov za optimizacijo tržne košarice na Kaggle. Najpogosteje uporabljen algoritem za izvedbo analize tržne košarice je algoritem Apriori.

Nabor podatkov: Nabor podatkov za optimizacijo tržne košarice Kaggle

6. Trajanje potovanja s taksijem v NYC

Nabor podatkov ima spremenljivke, ki vključujejo začetne in končne koordinate vožnje s taksijem, čas in število potnikov. Cilj tega projekta ML je predvideti trajanje potovanja z vsemi temi spremenljivkami. Gre za regresijski problem.

Spremenljivke, kot so čas in koordinate, je treba ustrezno predhodno obdelati in pretvoriti v razumljivo obliko. Ta projekt ni tako preprost, kot se zdi. Ta nabor podatkov ima tudi nekaj odstopanj, zaradi katerih je napovedovanje bolj zapleteno, zato boste morali to obravnavati s tehnikami inženiringa funkcij.

Merilo za ocenjevanje tega tekmovanja NYC Taxi Trip Kaggle je RMSLE ali povprečna kvadratna napaka dnevnika. Najboljša prijava na Kaggle je prejela oceno RMSLE 0.29, osnovni model Kaggle pa ima RMSLE 0.89.

Za rešitev tega projekta Kaggle lahko uporabite kateri koli regresijski algoritem, vendar so najuspešnejši konkurenti tega izziva uporabili modele za povečanje gradienta ali tehnike globokega učenja.

Nabor podatkov: Nabor podatkov o trajanju potovanja s taksijem Kaggle NYC

7. Odkrivanje neželene pošte v realnem času

V tem projektu lahko uporabite tehnike strojnega učenja za razlikovanje med neželeno pošto (nelegitimnimi) in nedovoljenimi (legitimnimi) sporočili.

Če želite to doseči, lahko uporabite nabor podatkov za zbiranje neželene pošte Kaggle SMS. Ta nabor podatkov vsebuje nabor približno 5 sporočil, ki so bila označena kot vsiljena pošta ali šunka.

Za izgradnjo sistema za odkrivanje neželene pošte v realnem času lahko naredite naslednje:

Uporabite Kaggleov nabor podatkov za zbiranje neželene pošte SMS za usposabljanje modela strojnega učenja.
Ustvarite preprost strežnik za klepetalnico v Pythonu.
Namestite model strojnega učenja na strežnik klepetalnice in zagotovite, da ves dohodni promet poteka skozi model.
Sporočila dovolite samo, če so razvrščena kot šunka. Če so vsiljena pošta, namesto tega vrnite sporočilo o napaki.

Če želite zgraditi model strojnega učenja, morate najprej predhodno obdelati besedilna sporočila, ki so prisotna v naboru podatkov za zbiranje neželene pošte Kaggle. Nato ta sporočila pretvorite v vrečko besed, tako da jih je mogoče zlahka prenesti v vaš klasifikacijski model za napovedovanje.

Nabor podatkov: Nabor podatkov za zbiranje neželene pošte Kaggle

8. Aplikacija za napovedovanje osebnosti Myers-Briggs

Ustvarite lahko aplikacijo za napovedovanje vrste osebnosti uporabnika na podlagi tega, kar pravijo.

Kazalnik tipa Myers-Briggs kategorizira posameznike v 16 različnih tipov osebnosti. Je eden najbolj priljubljenih osebnostnih testov na svetu.

Če poskušate najti svoj tip osebnosti na internetu, boste našli veliko spletnih kvizov. Ko odgovorite na približno 20–30 vprašanj, boste razvrščeni v tip osebnosti.

Vendar pa lahko v tem projektu uporabite strojno učenje za napovedovanje osebnosti kogar koli samo na podlagi enega stavka.

Tukaj so koraki, ki jih lahko naredite, da to dosežete:

Zgradite model klasifikacije v več razredih in ga usposobite na naboru podatkov Myers-Briggs na Kaggle. To vključuje predhodno obdelavo podatkov (odstranitev zaustavitvenih besed in nepotrebnih znakov) in nekaj inženiringa funkcij. Za ta namen lahko uporabite model plitvega učenja, kot je logistična regresija, ali model globokega učenja, kot je LSTM.
Ustvarite lahko aplikacijo, ki uporabnikom omogoča, da vnesejo poljuben stavek.
Shranite uteži modela strojnega učenja in integrirajte model s svojo aplikacijo. Ko končni uporabnik vnese besedo, prikažite njegov tip osebnosti na zaslonu, potem ko model naredi napoved.

Nabor podatkov: Nabor podatkov tipa Kaggle MBTI

9. Sistem za prepoznavanje razpoloženja + sistem priporočil

Ste bili kdaj žalostni in se vam je zdelo, da morate pogledati nekaj smešnega, da bi vas razveselilo? Ali pa ste se že kdaj počutili tako razočarani, da ste se morali sprostiti in gledati nekaj sproščujočega?

Ta projekt je kombinacija dveh manjših projektov.

Ustvarite lahko aplikacijo, ki prepozna razpoloženje uporabnika na podlagi spletnih posnetkov v živo in predlog filma na podlagi uporabnikovega izraza.

Če želite to zgraditi, lahko naredite naslednje korake:

Ustvarite aplikacijo, ki lahko sprejema video vir v živo.
Uporabite Pythonov API za prepoznavanje obrazov za zaznavanje obrazov in čustev na predmetih v video viru.
Ko ta čustva razvrstite v različne kategorije, začnite graditi sistem priporočil. To je lahko niz trdo kodiranih vrednosti za vsako čustvo, kar pomeni, da vam za priporočila ni treba vključiti strojnega učenja.
Ko končate z izdelavo aplikacije, jo lahko namestite na Heroku, Dash ali spletni strežnik.

API-ji: API za prepoznavanje obrazov

10. Analiza občutenja komentarjev v YouTubu

V tem projektu lahko ustvarite nadzorno ploščo, ki analizira splošno počutje priljubljenih uporabnikov YouTube.

Več kot 2 milijardi uporabnikov si vsaj enkrat na mesec ogleda YouTube videoposnetke. Priljubljeni youtuberi s svojo vsebino zberejo na stotine milijard ogledov. Vendar pa so mnogi od teh vplivnežev prišli na udare kritik zaradi polemik v preteklosti, dojemanje javnosti pa se nenehno spreminja.

Lahko zgradite model analize razpoloženja in ustvarite nadzorno ploščo za vizualizacijo občutkov okoli slavnih osebnosti skozi čas.

Če želite to zgraditi, lahko naredite naslednje korake:

Pobrišite komentarje videoposnetkov YouTuberjev, ki jih želite analizirati.
Uporabite vnaprej usposobljen model analize razpoloženja, da naredite napovedi za vsak komentar.
Vizualizirajte napovedi modela na nadzorni plošči. Ustvarite lahko celo aplikacijo za nadzorno ploščo z uporabo knjižnic, kot sta Dash (Python) ali Shiny (R).
Nadzorno ploščo lahko naredite interaktivno tako, da uporabnikom omogočite filtriranje občutkov glede na časovni okvir, ime YouTuberja in video zvrst.

API-ji: YouTubovo strgalo za komentarje

Povzetek

Industrija strojnega učenja je velika in polna priložnosti. Če se želite prebiti v industrijo brez formalne izobrazbe, je najboljši način, da pokažete, da imate veščine, potrebne za opravljanje dela, s projekti.

Vidik strojnega učenja večine zgoraj navedenih projektov je precej preprost. Zaradi demokratizacije strojnega učenja je proces gradnje modela mogoče enostavno doseči s predhodno usposobljenimi modeli in API-ji.

Odprtokodni projekti umetne inteligence, kot sta Keras in FastAI, so prav tako pomagali pospešiti proces gradnje modela. Težaven del teh strojnega učenja in projekti podatkovne znanosti je zbiranje podatkov, predhodna obdelava in uvajanje. Če se zaposlite v strojnem učenju, bo večina algoritmov precej preprosta za sestavljanje. Za izdelavo modela za napovedovanje prodaje bo potreben le dan ali dva. Večino svojega časa boste namenili iskanju ustreznih virov podatkov in uvajanju svojih modelov v proizvodnjo, da bi pridobili poslovno vrednost.

prvotni. Poročeno z dovoljenjem.

Povezano:

= Prejšnja objava

Naslednji post =>

Najboljše zgodbe preteklih 30 dni

Najbolj popularni
Ali berete Excelove datoteke s Pythonom? Obstaja 1000x hitrejša pot Avtomatizirajte Microsoft Excel in Word z uporabo Pythona Znanstveniki brez podatkovnega inženiringa se bodo soočili s kruto resnico Kako ustvariti osupljive spletne aplikacije za svoje projekte znanosti o podatkih Portfelj podatkovne znanosti, ki vam bo omogočil zaposlitev

Najbolj v skupni rabi
Odprta knjiga zbirke strojev in poglobljenega učenja Znanstveniki brez podatkovnega inženiringa se bodo soočili s kruto resnico Pojasnjeno testiranje hipotez Cheat Sheet podatkovne znanosti 2.0 8 idej o projektih poglobljenega učenja za začetnike