Újra kiadta Platón

Követő: 0

20 gépi tanulási projekt, amely felveszi Önt

Címkék: Karrier, Gépi tanulás, NetPoulSafe projekt

Ha be akar törni a gépi tanulás és az adattudomány munkaerőpiacára, akkor bizonyítania kell készségeinek jártasságát, különösen akkor, ha autodidakta módon online kurzusokon és bootcampeken keresztül végez. A projektportfólió nagyszerű módja annak, hogy gyakorolhassa új mesterségét, és meggyőző bizonyítékot nyújtson arra, hogy egy alkalmazottnak fel kell vennie Önt a versenyre.

Hozzászólások

By Khushbu Shah, tartalommenedzser a ProjectPro-nál.

A mesterséges intelligencia és a gépi tanulás iparága úgy virágzik, mint még soha. 2021-től a mesterséges intelligencia használatának növekedése a vállalkozások között 2.9 billió dollár üzleti értéket teremt majd. A mesterséges intelligencia számos iparágat automatizált világszerte, és megváltoztatta működésüket. A legtöbb nagyvállalat beépíti a mesterséges intelligenciát, hogy maximalizálja a termelékenységet a munkafolyamataiban, és az olyan iparágak, mint a marketing és az egészségügy paradigmaváltáson mentek keresztül az MI konszolidációja miatt.

Kép forrása: Unsplash

Emiatt az elmúlt években egyre nagyobb az igény az AI szakemberek iránt. 100 és 2015 között csaknem 2018%-kal nőtt a mesterséges intelligenciával és a gépi tanulással kapcsolatos álláshirdetések száma. Ez a szám azóta nőtt, és az előrejelzések szerint 2021-ben növekedni fog.

Ha szeretne betörni a gépi tanulási iparágba, a jó hír az, hogy nincs hiány a rendelkezésre álló állásokból. A vállalatoknak tehetséges munkaerőre van szükségük, amely képes úttörő szerepet vállalni a gépi tanulásra való átállásban. A munkaerőpiacra azonban beszivárognak olyan emberek, akik be akarnak törni az adatiparba. Mivel egyetlen speciális képzési program sem foglalkozott olyan hallgatókkal, akik gépi tanulást szeretnének tanulni, sok törekvő ML-gyakorló autodidakta.

Több mint 4 millió diák iratkozott be Andrew Ng gépi tanulási online tanfolyamára.

Sajnos az online kurzusokra való beiratkozás vagy a gépi tanulási Bootcamp elvégzése segít az elméleti fogalmak elsajátításában, de nem készít fel egy iparági állásra. Sokkal több gyakorlati munka van hátra, miután megtanulta az elméletet. Tegyük fel, hogy ismeri a gépi tanulási algoritmusok alapjait – ismeri a regressziós és osztályozási modellek működését, és ismeri a különböző típusú klaszterezési módszereket.

Hogyan fogja gyakorolni az elsajátított készségeket egy valós probléma megoldásához? Az egyszerű válasz: Gyakorolj, Gyakorolj és Gyakorolj változatosan gépi tanulási projektek.

Ha végzett az elméleti fogalmak elsajátításával, el kell kezdenie a mesterséges intelligencia és a gépi tanulási projektek kidolgozását. Ezek a projektek megadják azt a gyakorlatot, amely szükséges ahhoz, hogy tökéletesítse készségeit ezen a területen, és ugyanakkor nagy hozzáadott értéket jelentenek gépi tanulási portfóliójához.

Minden további nélkül vizsgáljunk meg néhány olyan ML-projektötletet, amelyek nem csak a portfólióját szépítik, hanem jelentősen javítják gépi tanulási készségeit is. Ez a legjobb gépi tanulási projektek válogatott listája diákoknak, feltörekvő gépi tanulással foglalkozó szakembereknek és nem műszaki területekről származó személyeknek. Előéletétől függetlenül dolgozhat ezeken a projekteken, ha rendelkezik némi kódolási és gépi tanulási készségekkel. Ez a kezdő és haladó szintű gépi tanulási projektek listája.

Ha új az adatiparban, és kevés tapasztalata van a valós projektekkel kapcsolatban, kezdje el a kezdő szintű ML projektekkel, mielőtt a nagyobb kihívást jelentő projektekre térne át.

Gépi tanulási projektek kezdőknek

1. Kaggle Titanic-jóslat

A listán szereplő első projekt az egyik legegyszerűbb ML projekt, amelyet felvállalhat. Ezt a projektet az adatiparban kezdőknek ajánljuk. A Titanic adatkészlet elérhető a Kaggle-n, a letöltési link pedig alább található.

Ez az adatkészlet a Titanicon utazó utasokat tartalmazza. Olyan részleteket tartalmaz, mint az utasok életkora, jegyárak, kabin és nem. Ezen információk alapján meg kell jósolnia, hogy ezek az utasok túlélték-e vagy sem.

Ez egy egyszerű bináris besorolási probléma, és mindössze annyit kell tennie, hogy megjósolja, hogy egy adott utas túlélte-e. Az a legjobb ebben az adatkészletben, hogy az összes előfeldolgozást elvégzik Ön helyett. Egy szép, tiszta adatkészlettel rendelkezik a gépi tanulási modell betanításához.

Mivel ez egy osztályozási probléma, választhat olyan algoritmusokat, mint a logisztikus regresszió, a döntési fák és a véletlenszerű erdők a prediktív modell felépítéséhez. A jobb eredmények érdekében ehhez a kezdő szintű gépi tanulási projekthez választhat gradiensnövelő modelleket is, például XGBoost osztályozót.

Adatbázis: Kaggle Titanic adatkészlet

2. Lakásár előrejelzés

A lakásárak adatai szintén nagyszerűek a kezdéshez, ha Ön kezdő a gépi tanulásban. Ez a projekt a Kaggle-en elérhető lakására vonatkozó adatkészletet fogja használni. Ebben az adatkészletben a célváltozó egy adott ház ára, amelyet olyan információk alapján kell megjósolnia, mint a ház területe, a hálószobák száma, a fürdőszobák száma és a közművek.

Ez egy regressziós probléma, és olyan technikákat használhat, mint a lineáris regresszió a modell felépítéséhez. Használhat egy fejlettebb megközelítést is, és használhat véletlenszerű erdőregresszort vagy gradiens-növelést a lakásárak előrejelzésére.

Ez az adatkészlet 80 oszlopból áll, a célváltozó nélkül. Néhány dimenziócsökkentési technikát kell alkalmaznia a funkciók kézi kiválasztásához, mivel túl sok változó hozzáadása ronthatja a modell teljesítményét.

Az adatkészletben számos kategorikus változó is található, ezért megfelelően kezelnie kell őket olyan technikák használatával, mint az egy-hot kódolás vagy a címkekódolás.

A modell elkészítése után beküldheti előrejelzéseit a kagglei lakására vonatkozó versenyre, mivel az még nyitott. A versenyzők által elért legjobb RMSE 0, és sokan olyan jó eredményeket értek el, mint a 0.15 regressziós és gradiensnövelő technikák segítségével.

Adatbázis: Kaggle House Price Prediction Dataset

3. Borminőség-előrejelzés

A borminőség-előrejelzési adatkészlet szintén nagyon népszerű az adatiparban kezdők körében. Ebben a projektben rögzített savasságot, illékony savasságot, alkoholt és sűrűséget fog használni a vörösbor minőségének előrejelzésére.

Ez akár osztályozási, akár regressziós problémaként kezelhető. A bor minősége Az adatkészletben megjósolandó változó 0 és 10 között van, így felállíthat egy regressziós modellt az előrejelzéshez. Egy másik lehetőség, hogy az értékeket (0–10) diszkrét intervallumokra bontja, és kategorikus változókra konvertálja. Három kategóriát hozhat létre, például: alacsony, közepes, és a nagy.

Ezután létrehozhat egy döntési fa osztályozót vagy bármilyen osztályozási modellt az előrejelzés elkészítéséhez. Ez egy viszonylag tiszta és egyszerű adatkészlet a regressziós és osztályozási gépi tanulási készségeinek gyakorlásához.

Adatbázis: Kaggle vörösbor minőségi adatkészlet

4. Szívbetegségek előrejelzése

Ha az egészségügyi ágazatban szeretne egy adatkészletet felfedezni, ez egy nagyszerű kezdő szintű adatkészlet. Ezt az adatkészletet a CHD (koronáriás szívbetegség) 10 éves kockázatának előrejelzésére használják. Az adatkészletben szereplő függő változók a szívbetegségek kockázati tényezői, beleértve a cukorbetegséget, a dohányzást, a magas vérnyomást és a magas koleszterinszintet.

A független változó a CHD 10 éves kockázata. Ez egy bináris osztályozási probléma, és a célváltozó 0 vagy 1–0 azoknál a betegeknél, akiknél soha nem alakult ki szívbetegség, és 1 azoknál a betegeknél, akiknél nem alakult ki szívbetegség. Ezen az adatkészleten kiválaszthat bizonyos funkciókat, hogy azonosítsa azokat a jellemzőket, amelyek leginkább hozzájárulnak a szívkockázathoz. Ezután egy osztályozási modellt illeszthet a független változókra.

Ez az adatkészlet erősen kiegyensúlyozatlan, mivel az adatkészletben szereplő betegek közül sok ilyen volt nem szívbetegség kialakulása. A kiegyensúlyozatlan adatkészletet a megfelelő funkciótervezési technikákkal kell kezelni, például túlmintavételezéssel, súlyozással vagy alulmintavételezéssel. Ha nem kezelik megfelelően, akkor egy olyan modellt kap, amely egyszerűen megjósolja az egyes adatpontok többségi osztályát, és nem tudja azonosítani azokat a betegeket, akik tett szívbetegség kialakulása. Ez egy kiváló adatkészlet a funkciómérnöki és gépi tanulási készségeinek gyakorlásához.

Adatbázis: Kaggle szívbetegség adatkészlet

5. MNIST számjegyosztályozás

A MNIST az adatkészlet a ugródeszka a mély tanulás területén. Ez az adatkészlet 0-tól 9-ig kézzel írt számjegyek szürkeárnyalatos képeiből áll. Az Ön feladata a számjegy azonosítása egy mély tanulási algoritmus segítségével. Ez egy többosztályos osztályozási probléma, tíz lehetséges kimeneti osztállyal. Ennek az osztályozásnak a végrehajtásához használhat CNN-t (Convolutional Neural Network).

Az MNIST-adatkészlet a Python Keras-könyvtárában épül fel. Mindössze annyit kell tennie, hogy telepíti a Keras-t, importálja a könyvtárat, és betölti az adatkészletet. Ez az adatkészlet körülbelül 60,000 80 képet tartalmaz, így ezeknek a képeknek körülbelül 20%-át használhatja edzésre, további XNUMX%-át pedig tesztelésre.

Adatbázis: Kaggle számjegyfelismerő adatkészlet

6. Twitter-adatok hangulatelemzése

A Kaggle webhelyen számos Twitter-hangulatelemzési adatkészlet érhető el. Az egyik legnépszerűbb adatkészlet a sentiment140, amely 1.6 millió előre feldolgozott Tweetet tartalmaz. Ez egy nagyszerű adatkészlet, amellyel elkezdheti, ha még nem ismeri a hangulatelemzést.

Ezeket a tweeteket megjegyzésekkel látták el, és a célváltozó a hangulat. Ebben az oszlopban az egyedi értékek 0 (negatív), 2 (semleges) és 4 (pozitív).

Ezeknek a tweeteknek az előfeldolgozása és vektorokká konvertálása után egy osztályozási modell segítségével megtaníthatja őket a hozzájuk tartozó hangulatra. Ehhez a feladathoz olyan algoritmusokat használhat, mint a logisztikus regresszió, a döntési fa osztályozója vagy az XGBoost osztályozó.

Egy másik alternatíva egy mély tanulási modell, például az LSTM használata az érzelmek előrejelzésére. Ez azonban egy kicsit nagyobb kihívást jelentő megközelítés, és a haladó projekt kategóriába tartozik.

Ezt a címkézett adatkészletet későbbi hangulatelemzési feladatok alapjaként is használhatja.

Ha vannak olyan tweetjei, amelyeken hangulatelemzést szeretne végezni, használhat egy olyan modellt, amelyet korábban a hangulatról140 betanítottak a jövőbeli előrejelzések elkészítéséhez.

Adatbázis: Kaggle Sentiment140 adatkészlet

7. Pima indiai cukorbetegség előrejelzése

A Pima Indian Diabetes Dataset segítségével diagnosztikai mérések alapján megjósolható, hogy a páciens cukorbeteg-e.

Az olyan változók alapján, mint a BMI, az életkor és az inzulin, a modell megjósolja a betegek cukorbetegségét. Ez az adatkészlet kilenc változóból áll – nyolc független változóból és egy célváltozóból.

A célváltozó:cukorbetegség', így 1-et fog megjósolni a cukorbetegség jelenlétére vagy 0-t a cukorbetegség hiányára.

Ez egy osztályozási probléma olyan modellekkel való kísérletezéshez, mint a logisztikus regresszió, a döntési fa osztályozója vagy a véletlenszerű erdőosztályozó.

Ebben az adatkészletben az összes független változó numerikus, így ez egy nagyszerű adatkészlet kezdetnek, ha minimális szolgáltatásmérnöki tapasztalattal rendelkezik.

Ez egy kezdők számára nyitott Kaggle adatkészlet. Számos oktatóanyag található az interneten, amelyek végigvezetik a megoldás Python és R nyelven történő kódolásán. Ezek a notebook oktatóanyagok nagyszerű lehetőséget kínálnak a tanulásra és az összetettebb projektekre való továbblépésre.

Adatbázis: Kaggle Pima indiai cukorbetegség adatkészlet

8. A mellrák osztályozása

A mellrák osztályozási adatkészlete a Kaggle-n egy másik kiváló módja annak, hogy gyakorolhassa gépi tanulását és mesterséges intelligenciáját.

A legtöbb felügyelt gépi tanulási probléma a való világban az ehhez hasonló osztályozási probléma. Az emlőrák azonosításának fő kihívása az, hogy nem lehet különbséget tenni a jóindulatú (nem rákos) és a rosszindulatú (rákos) daganatok között. Az adatkészlet olyan változókkal rendelkezik, mint a „radius_mean” és „area_mean” a tumor, és ezek alapján kell osztályoznia, hogy a daganat rákos-e vagy sem. Ezzel az adatkészlettel viszonylag könnyű dolgozni, mivel nincs szükség jelentős adat-előfeldolgozásra. Ez egy jól kiegyensúlyozott adatkészlet is, így könnyebben kezelhetővé válik a feladat, mivel nem kell sok funkciótervezést végeznie.

Egy egyszerű logisztikai regressziós osztályozó betanítása ezen az adatkészleten akár 0.90-es pontosságot is elérhet.

Adatbázis: Kaggle Breast Cancer Classification Dataset

9. TMDB Box Office előrejelzés

Ez a Kaggle adatkészlet nagyszerű módja a regressziós készségek gyakorlásának. Körülbelül 7000 filmből áll, és a jelenlévő változókat kell használnia a film bevételének előrejelzéséhez.

A jelenlévő adatpontok közé tartoznak a szereplők, a stáb, a költségvetés, a nyelvek és a megjelenési dátumok. Az adatkészletben 23 változó található, amelyek közül az egyik a célváltozó.

Egy alap lineáris regressziós modell 0.60 feletti R-négyzetet adhat, így ezt használhatja alapvonali előrejelzési modellként. Próbálja meg legyőzni ezt a pontszámot olyan technikákkal, mint az XGBoost regresszió vagy a Light GBM.

Ez az adatkészlet valamivel összetettebb, mint az előző, mivel egyes oszlopok beágyazott szótáraiban vannak adatok. További előfeldolgozást kell végeznie ahhoz, hogy ezeket az adatokat használható formátumban kinyerje, és modellt tanítson rá.

A bevétel-előrejelzés nagyszerű projekt a portfóliójában való bemutatásra, mivel üzleti értéket biztosít számos, a filmiparon kívüli terület számára.

Adatbázis: Kaggle TMDB Box Office előrejelzési adatkészlet

10. Ügyfélszegmentálás Pythonban

A Kaggle ügyfélszegmentációs adatkészlete nagyszerű módja annak, hogy elkezdje a felügyelet nélküli gépi tanulást. Ez az adatkészlet az ügyfelek adatait tartalmazza, például életkorukat, nemüket, éves jövedelmüket és költési pontszámukat.

Ezeket a változókat kell használnia az ügyfélszegmensek felépítéséhez. A hasonló ügyfeleket hasonló klaszterekbe kell csoportosítani. Ehhez a feladathoz olyan algoritmusokat használhat, mint a K-Means vagy hierarchikus fürtözés. Az ügyfélszegmentációs modellek üzleti értéket biztosíthatnak.

A vállalatok gyakran el akarják különíteni ügyfeleiket, hogy minden ügyféltípushoz különböző marketingtechnikákat dolgozzanak ki.

Ennek az adatkészletnek a fő céljai a következők:

Ügyfélszegmentálás megvalósítása gépi tanulási technikák segítségével
Azonosítsa a megcélzott ügyfeleit a különböző marketingstratégiákhoz
Ismerje meg, hogyan működnek a marketingstratégiák a való világban

Egy klaszterezési modell felépítése ehhez a feladathoz segíthet a portfóliójának kitűnésében, a szegmentálás pedig nagyszerű készség, ha mesterséges intelligenciával kapcsolatos munkát szeretne kapni a marketingiparban.

Adatbázis: Kaggle Mall ügyfélszegmentációs adatkészlet

Középfokú/felső szintű gépi tanulási projektek önéletrajzához

Ha végzett a fent felsorolthoz hasonló egyszerű gépi tanulási projektekkel, áttérhet a nagyobb kihívást jelentő projektekre.

1. Értékesítési előrejelzés

Az idősoros előrejelzés az iparágban nagyon gyakran használt gépi tanulási technika. A múltbeli adatok felhasználása a jövőbeli eladások előrejelzésére számos üzleti felhasználási esettel jár. A Kaggle Demand Forecasting adatkészlet használható a projekt gyakorlására.

Ez az adatkészlet 5 év értékesítési adatait tartalmazza, és meg kell jósolnia az értékesítést a következő három hónapra. Az adatkészletben tíz különböző üzlet található, és minden üzletben 50 cikk található.

Az eladások előrejelzéséhez különféle módszereket próbálhat ki – ARIMA, Vector Autoregression vagy mély tanulás. Az egyik módszer, amelyet ehhez a projekthez használhat, az, hogy minden hónapban méri az értékesítés növekedését, és rögzíti azt. Ezután építse fel a modellt az előző havi és a jelen havi eladások közötti különbségre. Az olyan tényezők, mint az ünnepek és a szezonalitás figyelembevétele javíthatja a gépi tanulási modell teljesítményét.

Adatbázis: Kaggle Store árukereslet előrejelzése

2. Ügyfélszolgálati Chatbot

Az ügyfélszolgálati chatbot mesterséges intelligencia és gépi tanulási technikákat használ az ügyfeleknek való válaszadásra, emberi képviselő szerepét betöltve. A chatbotnak képesnek kell lennie egyszerű kérdések megválaszolására, hogy kielégítse az ügyfelek igényeit.

Jelenleg háromféle chatbotot készíthetsz:

Szabályalapú chatbotok – Ezek a chatbotok nem intelligensek. Előre meghatározott szabályokkal látják el őket, és csak ezek alapján válaszolnak a felhasználóknak. Egyes chatbotok előre meghatározott kérdések és válaszok készlettel is rendelkeznek, és nem tudnak válaszolni az ezen a tartományon kívül eső lekérdezésekre.
Független csevegőbotok – A független chatbotok gépi tanulást használnak a felhasználó kérésének feldolgozására és elemzésére, és ennek megfelelően válaszolnak.
NLP chatbotok – Ezek a chatbotok képesek megérteni a szavak mintáit, és megkülönböztetni a különböző szókombinációkat. Mindhárom chatbot-típus közül ők a legfejlettebbek, hiszen a betanított szóminták alapján kitalálhatják, hogy mit mondjanak ezután.

Az NLP chatbot egy érdekes gépi tanulási projektötlet. A modell betanításához egy meglévő szókorpuszra lesz szüksége, és ehhez könnyen találhat Python-könyvtárakat. Előre definiált szótárral is rendelkezhet azon kérdés-válaszpárok listájával, amelyekre a modelljét betanítani szeretné.

3. Vadon élő tárgyak észlelési rendszere

Ha olyan területen él, ahol gyakori a vadon élő állatok megfigyelése, akkor hasznos egy objektumészlelő rendszer bevezetése, amely azonosítja a területen való jelenlétét. Kövesse az alábbi lépéseket egy ehhez hasonló rendszer felépítéséhez:

Telepítsen kamerákat a figyelni kívánt területre.
Töltse le az összes videót, és mentse el.
Hozzon létre egy Python alkalmazást a bejövő képek elemzéséhez és a vadon élő állatok azonosításához.

A Microsoft egy képfelismerő API-t épített fel a vadkamerákból gyűjtött adatok felhasználásával. Kiadtak egy nyílt forráskódú előre betanított modellt erre a célra, MegaDetector néven.

Ezt az előre betanított modellt a Python alkalmazásban használhatja a vadon élő állatok azonosítására az összegyűjtött képek alapján. Ez az egyik legizgalmasabb ML projekt, amelyet eddig említettek, és meglehetősen egyszerűen megvalósítható, mivel rendelkezésre áll egy erre a célra előkészített modell.

API-k: MegaDetector

4. Spotify Music Recommender System

A Spotify mesterséges intelligencia segítségével ajánl zenét felhasználóinak. Megpróbálhat felépíteni egy ajánlórendszert a Spotifyon nyilvánosan elérhető adatok alapján.

A Spotify rendelkezik egy API-val, amellyel hangadatokat kérhet le – olyan funkciókat találhat, mint a megjelenés éve, kulcsa, népszerűsége és előadója. Az API Pythonban való eléréséhez használhatja a Spotipy nevű könyvtárat.

A Spotify adatkészletet is használhatja a Kaggle-en, amely körülbelül 600 XNUMX sort tartalmaz. Ezen adatkészletek segítségével minden felhasználó kedvenc zenészének ajánlhatja a legjobb alternatívát. Emellett daljavaslatokat is készíthet az egyes felhasználók által preferált tartalom és műfaj alapján.

Ez az ajánlórendszer K-Means klaszterezéssel építhető fel – a hasonló adatpontok csoportosítva lesznek. Olyan dalokat ajánlhat a végfelhasználónak, amelyek között minimális a fürtön belüli távolság.

Miután elkészítette az ajánlórendszert, egy egyszerű Python-alkalmazássá is alakíthatja, és üzembe helyezheti. Megkérheti a felhasználókat, hogy írják be kedvenc dalaikat a Spotify-on, majd jelenítsék meg a képernyőn a modelljavaslatokat, amelyek a legnagyobb hasonlóságot mutatnak az általuk kedvelt dalokkal.

Adatbázis: Kaggle Spotify adatkészlet

5. Piaci kosárelemzés

A piaci kosárelemzés egy népszerű technika, amelyet a kiskereskedők használnak az együtt értékesíthető termékek azonosítására.

Például:

Néhány évvel ezelőtt egy kutató elemző összefüggést azonosított a sör és a pelenka eladásai között. Legtöbbször, amikor egy vásárló bement a boltba sört venni, együtt vett pelenkát is.

Ennek köszönhetően az üzletek egy folyosón kezdték el a sört és a pelenkát együtt árusítani, az eladások növelését célzó marketingstratégiaként. És működött.

Feltételezték, hogy a sör és a pelenka között nagy az összefüggés, mivel a férfiak gyakran vásárolták együtt. A férfiak besétáltak az üzletbe, hogy vegyenek egy sört, valamint számos egyéb háztartási eszközt a családjuk számára (beleértve a pelenkákat is). Ez eléggé lehetetlen összefüggésnek tűnik, de megtörtént.

A piaci kosárelemzés segíthet a vállalatoknak azonosítani a rejtett összefüggéseket a gyakran együtt vásárolt termékek között. Ezek az üzletek ezután úgy helyezhetik el áruikat, hogy az emberek könnyebben megtalálják azokat.

Használhatja a Kaggle Market Basket Optimization adatkészletét a modell felépítéséhez és betanításához. A piaci kosárelemzés végrehajtásához leggyakrabban használt algoritmus az Apriori algoritmus.

Adatbázis: Kaggle piaci kosár optimalizálási adatkészlet

6. NYC Taxi utazás időtartama

Az adatkészlet olyan változókkal rendelkezik, amelyek tartalmazzák a taxiút kezdő- és végkoordinátáit, az időt és az utasok számát. Ennek az ML projektnek az a célja, hogy megjósolja az utazás időtartamát mindezekkel a változókkal. Ez egy regressziós probléma.

Az olyan változókat, mint az idő és a koordináták, megfelelően elő kell feldolgozni, és át kell alakítani érthető formátumba. Ez a projekt nem olyan egyszerű, mint amilyennek látszik. Ez az adatkészlet is tartalmaz néhány kiugró értéket, amelyek bonyolultabbá teszik az előrejelzést, ezért ezt funkciótervezési technikákkal kell kezelnie.

A NYC Taxi Trip Kaggle Verseny értékelési kritériumai az RMSLE vagy a Root Mean Squared Log Error. A Kaggle-re vonatkozó legjobb beadvány 0.29-es RMSLE-pontszámot kapott, a Kaggle alapmodelljének RMSLE-értéke pedig 0.89.

Bármilyen regressziós algoritmust használhat a Kaggle projekt megoldásához, de a kihívás legjobban teljesítő versenytársai vagy gradiensnövelő modelleket vagy mély tanulási technikákat alkalmaztak.

Adatbázis: Kaggle NYC Taxi utazás időtartama adatkészlet

7. Valós idejű spamészlelés

Ebben a projektben gépi tanulási technikákat használhat a spam (illegitim) és a ham (legitim) üzenetek megkülönböztetésére.

Ennek eléréséhez használhatja a Kaggle SMS Spam Collection adatkészletet. Ez az adatkészlet körülbelül 5 XNUMX üzenetet tartalmaz, amelyek spamként vagy hamvazóként vannak megjelölve.

Valós idejű spamészlelő rendszer felépítéséhez a következő lépéseket teheti:

Használja a Kaggle SMS Spam Collection adatkészletét a gépi tanulási modell betanításához.
Hozzon létre egy egyszerű chat-szoba szervert a Pythonban.
Telepítse a gépi tanulási modellt a csevegőszoba-kiszolgálón, és biztosítsa, hogy minden bejövő forgalom áthaladjon a modellen.
Csak akkor engedje át az üzeneteket, ha azok sonkaként vannak besorolva. Ha spam, küldjön helyette hibaüzenetet.

A gépi tanulási modell felépítéséhez először elő kell feldolgoznia a Kaggle SMS Spam Collection adatkészletében található szöveges üzeneteket. Ezután alakítsa át ezeket az üzeneteket egy zsáknyi szavakká, hogy könnyen átvihetők legyenek az előrejelzéshez szükséges osztályozási modellbe.

Adatbázis: Kaggle SMS-levélszemét-gyűjtési adatkészlet

8. Myers-Briggs Personality Prediction App

Létrehozhat egy alkalmazást, amely megjósolja a felhasználó személyiségtípusát a mondandójuk alapján.

A Myers-Briggs típusjelző 16 különböző személyiségtípusba sorolja az egyéneket. Ez az egyik legnépszerűbb személyiségteszt a világon.

Ha az interneten próbálja megtalálni a személyiségtípusát, sok online kvízt fog találni. Körülbelül 20-30 kérdés megválaszolása után besorolunk egy személyiségtípusba.

Ebben a projektben azonban a gépi tanulás segítségével megjósolhatja bárki személyiségtípusát egyetlen mondat alapján.

Íme a lépések, amelyeket megtehet ennek eléréséhez:

Hozzon létre egy többosztályú osztályozási modellt, és tanítsa be a Myers-Briggs adatkészleten a Kaggle-en. Ez magában foglalja az adatok előfeldolgozását (a stopszavak és a szükségtelen karakterek eltávolítását), valamint bizonyos funkciók tervezését. Erre a célra használhat sekély tanulási modellt, például logisztikus regressziót, vagy mély tanulási modellt, például LSTM-et.
Létrehozhat olyan alkalmazást, amely lehetővé teszi a felhasználók számára, hogy tetszőleges mondatot írjanak be.
Mentse el a gépi tanulási modell súlyait, és integrálja a modellt az alkalmazásba. Miután a végfelhasználó beírt egy szót, jelenítse meg személyiségtípusát a képernyőn, miután a modell előrejelzést adott.

Adatbázis: Kaggle MBTI típusú adatkészlet

9. Hangulatfelismerő rendszer + ajánlórendszer

Volt már valaha szomorú, és úgy érezte, meg kell néznie valami vicceset, hogy felvidítsa? Vagy érezte már magát olyan frusztráltnak, hogy lazítania kellett, és valami pihentetőt nézni?

Ez a projekt két kisebb projekt kombinációja.

Létrehozhat olyan alkalmazást, amely felismeri a felhasználó hangulatát élő internetes felvételek alapján, és filmjavaslatot a felhasználó arckifejezése alapján.

Ennek felépítéséhez a következő lépéseket teheti:

Hozzon létre egy alkalmazást, amely képes fogadni az élő videót.
Használja a Python arcfelismerő API-ját az arcok és érzelmek észlelésére a videó feedben lévő objektumokon.
Miután ezeket az érzelmeket különböző kategóriákba sorolta, kezdje el felépíteni az ajánlórendszert. Ez lehet keménykódolt értékkészlet minden egyes érzelemhez, ami azt jelenti, hogy nem kell gépi tanulást bevonnia az ajánlásokhoz.
Miután elkészült az alkalmazással, üzembe helyezheti azt Heroku, Dash vagy webszerveren.

API-k: Arcfelismerő API

10. YouTube-hozzászólás-hangulatelemzés

Ebben a projektben létrehozhat egy irányítópultot, amely elemzi a népszerű YouTube-felhasználók általános hangulatát.

Több mint 2 milliárd felhasználó néz YouTube-videókat legalább havonta egyszer. A népszerű YouTube-felhasználók több százmilliárd megtekintést érnek el tartalmaikkal. Azonban ezek közül a befolyásolók közül sokan a múltbeli viták miatt kerültek kritikák alá, és a közvélemény folyamatosan változik.

Létrehozhat egy hangulatelemzési modellt, és létrehozhat egy irányítópultot, amellyel megjelenítheti a hírességek körüli érzelmeket az idő múlásával.

Ennek felépítéséhez a következő lépéseket teheti:

Írd le az elemezni kívánt YouTube-felhasználók megjegyzéseit a videókhoz.
Használjon előre betanított hangulatelemzési modellt az egyes megjegyzésekre vonatkozó előrejelzések készítéséhez.
Képzelje el a modell előrejelzéseit az irányítópulton. Akár irányítópult-alkalmazást is létrehozhat olyan könyvtárak használatával, mint a Dash (Python) vagy a Shiny (R).
Az irányítópultot interaktívvá teheti, ha lehetővé teszi a felhasználók számára, hogy időkeret, YouTube-felhasználó neve és videó műfaja alapján szűrjék a hangulatot.

API-k: YouTube Comment Scraper

Összegzésként

A gépi tanulási iparág hatalmas és tele van lehetőségekkel. Ha formális oktatási háttér nélkül szeretne betörni az iparágba, akkor a legjobb módja annak, hogy megmutassa, hogy rendelkezik a munka elvégzéséhez szükséges készségekkel, projekteken keresztül.

A legtöbb fent felsorolt projekt gépi tanulási aspektusa meglehetősen egyszerű. A gépi tanulás demokratizálódása miatt a modellépítési folyamat könnyen megvalósítható előre betanított modellekkel és API-kkal.

A nyílt forráskódú mesterséges intelligencia projektek, mint például a Keras és a FastAI, szintén segítettek felgyorsítani a modellépítési folyamatot. A trükkös része ezeknek a gépi tanulásnak és adattudományi projektek az adatgyűjtés, az előfeldolgozás és a telepítés. Ha munkát kap a gépi tanulás területén, a legtöbb algoritmus elkészítése nagyon egyszerű lesz. Mindössze egy-két napba telik egy értékesítési előrejelzési modell létrehozása. Ideje nagy részét a megfelelő adatforrások megtalálásával és a modellek gyártásba helyezésével tölti, hogy üzleti értéket nyerjen.

eredeti. Engedéllyel újra közzétéve.

Kapcsolódó:

= Előző üzenet

Következő üzenet =>

Legnépszerűbb történetek az elmúlt 30 napból

Legnepszerubb
Olvas Excel fájlokat Python segítségével? Létezik 1000x gyorsabb út A Microsoft Excel és a Word automatizálása Python használatával Az adatmérnöki készségekkel nem rendelkező adattudósok szembesülnek a kemény igazsággal Lenyűgöző webalkalmazások létrehozása adattudományi projektjeihez Adattudományi portfólió, amely megadja a munkát

Leginkább megosztott
A Machine & Deep Learning Compendium nyitott könyve Az adatmérnöki készségekkel nem rendelkező adattudósok szembesülnek a kemény igazsággal A hipotézisvizsgálat magyarázata Data Science Cheat Sheet 2.0 8 mélytanulási projektötlet kezdőknek