20 de proiecte de învățare automată care te vor angaja
Dacă doriți să pătrundeți pe piața muncii în învățarea automată și în știința datelor, atunci va trebui să demonstrați competența abilităților dvs., mai ales dacă sunteți autodidact prin cursuri online și bootcamp-uri. Un portofoliu de proiecte este o modalitate excelentă de a vă exersa noua meserie și de a oferi dovezi convingătoare că un angajat ar trebui să vă angajeze față de concurență.
By Khushbu Shah, Content Manager la ProjectPro.
Industria AI și Machine Learning este în plină expansiune ca niciodată. Începând cu 2021, creșterea utilizării AI în cadrul companiilor va crea o valoare comercială de 2.9 trilioane USD. AI a automatizat multe industrii de pe tot globul și a schimbat modul în care funcționează. Majoritatea companiilor mari încorporează AI pentru a maximiza productivitatea în fluxul lor de lucru, iar industrii precum marketingul și asistența medicală au suferit o schimbare de paradigmă datorită consolidării AI.
Sursa imaginii: Unsplash
Datorită acestui fapt, a existat o cerere tot mai mare în ultimii ani pentru profesioniștii AI. Din 100 până în 2015, a existat o creștere de aproape 2018% a postărilor de locuri de muncă legate de IA și învățarea automată. Acest număr a crescut de atunci și se preconizează că va crește în 2021.
Dacă doriți să pătrundeți în industria învățării automate, vestea bună este că nu există lipsă de locuri de muncă disponibile. Companiile au nevoie de o forță de muncă talentată, capabilă să fie pionierat în trecerea la învățarea automată. Cu toate acestea, piața muncii este infiltrată de oameni care doresc să pătrundă în industria datelor. Deoarece niciun program de studii specific nu se adresează studenților care doresc să învețe învățarea automată, mulți practicieni ML aspiranți sunt autodidacți.
Există peste 4 milioane de studenți înscriși la cursul online de învățare automată al lui Andrew Ng.
Din păcate, înscrierea la cursuri online sau participarea la un bootcamp de învățare automată te ajută să înveți conceptele teoretice, dar nu te pregătește pentru un loc de muncă în industrie. Există mult mai mult lucru practic de făcut, după ce am învățat teoria. Să presupunem că cunoașteți elementele de bază ale algoritmilor de învățare automată — înțelegeți cum funcționează modelele de regresie și clasificare și cunoașteți diferitele tipuri de metode de grupare.
Cum vei exersa abilitățile pe care le-ai învățat pentru a rezolva o problemă din viața reală? Răspunsul simplu este: Practică, Practică și Practică diverse proiecte de învățare automată.
Odată ce ați terminat de învățat concepte teoretice, ar trebui să începeți să lucrați la proiecte de AI și de învățare automată. Aceste proiecte vă vor oferi practica necesară pentru a vă perfecționa abilitățile în domeniu și, în același timp, reprezintă o valoare adăugată mare pentru portofoliul dvs. de învățare automată.
Fără prea multă grămadă, haideți să explorăm câteva idei de proiecte ML care nu doar că vă vor face portofoliul să arate bine, ci și vă vor îmbunătăți semnificativ abilitățile de învățare automată. Aceasta este o listă organizată cu unele dintre cele mai bune proiecte de învățare automată pentru studenți, practicieni aspiranți ai învățării automate și persoane din domenii non-tehnice. Puteți lucra la aceste proiecte indiferent de antecedentele dvs., atâta timp cât aveți abilități de codificare și cunoștințe de învățare automată. Aceasta este o listă de proiecte de învățare automată la nivel începător și avansat.
Dacă sunteți nou în industria datelor și aveți puțină experiență cu proiectele din viața reală, începeți cu proiecte ML la nivel de începător înainte de a trece la cele mai provocatoare.
Proiecte de învățare automată pentru începători
1. Kaggle Titanic Prediction
Primul proiect de pe această listă este unul dintre cele mai simple proiecte ML pe care le puteți prelua. Acest proiect este recomandat pentru a completa începătorii din industria datelor. Setul de date Titanic este disponibil pe Kaggle, iar linkul pentru a-l descărca este dat mai jos.
Acest set de date este al pasagerilor care au călătorit pe Titanic. Are detalii precum vârsta pasagerului, tariful biletului, cabina și sexul. Pe baza acestor informații, va trebui să preziceți dacă acești pasageri au supraviețuit sau nu.
Este o problemă simplă de clasificare binară și tot ce trebuie să faceți este să preziceți dacă un anumit pasager a supraviețuit. Cel mai bun lucru despre acest set de date este că toată preprocesarea este făcută pentru dvs. Aveți un set de date frumos și curat pentru a vă instrui modelul de învățare automată.
Deoarece aceasta este o problemă de clasificare, puteți alege să utilizați algoritmi precum regresia logistică, arbori de decizie și păduri aleatorii pentru a construi modelul predictiv. De asemenea, puteți alege modele de creștere a gradientului, cum ar fi un clasificator XGBoost, pentru acest proiect de învățare automată la nivel de începător, pentru a obține rezultate mai bune.
Set de date: Setul de date Kaggle Titanic
2. Predicția prețului casei
Datele despre prețurile caselor sunt, de asemenea, grozave pentru a începe, dacă sunteți începător la învățarea automată. Acest proiect va folosi setul de date privind prețurile caselor disponibile pe Kaggle. Variabila țintă din acest set de date este prețul unei anumite case, pe care va trebui să-l preziceți folosind informații precum suprafața casei, numărul de dormitoare, numărul de băi și utilitățile.
Este o problemă de regresie și puteți utiliza tehnici precum regresia liniară pentru a construi modelul. Puteți, de asemenea, să adoptați o abordare mai avansată și să utilizați un regresor forestier aleatoriu sau o creștere a gradientului pentru a prezice prețurile caselor.
Acest set de date are 80 de coloane, excluzând variabila țintă. Va trebui să folosiți câteva tehnici de reducere a dimensionalității pentru a alege manual caracteristicile, deoarece adăugarea prea multor variabile poate face ca modelul dvs. să funcționeze slab.
Există, de asemenea, multe variabile categoriale în setul de date, așa că trebuie să le tratați în mod corespunzător folosind tehnici precum codificarea one-hot sau codificarea etichetei.
După construirea modelului, vă puteți trimite previziunile la competiția de prețuri pentru case din Kaggle, deoarece este încă deschis. Cel mai bun RMSE obținut de concurenți este 0, iar mulți oameni au obținut rezultate bune precum 0.15 cu ajutorul tehnicilor de regresie și de creștere a gradientului.
Set de date: Setul de date de predicție a prețului casei Kaggle
3. Predicția calității vinului
Setul de date de predicție a calității vinului este, de asemenea, foarte popular printre începătorii din industria datelor. În acest proiect, veți folosi aciditatea fixă, aciditatea volatilă, alcoolul și densitatea pentru a prezice calitatea vinului roșu.
Aceasta poate fi tratată fie ca o problemă de clasificare, fie de regresie. The calitatea vinului variabila pe care trebuie să o preziceți în setul de date variază de la 0 la 10, astfel încât să puteți construi un model de regresie pentru a prezice. O altă abordare pe care o puteți lua este să descompuneți valorile (de la 0 la 10) în intervale discrete și să le convertiți în variabile categoriale. Puteți crea trei categorii, de exemplu — scăzut, mediu, și înalt.
Puteți construi apoi un clasificator de arbore de decizie sau orice model de clasificare pentru a face predicția. Este un set de date relativ curat și simplu pentru a vă exersa abilitățile de învățare automată de regresie și clasificare.
Set de date: Set de date privind calitatea vinului roșu Kaggle
4. Predicția bolilor de inimă
Dacă doriți să explorați un set de date în industria sănătății, acesta este un set de date excelent pentru începători. Acest set de date este utilizat pentru a prezice riscul pe 10 ani de CHD (Boala coronariană). Variabilele dependente din acest set de date sunt factorii de risc ai bolilor de inimă, inclusiv diabetul, fumatul, hipertensiunea arterială și nivelurile ridicate ale colesterolului.
Variabila independentă este riscul de CHD pe 10 ani. Este o problemă de clasificare binară, iar variabila țintă este fie 0, fie 1–0 pentru pacienții care nu au dezvoltat niciodată boli de inimă și 1 pentru pacienții care au făcut-o. Puteți selecta anumite caracteristici pe acest set de date pentru a identifica caracteristicile care contribuie cel mai mult la riscul cardiac. Apoi, puteți potrivi un model de clasificare pe variabilele independente.
Acest set de date este foarte dezechilibrat, deoarece mulți dintre pacienții din acest set de date au făcut-o nu dezvolta boli de inima. Un set de date dezechilibrat trebuie gestionat folosind tehnicile potrivite de inginerie a caracteristicilor, cum ar fi supraeșantionarea, reglarea ponderii sau subeșantionarea. Dacă nu este tratat corespunzător, veți ajunge cu un model care pur și simplu prezice clasa majoritară pentru fiecare punct de date și nu poate identifica pacienții care a făcut dezvolta boli de inima. Acesta este un set de date excelent pentru a vă exersa abilitățile de inginerie a caracteristicilor și de învățare automată.
Set de date: Setul de date Kaggle asupra bolilor cardiace
5. Clasificarea cifrelor MNIST
MNIST setul de date este piatra ta de temelie în domeniul învățării profunde. Acest set de date constă din imagini în tonuri de gri ale cifrelor scrise de mână de la 0 la 9. Sarcina dvs. ar fi să identificați cifra folosind un algoritm de învățare profundă. Aceasta este o problemă de clasificare cu mai multe clase cu zece clase posibile de ieșire. Puteți utiliza o CNN (Convolutional Neural Network) pentru a efectua această clasificare.
Setul de date MNIST este construit în biblioteca Keras în Python. Tot ce trebuie să faceți este să instalați Keras, să importați biblioteca și să încărcați setul de date. Acest set de date are aproximativ 60,000 de imagini, astfel încât să puteți folosi aproximativ 80% din aceste imagini pentru antrenament și alte 20% pentru testare.
Set de date: Setul de date Kaggle Digit Recognizer
6. Analiza sentimentelor datelor Twitter
Există multe seturi de date de analiză a sentimentelor Twitter disponibile pe Kaggle. Unul dintre cele mai populare seturi de date se numește sentiment140, care conține 1.6 milioane de tweet-uri preprocesate. Acesta este un set de date excelent pentru a începe dacă sunteți nou în analiza sentimentelor.
Aceste Tweeturi au fost adnotate, iar variabila țintă este sentimentul. Valorile unice din această coloană sunt 0 (negativ), 2 (neutru) și 4 (pozitiv).
După preprocesarea acestor tweet-uri și convertirea lor în vectori, puteți folosi un model de clasificare pentru a le instrui cu sentimentul asociat. Puteți utiliza algoritmi precum regresia logistică, clasificatorul arborelui de decizie sau clasificatorul XGBoost pentru această sarcină.
O altă alternativă este utilizarea unui model de învățare profundă precum LSTM pentru a veni cu predicția sentimentului. Cu toate acestea, aceasta este o abordare puțin mai provocatoare și se încadrează în categoria proiectelor avansate.
De asemenea, puteți utiliza acest set de date etichetat ca bază pentru sarcini viitoare de analiză a sentimentelor.
Dacă aveți tweet-uri pe care doriți să le colectați și să efectuați o analiză a sentimentelor, puteți utiliza un model care a fost antrenat anterior pe sentiment140 pentru a face previziuni viitoare.
Set de date: Kaggle Sentiment140 Dataset
7. Pima Indian Diabet Prediction
Setul de date Pima Indian Diabetes este utilizat pentru a prezice dacă un pacient are diabet zaharat pe baza măsurătorilor de diagnosticare.
Pe baza unor variabile precum IMC, vârstă și insulină, modelul va prezice diabetul la pacienți. Acest set de date are nouă variabile - opt variabile independente și o variabilă țintă.
Variabila țintă este „Diabet', deci vei prezice 1 pentru prezența diabetului sau 0 pentru absența diabetului.
Aceasta este o problemă de clasificare pentru a experimenta modele precum regresia logistică, clasificatorul arborelui de decizie sau clasificatorul de pădure aleatoriu.
Toate variabilele independente din acest set de date sunt numerice, deci acesta este un set de date grozav pentru a începe dacă aveți o experiență minimă în inginerie de caracteristici.
Acesta este un set de date Kaggle deschis pentru începători. Există multe tutoriale online care vă ghidează prin codificarea soluției în Python și R. Aceste tutoriale pentru notebook sunt o modalitate excelentă de a învăța și de a vă murdari mâinile, astfel încât să puteți trece la proiecte mai complexe.
Set de date: Kaggle Pima Indian Diabet Dataset
8. Clasificarea cancerului de sân
Setul de date de clasificare a cancerului de sân de pe Kaggle este o altă modalitate excelentă de a vă exersa abilitățile de învățare automată și AI.
Cele mai multe probleme de învățare automată supravegheate din lumea reală sunt probleme de clasificare ca aceasta. O provocare cheie în identificarea cancerului de sân este incapacitatea de a distinge între tumorile benigne (non-canceroase) și maligne (canceroase). Setul de date are variabile precum „radius_mean” și „area_mean” ale tumorii și va trebui să clasificați pe baza acestor caracteristici dacă o tumoare este canceroasă sau nu. Acest set de date este relativ ușor de lucrat, deoarece nu este nevoie să faceți nicio preprocesare semnificativă a datelor. Este, de asemenea, un set de date bine echilibrat, făcându-vă sarcina mai ușor de gestionat, deoarece nu trebuie să faceți multă inginerie a caracteristicilor.
Antrenarea unui clasificator de regresie logistică simplă pe acest set de date vă poate oferi o precizie de până la 0.90.
Set de date: Setul de date de clasificare a cancerului de sân Kaggle
9. TMDB Box Office Prediction
Acest set de date Kaggle este o modalitate excelentă de a vă exersa abilitățile de regresie. Este format din aproximativ 7000 de filme și va trebui să utilizați variabilele prezente pentru a estima veniturile filmului.
Datele prezente includ distribuția, echipa, bugetul, limbile și datele de lansare. Există 23 de variabile în setul de date, dintre care una este variabila țintă.
Un model de regresie liniară de bază vă poate oferi un R pătrat de peste 0.60, așa că îl puteți utiliza ca model de predicție de bază. Încercați să depășiți acest scor folosind tehnici precum regresia XGBoost sau Light GBM.
Acest set de date este puțin mai complex decât cel anterior, deoarece unele coloane au date prezente în dicționare imbricate. Trebuie să faceți o preprocesare suplimentară pentru a extrage aceste date într-un format utilizabil pentru a antrena un model pe ele.
Prognoza veniturilor este un proiect grozav de prezentat în portofoliul dvs., deoarece oferă valoare de afaceri pentru o varietate de domenii din afara industriei cinematografice.
Set de date: Kaggle TMDB Box Office Prediction Dataset
10. Segmentarea clienților în Python
Setul de date de segmentare a clienților de pe Kaggle este o modalitate excelentă de a începe cu învățarea automată nesupravegheată. Acest set de date constă în detalii despre clienți precum vârsta, sexul, venitul anual și scorul de cheltuieli.
Trebuie să utilizați aceste variabile pentru a construi segmente de clienți. Clienții care sunt la fel ar trebui grupați în grupuri similare. Puteți utiliza algoritmi precum clustering K-Means sau clustering ierarhic pentru această sarcină. Modelele de segmentare a clienților pot oferi valoare afacerii.
Companiile doresc adesea să-și separe clienții pentru a veni cu tehnici de marketing diferite pentru fiecare tip de client.
Principalele obiective ale acestui set de date includ:
- Realizarea segmentării clienților folosind tehnici de învățare automată
- Identificați clienții țintă pentru diferite strategii de marketing
- Înțelegeți cum funcționează strategiile de marketing în lumea reală
Construirea unui model de grupare pentru această sarcină vă poate ajuta portofoliul să iasă în evidență, iar segmentarea este o abilitate excelentă de avut dacă doriți să obțineți un loc de muncă legat de inteligența artificială în industria de marketing.
Set de date: Set de date de segmentare a clienților Kaggle Mall
Proiecte de învățare automată la nivel intermediar/avansat pentru CV-ul dvs
După ce ați terminat de lucrat la proiecte simple de învățare automată, cum ar fi cele enumerate mai sus, puteți trece la proiecte mai provocatoare.
1. Prognoza vânzărilor
Prognoza în serie de timp este o tehnică de învățare automată folosită foarte des în industrie. Utilizarea datelor anterioare pentru a prezice vânzările viitoare are un număr mare de cazuri de utilizare în afaceri. Setul de date Kaggle Demand Forecasting poate fi folosit pentru a practica acest proiect.
Acest set de date are 5 ani de date de vânzări și va trebui să preziceți vânzările pentru următoarele trei luni. Există zece magazine diferite listate în setul de date și există 50 de articole la fiecare magazin.
Pentru a prezice vânzările, puteți încerca diverse metode — ARIMA, Autoregresiune vectorială sau învățare profundă. O metodă pe care o puteți folosi pentru acest proiect este să măsurați creșterea vânzărilor pentru fiecare lună și să o înregistrați. Apoi, construiți modelul pe diferența dintre vânzările din luna precedentă și luna curentă. Luarea în considerare a unor factori precum vacanțele și sezonalitatea poate îmbunătăți performanța modelului dvs. de învățare automată.
Set de date: Prognoza cererii de articole din magazinul Kaggle
2. Chatbot de serviciu pentru clienți
Un chatbot de serviciu pentru clienți folosește AI și tehnici de învățare automată pentru a răspunde clienților, luând rolul unui reprezentant uman. Un chatbot ar trebui să poată răspunde la întrebări simple pentru a satisface nevoile clienților.
În prezent, există trei tipuri de chatbot pe care le puteți construi:
- Chatbot-uri bazate pe reguli — Acești chatbot-uri nu sunt inteligenți. Aceștia sunt alimentați cu un set de reguli predefinite și răspund utilizatorilor numai pe baza acestor reguli. Unii chatboți sunt, de asemenea, furnizați cu un set predefinit de întrebări și răspunsuri și nu pot răspunde la întrebări care nu se încadrează în acest domeniu.
- Chatbot independenți — Chatbot independenți utilizează învățarea automată pentru a procesa și analiza solicitarea unui utilizator și pentru a oferi răspunsuri în consecință.
- Chatbot-uri NLP — Acești chatbot-uri pot înțelege modelele în cuvinte și pot distinge între diferite combinații de cuvinte. Sunt cele mai avansate dintre toate cele trei tipuri de chatbot, deoarece pot veni cu ce să spună în continuare pe baza tiparelor de cuvinte pe care au fost instruiți.
Un chatbot NLP este o idee interesantă de proiect de învățare automată. Veți avea nevoie de un corp de cuvinte existent pentru a vă instrui modelul și puteți găsi cu ușurință biblioteci Python pentru a face acest lucru. De asemenea, puteți avea un dicționar predefinit cu o listă de perechi de întrebări și răspunsuri pe care doriți să le antrenați modelul.
3. Sistemul de detectare a obiectelor faunei sălbatice
Dacă locuiți într-o zonă cu observare frecventă de animale sălbatice, este util să implementați un sistem de detectare a obiectelor pentru a identifica prezența acestora în zona dvs. Urmați acești pași pentru a construi un sistem ca acesta:
- Instalați camere în zona pe care doriți să o monitorizați.
- Descărcați toate înregistrările video și salvați-le.
- Creați o aplicație Python pentru a analiza imaginile primite și pentru a identifica animalele sălbatice.
Microsoft a creat un API de recunoaștere a imaginilor folosind date colectate de la camerele pentru animale sălbatice. Ei au lansat un model open-source pre-antrenat în acest scop, numit MegaDetector.
Puteți utiliza acest model pre-antrenat în aplicația dvs. Python pentru a identifica animalele sălbatice din imaginile colectate. Este unul dintre cele mai interesante proiecte ML menționate până acum și este destul de simplu de implementat datorită disponibilității unui model pre-antrenat în acest scop.
API-uri: MegaDetector
4. Sistemul de recomandare muzicală Spotify
Spotify folosește AI pentru a recomanda muzică utilizatorilor săi. Puteți încerca să construiți un sistem de recomandare bazat pe date disponibile public pe Spotify.
Spotify are un API pe care îl puteți folosi pentru a prelua date audio - puteți găsi funcții precum anul lansării, cheia, popularitatea și artistul. Pentru a accesa acest API în Python, puteți utiliza o bibliotecă numită Spotipy.
De asemenea, puteți utiliza setul de date Spotify pe Kaggle, care are aproximativ 600 de rânduri. Folosind aceste seturi de date, puteți sugera cea mai bună alternativă muzicianului preferat al fiecărui utilizator. De asemenea, puteți veni cu recomandări de melodii bazate pe conținutul și genul preferat de fiecare utilizator.
Acest sistem de recomandare poate fi construit folosind gruparea K-Means — puncte de date similare vor fi grupate. Puteți recomanda utilizatorului final melodii cu o distanță minimă în interiorul grupului.
Odată ce ați construit sistemul de recomandare, îl puteți, de asemenea, să îl transformați într-o aplicație Python simplă și să o implementați. Puteți determina utilizatorii să introducă melodiile lor preferate pe Spotify, apoi să afișeze pe ecran recomandările dvs. de model care au cea mai mare asemănare cu melodiile pe care le-au plăcut.
Set de date: Setul de date Kaggle Spotify
5. Analiza coșului de piață
Analiza coșului de piață este o tehnică populară folosită de comercianți cu amănuntul pentru a identifica articolele care pot fi vândute împreună.
De exemplu:
Cu câțiva ani în urmă, un analist de cercetare a identificat o corelație între vânzările de bere și scutece. De cele mai multe ori, ori de câte ori un client intra în magazin să cumpere o bere, cumpărau împreună și scutece.
Datorită acestui fapt, magazinele au început să vândă bere și scutece împreună pe același culoar ca strategie de marketing pentru a crește vânzările. Și a funcționat.
Se presupunea că berea și scutecele au o corelație ridicată, deoarece bărbații le cumpărau frecvent împreună. Bărbații intrau în magazin pentru a cumpăra o bere, împreună cu câteva alte articole de uz casnic pentru familia lor (inclusiv scutece). Aceasta pare o corelare destul de imposibilă, dar s-a întâmplat.
Analiza coșului de piață poate ajuta companiile să identifice corelațiile ascunse între articolele care sunt adesea cumpărate împreună. Aceste magazine își pot poziționa apoi articolele într-un mod care să le permită oamenilor să le găsească mai ușor.
Puteți utiliza setul de date de optimizare a coșului de piață de pe Kaggle pentru a vă construi și a vă instrui modelul. Algoritmul cel mai des folosit pentru a efectua analiza coșului de piață este algoritmul Apriori.
Set de date: Setul de date de optimizare a coșului de piață Kaggle
6. Durata călătoriei cu taxiul NYC
Setul de date are variabile care includ coordonatele de început și de sfârșit ale unei călătorii cu taxiul, timpul și numărul de pasageri. Scopul acestui proiect ML este de a prezice durata călătoriei cu toate aceste variabile. Este o problemă de regresie.
Variabile precum timpul și coordonatele trebuie preprocesate în mod corespunzător și convertite într-un format ușor de înțeles. Acest proiect nu este atât de simplu pe cât pare. Acest set de date are, de asemenea, unele valori aberante care fac predicția mai complexă, așa că va trebui să gestionați acest lucru cu tehnici de inginerie a caracteristicilor.
Criteriile de evaluare pentru această competiție NYC Taxi Trip Kaggle este RMSLE sau Root Mean Squared Log Error. Trimiterea de top pe Kaggle a primit un scor RMSLE de 0.29, iar modelul de bază al lui Kaggle are un RMSLE de 0.89.
Puteți folosi orice algoritm de regresie pentru a rezolva acest proiect Kaggle, dar cei mai performanti concurenți ai acestei provocări au folosit fie modele de creștere a gradientului, fie tehnici de deep learning.
Set de date: Set de date Kaggle NYC Taxi Durata călătoriei
7. Detectare spam în timp real
În acest proiect, puteți utiliza tehnici de învățare automată pentru a distinge între mesajele spam (ilegitime) și mesajele ham (legitime).
Pentru a realiza acest lucru, puteți utiliza setul de date Kaggle SMS Spam Collection. Acest set de date conține un set de aproximativ 5 de mesaje care au fost etichetate ca spam sau ham.
Puteți face următorii pași pentru a construi un sistem de detectare a spam-ului în timp real:
- Utilizați setul de date SMS Spam Collection de la Kaggle pentru a antrena un model de învățare automată.
- Creați un server simplu de cameră de chat în Python.
- Implementați modelul de învățare automată pe serverul dvs. de chat și asigurați-vă că tot traficul de intrare trece prin model.
- Permiteți trecerea mesajelor numai dacă sunt clasificate ca șuncă. Dacă sunt spam, returnați un mesaj de eroare.
Pentru a construi modelul de învățare automată, mai întâi trebuie să preprocesați mesajele text prezente în setul de date Kaggle SMS Spam Collection. Apoi, convertiți aceste mesaje într-o pungă de cuvinte, astfel încât să poată fi trecute cu ușurință în modelul dvs. de clasificare pentru predicție.
Set de date: Kaggle SMS Spam Collection Dataset
8. Aplicația Myers-Briggs de predicție a personalității
Puteți crea o aplicație pentru a prezice tipul de personalitate al unui utilizator pe baza a ceea ce spune acesta.
Indicatorul de tip Myers-Briggs clasifică indivizii în 16 tipuri diferite de personalitate. Este unul dintre cele mai populare teste de personalitate din lume.
Dacă încerci să-ți găsești tipul de personalitate pe Internet, vei găsi multe chestionare online. După ce ai răspuns la aproximativ 20–30 de întrebări, vei fi repartizat unui tip de personalitate.
Cu toate acestea, în acest proiect, puteți folosi învățarea automată pentru a prezice tipul de personalitate al oricui doar pe baza unei singure propoziții.
Iată pașii pe care îi puteți face pentru a realiza acest lucru:
- Construiți un model de clasificare cu mai multe clase și antrenați-l pe setul de date Myers-Briggs pe Kaggle. Aceasta implică preprocesarea datelor (eliminarea cuvintelor oprite și a caracterelor inutile) și unele caracteristici de inginerie. În acest scop, puteți utiliza un model de învățare superficial, cum ar fi regresia logistică, sau un model de învățare profundă, cum ar fi un LSTM.
- Puteți crea o aplicație care permite utilizatorilor să introducă orice propoziție la alegere.
- Salvați greutățile modelului de învățare automată și integrați modelul cu aplicația dvs. După ce utilizatorul final introduce un cuvânt, afișați tipul de personalitate pe ecran după ce modelul face o predicție.
Set de date: Kaggle MBTI Type Dataset
9. Sistem de recunoaștere a dispoziției + Sistem de recomandare
Ai fost vreodată trist și ai simțit că trebuie să urmărești ceva amuzant pentru a te înveseli? Sau te-ai simțit vreodată atât de frustrat încât ai nevoie să te relaxezi și să privești ceva relaxant?
Acest proiect este o combinație a două proiecte mai mici.
Puteți crea o aplicație care recunoaște starea de spirit a unui utilizator pe baza înregistrărilor web live și a unei sugestii de film pe baza expresiei utilizatorului.
Pentru a construi acest lucru, puteți urma următorii pași:
- Creați o aplicație care poate prelua un flux video live.
- Utilizați API-ul de recunoaștere a feței de la Python pentru a detecta fețele și emoțiile pe obiectele din fluxul video.
- După ce ați clasificat aceste emoții în diferite categorii, începeți să construiți sistemul de recomandare. Acesta poate fi un set de valori codificate pentru fiecare emoție, ceea ce înseamnă că nu trebuie să implicați învățarea automată pentru recomandări.
- După ce ați terminat de construit aplicația, o puteți implementa pe Heroku, Dash sau pe un server web.
API-uri: API de recunoaștere a feței
10. Analiza sentimentelor de comentarii YouTube
În acest proiect, puteți crea un tablou de bord care analizează sentimentul general al YouTuberilor populari.
Peste 2 miliarde de utilizatori urmăresc videoclipuri YouTube cel puțin o dată pe lună. YouTuberi populari strâng sute de miliarde de vizualizări cu conținutul lor. Cu toate acestea, mulți dintre acești influenți au fost criticați din cauza controverselor din trecut, iar percepția publicului se schimbă constant.
Puteți construi un model de analiză a sentimentelor și puteți crea un tablou de bord pentru a vizualiza sentimentele despre celebrități de-a lungul timpului.
Pentru a construi acest lucru, puteți urma următorii pași:
- Răzuiți comentariile videoclipurilor de către YouTuberii pe care doriți să îi analizați.
- Utilizați un model de analiză a sentimentelor pregătit în prealabil pentru a face predicții pentru fiecare comentariu.
- Vizualizați predicțiile modelului pe un tablou de bord. Puteți chiar să creați o aplicație de tablou de bord folosind biblioteci precum Dash (Python) sau Shiny (R).
- Puteți face tabloul de bord interactiv, permițând utilizatorilor să filtreze sentimentul după interval de timp, numele YouTuberului și genul video.
API-uri: YouTube Comment Scraper
Rezumat
Industria învățării automate este mare și plină de oportunități. Dacă vrei să intri în industrie fără un fundal educațional formal, cel mai bun mod de a arăta că ai abilitățile necesare pentru a face meseria este prin proiecte.
Aspectul de învățare automată al majorității proiectelor enumerate mai sus este destul de simplu. Datorită democratizării învățării automate, procesul de construire a modelului poate fi realizat cu ușurință prin modele și API-uri pre-antrenate.
Proiectele de inteligență artificială open source precum Keras și FastAI au contribuit, de asemenea, la accelerarea procesului de construire a modelelor. Partea dificilă a acestor învățare automată și proiecte de știință a datelor este colectarea datelor, preprocesarea și implementarea. Dacă obțineți un loc de muncă în învățarea automată, majoritatea algoritmilor vor fi destul de simplu de construit. Va dura doar o zi sau două pentru a crea un model de predicție a vânzărilor. Îți vei petrece cea mai mare parte a timpului găsind surse de date adecvate și punând modelele în producție pentru a obține valoare pentru afaceri.
Original. Repostat cu permisiunea.
Related:
Sursa: https://www.kdnuggets.com/2021/09/20-machine-learning-projects-hired.html
- "
- &
- 000
- 2021
- 9
- acces
- Cont
- Suplimentar
- AI
- Alcool
- Algoritmul
- algoritmi
- TOATE
- Permiterea
- analiză
- analist
- animale
- api
- API-uri
- aplicaţia
- aplicație
- Apps
- ZONĂ
- în jurul
- inteligență artificială
- artist
- audio
- Automata
- disponibilitate
- Pungă de cuvinte
- De bază
- Noțiuni de bază
- bere
- CEL MAI BUN
- Miliard
- sânge
- stimularea
- Cutie
- box office
- Cancer mamar
- construi
- Clădire
- afaceri
- întreprinderi
- cumpăra
- camere video
- Rac
- cazuri
- celebritati
- contesta
- chatbot
- chatbots
- clasificare
- CNN
- Codificare
- Coloană
- comentarii
- Companii
- concurs
- concurenți
- consolidare
- conţinut
- rețea neuronală convoluțională
- Cuplu
- Serviciu clienți
- clienţii care
- Liniuţă
- tablou de bord
- de date
- știința datelor
- Date
- zi
- afacere
- arborele de decizie
- învățare profundă
- Cerere
- Prognoza cererii
- Detectare
- Diabet
- FĂCUT
- Cifră
- cifre
- Boală
- distanţă
- domenii
- de învăţământ
- emotii
- Inginerie
- intră
- Excel
- experienţă
- experiment
- Față
- recunoașterea feței
- fete
- familie
- Caracteristică
- DESCRIERE
- fed-
- Film
- Incendiu
- First
- potrivi
- urma
- format
- Complet
- amuzant
- viitor
- Gen
- Goluri
- bine
- Alb-negru
- mare
- de asistență medicală
- industria sănătății
- Înalt
- închiriere
- concediu
- casă
- gospodărie
- Cum
- HTTPS
- sute
- idee
- Identificare
- identifica
- imagine
- Recunoașterea imaginii
- Inclusiv
- Venituri
- Crește
- industrii
- industrie
- influențatori
- informații
- Inteligență
- interactiv
- Internet
- IT
- Loc de munca
- Locuri de munca
- keras
- Cheie
- Limbă
- mare
- AFLAȚI
- învățat
- învăţare
- Nivel
- Bibliotecă
- ușoară
- LINK
- Listă
- încărca
- Lung
- masina de învățare
- Tehnici de învățare a mașinilor
- Majoritate
- Efectuarea
- Piață
- Marketing
- Industria de marketing
- măsura
- mediu
- Bărbați
- Microsoft
- milion
- ML
- model
- luni
- dispozitie
- Cel mai popular
- muta
- film
- Filme
- Muzică
- Muzician
- reţea
- neural
- rețele neuronale
- ştiri
- nlp
- NYC
- Detectarea obiectelor
- oferi
- on-line
- curs online
- deschide
- Oportunităţi
- Altele
- paradigmă
- pacientes
- oameni
- performanță
- Personalitate
- Popular
- portofoliu
- prezicere
- Predictii
- prezenta
- presiune
- preţ
- Predicția prețurilor
- de stabilire a prețurilor
- producere
- productivitate
- profesioniști
- Program
- proiect
- Proiecte
- public
- Piton
- calitate
- lumea reală
- în timp real
- regres
- cercetare
- REZULTATE
- comercianții cu amănuntul
- venituri
- Risc
- factori de risc
- norme
- de vânzări
- Ştiinţă
- oamenii de stiinta
- Ecran
- sentiment
- set
- schimbare
- simplu
- aptitudini
- SMS-uri
- So
- vândut
- REZOLVAREA
- spam-
- viteză
- petrece
- Cheltuire
- Spotify
- Începe
- început
- stoca
- magazine
- Istorii
- Strategie
- sistem
- Ţintă
- Testarea
- teste
- Noțiuni de bază
- lumea
- timp
- top
- trafic
- Pregătire
- tutoriale
- stare de nervozitate
- utilizatorii
- utilitati
- valoare
- Video
- Video
- Ceas
- web
- server de web
- OMS
- Wildlife
- VIN
- în
- cuvinte
- Apartamente
- flux de lucru
- Forta de munca
- lume
- X
- an
- ani
- youtube
- YouTuber