20 progetti di machine learning che ti faranno assumere
Se vuoi entrare nel mercato del lavoro di machine learning e data science, dovrai dimostrare la competenza delle tue abilità, soprattutto se sei autodidatta attraverso corsi online e bootcamp. Un portfolio di progetti è un ottimo modo per mettere in pratica il tuo nuovo mestiere e offrire prove convincenti che un dipendente dovrebbe assumerti rispetto alla concorrenza.
By Khushbu Shah, Content Manager presso ProjectPro.
Il settore dell'intelligenza artificiale e del machine learning è in forte espansione come mai prima d'ora. A partire dal 2021, l'aumento dell'utilizzo dell'intelligenza artificiale tra le aziende creerà $ 2.9 trilioni di valore aziendale. L'intelligenza artificiale ha automatizzato molti settori in tutto il mondo e ha cambiato il modo in cui operano. La maggior parte delle grandi aziende incorpora l'intelligenza artificiale per massimizzare la produttività nel proprio flusso di lavoro e settori come il marketing e la sanità hanno subito un cambiamento di paradigma a causa del consolidamento dell'intelligenza artificiale.
Fonte immagine: Unsplash
A causa di ciò, negli ultimi anni c'è stata una crescente domanda di professionisti dell'intelligenza artificiale. C'è stato un aumento quasi del 100% delle offerte di lavoro relative all'intelligenza artificiale e al machine learning dal 2015 al 2018. Questo numero è cresciuto da allora e si prevede che aumenterà nel 2021.
Se stai cercando di entrare nel settore dell'apprendimento automatico, la buona notizia è che i posti di lavoro disponibili non mancano. Le aziende hanno bisogno di una forza lavoro di talento in grado di aprire la strada al passaggio all'apprendimento automatico. Tuttavia, il mercato del lavoro è infiltrato da persone che vogliono entrare nel settore dei dati. Poiché nessun corso di laurea specifico è rivolto agli studenti che desiderano apprendere l'apprendimento automatico, molti aspiranti professionisti del machine learning sono autodidatti.
Ci sono oltre 4 milioni di studenti iscritti al corso online di machine learning di Andrew Ng.
Sfortunatamente, iscriverti a corsi online o seguire un Bootcamp di machine learning ti aiuta ad apprendere i concetti teorici ma non ti prepara per un lavoro nel settore. C'è molto più lavoro pratico da fare, dopo aver appreso la teoria. Supponiamo che tu conosca le basi degli algoritmi di apprendimento automatico: capisci come funzionano i modelli di regressione e classificazione e conosci i diversi tipi di metodi di clustering.
Come hai intenzione di mettere in pratica le abilità che hai imparato per risolvere un problema della vita reale? La risposta semplice è: pratica, pratica e pratica diversi progetti di machine learning.
Una volta che hai finito di apprendere i concetti teorici, dovresti iniziare a lavorare su progetti di intelligenza artificiale e machine learning. Questi progetti ti daranno la pratica necessaria per affinare le tue abilità sul campo e, allo stesso tempo, sono un grande valore aggiunto al tuo portafoglio di machine learning.
Senza troppi indugi, esploriamo alcune idee di progetto ML che non solo renderanno il tuo portfolio bello, ma miglioreranno anche in modo significativo le tue capacità di apprendimento automatico. Questo è un elenco curato di alcuni dei migliori progetti di apprendimento automatico per studenti, aspiranti professionisti dell'apprendimento automatico e individui provenienti da domini non tecnici. Puoi lavorare su questi progetti indipendentemente dal tuo background, purché tu disponga di alcune capacità di programmazione e di apprendimento automatico. Questo è un elenco di progetti di apprendimento automatico di livello principiante e avanzato.
Se sei nuovo nel settore dei dati e hai poca esperienza con i progetti di vita reale, inizia con progetti di machine learning di livello principiante prima di passare a quelli più impegnativi.
Progetti di apprendimento automatico per principianti
1. Kaggle Titanic Previsione
Il primo progetto in questo elenco è uno dei progetti ML più semplici che puoi intraprendere. Questo progetto è consigliato per completare i principianti nel settore dei dati. Il set di dati del Titanic è disponibile su Kaggle e il link per scaricarlo è riportato di seguito.
Questo set di dati è di passeggeri che hanno viaggiato sul Titanic. Ha dettagli come l'età del passeggero, la tariffa del biglietto, la cabina e il sesso. Sulla base di queste informazioni, dovrai prevedere se questi passeggeri sono sopravvissuti o meno.
È un semplice problema di classificazione binaria e tutto ciò che devi fare è prevedere se un particolare passeggero è sopravvissuto. La cosa migliore di questo set di dati è che tutta la pre-elaborazione è fatta per te. Hai un set di dati bello e pulito per addestrare il tuo modello di machine learning.
Poiché si tratta di un problema di classificazione, è possibile scegliere di utilizzare algoritmi come regressione logistica, alberi decisionali e foreste casuali per creare il modello predittivo. Puoi anche scegliere modelli di potenziamento del gradiente come un classificatore XGBoost per questo progetto di apprendimento automatico di livello principiante per ottenere risultati migliori.
dataset: Set di dati Kaggle Titanic
2. Previsione del prezzo della casa
Anche i dati sui prezzi delle case sono ottimi per iniziare se sei un principiante nell'apprendimento automatico. Questo progetto utilizzerà il set di dati sui prezzi delle case disponibile su Kaggle. La variabile target in questo set di dati è il prezzo di una particolare casa, che dovrai prevedere utilizzando informazioni come l'area della casa, il numero di camere da letto, il numero di bagni e le utenze.
È un problema di regressione e puoi usare tecniche come la regressione lineare per costruire il modello. Puoi anche adottare un approccio più avanzato e utilizzare un regressore forestale casuale o un aumento del gradiente per prevedere i prezzi delle case.
Questo set di dati ha 80 colonne, esclusa la variabile di destinazione. Dovrai impiegare alcune tecniche di riduzione della dimensionalità per selezionare manualmente le funzionalità poiché l'aggiunta di troppe variabili può rendere il tuo modello scarso.
Esistono anche molte variabili categoriali nel set di dati, quindi è necessario gestirle correttamente utilizzando tecniche come la codifica one-hot o la codifica etichetta.
Dopo aver creato il tuo modello, puoi inviare le tue previsioni alla competizione sui prezzi delle case in Kaggle, poiché è ancora aperta. Il miglior RMSE raggiunto dai concorrenti è 0 e molte persone hanno ottenuto buoni risultati come 0.15 con l'aiuto di tecniche di regressione e aumento del gradiente.
dataset: Set di dati di previsione dei prezzi delle case di Kaggle
3. Previsione della qualità del vino
Il set di dati di previsione della qualità del vino è anche molto popolare tra i principianti nel settore dei dati. In questo progetto utilizzerai l'acidità fissa, l'acidità volatile, l'alcol e la densità per prevedere la qualità del vino rosso.
Questo può essere trattato come un problema di classificazione o di regressione. Il qualità del vino variabile che devi prevedere negli intervalli del set di dati da 0 a 10, in modo da poter costruire un modello di regressione da prevedere. Un altro approccio che puoi adottare è quello di scomporre i valori (da 0 a 10) in intervalli discreti e convertirli in variabili categoriali. Puoi creare tre categorie, ad esempio: basso, medio, ed alto.
È quindi possibile creare un classificatore dell'albero decisionale o qualsiasi modello di classificazione per effettuare la previsione. È un set di dati relativamente pulito e diretto per esercitare le tue capacità di regressione e classificazione dell'apprendimento automatico.
dataset: Set di dati sulla qualità del vino rosso Kaggle
4. Previsione delle malattie cardiache
Se stai cercando di esplorare un set di dati nel settore sanitario, questo è un ottimo set di dati per principianti con cui iniziare. Questo set di dati viene utilizzato per predire il rischio a 10 anni di CHD (Coronary Heart Disease). Le variabili dipendenti in questo set di dati sono i fattori di rischio di malattie cardiache, inclusi diabete, fumo, ipertensione e livelli elevati di colesterolo.
La variabile indipendente è il rischio a 10 anni di CHD. È un problema di classificazione binaria e la variabile target è 0 o 1–0 per i pazienti che non hanno mai sviluppato malattie cardiache e 1 per i pazienti che lo hanno fatto. È possibile eseguire alcune selezioni di funzionalità su questo set di dati per identificare le caratteristiche che contribuiscono maggiormente al rischio cardiaco. Quindi, puoi adattare un modello di classificazione alle variabili indipendenti.
Questo set di dati è altamente sbilanciato perché molti dei pazienti in questo set di dati lo hanno fatto non sviluppare malattie cardiache. Un set di dati sbilanciato deve essere gestito utilizzando le giuste tecniche di ingegneria delle funzionalità come sovracampionamento, regolazione del peso o sottocampionamento. Se non trattato correttamente, ti ritroverai con un modello che prevede semplicemente la classe di maggioranza per ogni punto dati e non è in grado di identificare i pazienti che ha fatto sviluppare malattie cardiache. Questo è un eccellente set di dati per mettere in pratica le tue capacità di ingegneria delle funzionalità e di apprendimento automatico.
dataset: Set di dati sulle malattie cardiache di Kaggle
5. Classificazione delle cifre MNIST
I MNIST dataset è il tuo trampolino di lancio nel campo del deep learning. Questo set di dati è costituito da immagini in scala di grigi di cifre scritte a mano da 0 a 9. Il tuo compito sarebbe identificare la cifra utilizzando un algoritmo di deep learning. Questo è un problema di classificazione multiclasse con dieci possibili classi di output. È possibile utilizzare una CNN (Convolutional Neural Network) per eseguire questa classificazione.
Il set di dati MNIST è costruito all'interno della libreria Keras in Python. Tutto quello che devi fare è installare Keras, importare la libreria e caricare il set di dati. Questo set di dati contiene circa 60,000 immagini in modo da poter utilizzare circa l'80% di queste immagini per l'addestramento e un altro 20% per i test.
dataset: Set di dati del riconoscitore di cifre Kaggle
6. Analisi del sentiment dei dati di Twitter
Ci sono molti set di dati di analisi del sentiment di Twitter disponibili su Kaggle. Uno dei set di dati più popolari si chiama sentiment140, che contiene 1.6 milioni di Tweet pre-elaborati. Questo è un ottimo set di dati con cui iniziare se non conosci l'analisi del sentiment.
Questi Tweet sono stati annotati e la variabile target è il sentimento. I valori univoci in questa colonna sono 0 (negativo), 2 (neutro) e 4 (positivo).
Dopo aver pre-elaborato questi Tweet e averli convertiti in vettori, puoi utilizzare un modello di classificazione per addestrarli con il sentiment associato. È possibile utilizzare algoritmi come la regressione logistica, il classificatore dell'albero decisionale o il classificatore XGBoost per questa attività.
Un'altra alternativa è utilizzare un modello di deep learning come LSTM per elaborare la previsione del sentimento. Tuttavia, questo è un approccio leggermente più impegnativo e rientra nella categoria dei progetti avanzati.
Puoi anche utilizzare questo set di dati etichettato come base per future attività di analisi del sentiment.
Se disponi di Tweet su cui desideri raccogliere ed eseguire analisi del sentiment, puoi utilizzare un modello che è stato precedentemente addestrato sul sentiment140 per fare previsioni future.
dataset: Set di dati Kaggle Sentiment140
7. Previsione del diabete indiano Pima
Il Pima Indian Diabetes Dataset viene utilizzato per prevedere se un paziente ha il diabete in base a misurazioni diagnostiche.
Sulla base di variabili come BMI, età e insulina, il modello prevederà il diabete nei pazienti. Questo set di dati ha nove variabili: otto variabili indipendenti e una variabile target.
La variabile di destinazione è 'diabete', quindi si predirrà 1 per la presenza di diabete o 0 per l'assenza di diabete.
Questo è un problema di classificazione da sperimentare con modelli come la regressione logistica, il classificatore dell'albero decisionale o il classificatore della foresta casuale.
Tutte le variabili indipendenti in questo set di dati sono numeriche, quindi questo è un ottimo set di dati con cui iniziare se si dispone di un'esperienza minima di progettazione delle funzionalità.
Questo è un set di dati Kaggle aperto ai principianti. Ci sono molti tutorial online che ti guidano attraverso la codifica della soluzione in Python e R. Questi tutorial per notebook sono un ottimo modo per imparare e sporcarti le mani in modo da poter passare a progetti più complessi.
dataset: Set di dati sul diabete indiano Kaggle Pima
8. Classificazione del cancro al seno
Il set di dati sulla classificazione del cancro al seno su Kaggle è un altro modo eccellente per esercitare le tue abilità di apprendimento automatico e intelligenza artificiale.
La maggior parte dei problemi di apprendimento automatico supervisionati nel mondo reale sono problemi di classificazione come questo. Una sfida chiave nell'identificazione del cancro al seno è l'incapacità di distinguere tra tumori benigni (non cancerosi) e maligni (cancerosi). Il set di dati ha variabili come "radius_mean" e "area_mean" del tumore e dovrai classificare in base a queste caratteristiche se un tumore è canceroso o meno. È relativamente facile lavorare con questo set di dati poiché non è necessario eseguire alcuna pre-elaborazione significativa dei dati. È anche un set di dati ben bilanciato, che rende il tuo compito più gestibile in quanto non è necessario fare molta ingegneria delle funzionalità.
L'addestramento di un semplice classificatore di regressione logistica su questo set di dati può fornire una precisione fino a 0.90.
dataset: Set di dati di classificazione del cancro al seno Kaggle
9. Pronostico al botteghino TMDB
Questo set di dati Kaggle è un ottimo modo per esercitare le tue abilità di regressione. Consiste di circa 7000 film e dovrai utilizzare le variabili presenti per prevedere le entrate del film.
I punti dati presenti includono cast, troupe, budget, lingue e date di rilascio. Ci sono 23 variabili nel set di dati, una delle quali è la variabile di destinazione.
Un modello di regressione lineare di base può darti un R-quadrato di oltre 0.60, quindi puoi usarlo come modello di previsione di base. Prova a battere questo punteggio usando tecniche come la regressione XGBoost o Light GBM.
Questo set di dati è leggermente più complesso del precedente poiché alcune colonne hanno dati presenti nei dizionari nidificati. È necessario eseguire alcune operazioni preliminari aggiuntive per estrarre questi dati in un formato utilizzabile per addestrare un modello su di essi.
La previsione delle entrate è un ottimo progetto da mostrare nel tuo portafoglio, in quanto fornisce valore aziendale a una varietà di domini al di fuori dell'industria cinematografica.
dataset: Set di dati di previsione del box office TMDB di Kaggle
10. Segmentazione del cliente in Python
Il set di dati di segmentazione dei clienti su Kaggle è un ottimo modo per iniziare con l'apprendimento automatico senza supervisione. Questo set di dati è costituito da dettagli del cliente come età, sesso, reddito annuo e punteggio di spesa.
È necessario utilizzare queste variabili per creare segmenti di clienti. I clienti simili dovrebbero essere raggruppati in cluster simili. È possibile utilizzare algoritmi come il clustering K-Means o il clustering gerarchico per questa attività. I modelli di segmentazione dei clienti possono fornire valore aziendale.
Le aziende spesso vogliono separare i propri clienti per trovare tecniche di marketing diverse per ogni tipo di cliente.
Gli obiettivi principali di questo set di dati includono:
- Raggiungere la segmentazione dei clienti utilizzando tecniche di apprendimento automatico
- Identifica i tuoi clienti target per diverse strategie di marketing
- Comprendi come funzionano le strategie di marketing nel mondo reale
La creazione di un modello di clustering per questa attività può aiutare il tuo portafoglio a distinguersi e la segmentazione è una grande abilità da avere se stai cercando di ottenere un lavoro correlato all'intelligenza artificiale nel settore del marketing.
dataset: Set di dati di segmentazione dei clienti di Kaggle Mall
Progetti di apprendimento automatico di livello intermedio/avanzato per il tuo curriculum
Una volta che hai finito di lavorare su semplici progetti di machine learning come quelli sopra elencati, puoi passare a progetti più impegnativi.
1. Previsioni di vendita
La previsione delle serie temporali è una tecnica di apprendimento automatico utilizzata molto spesso nel settore. L'uso di dati passati per prevedere le vendite future ha un gran numero di casi d'uso aziendali. Il set di dati di previsione della domanda di Kaggle può essere utilizzato per mettere in pratica questo progetto.
Questo set di dati contiene 5 anni di dati sulle vendite e dovrai prevedere le vendite per i prossimi tre mesi. Ci sono dieci negozi diversi elencati nel set di dati e ci sono 50 articoli in ogni negozio.
Per prevedere le vendite, puoi provare vari metodi: ARIMA, Autoregressione vettoriale o deep learning. Un metodo che puoi utilizzare per questo progetto è misurare l'aumento delle vendite per ogni mese e registrarlo. Quindi, costruisci il modello sulla differenza tra le vendite del mese precedente e quelle del mese corrente. Prendere in considerazione fattori come le festività e la stagionalità può migliorare le prestazioni del tuo modello di machine learning.
dataset: Previsione della domanda di articoli del negozio Kaggle
2. Chatbot del servizio clienti
Un chatbot del servizio clienti utilizza tecniche di intelligenza artificiale e apprendimento automatico per rispondere ai clienti, assumendo il ruolo di un rappresentante umano. Un chatbot dovrebbe essere in grado di rispondere a semplici domande per soddisfare le esigenze dei clienti.
Attualmente ci sono tre tipi di chatbot che puoi costruire:
- Chatbot basati su regole: questi chatbot non sono intelligenti. Vengono alimentati con una serie di regole predefinite e rispondono solo agli utenti in base a queste regole. Alcuni chatbot sono inoltre dotati di una serie predefinita di domande e risposte e non possono rispondere a domande che non rientrano in questo dominio.
- Chatbot indipendenti: i chatbot indipendenti utilizzano l'apprendimento automatico per elaborare e analizzare la richiesta di un utente e fornire risposte di conseguenza.
- Chatbot PNL: questi chatbot possono comprendere schemi nelle parole e distinguere tra diverse combinazioni di parole. Sono i più avanzati di tutti e tre i tipi di chatbot, in quanto possono inventare cosa dire dopo in base ai modelli di parole su cui sono stati addestrati.
Un chatbot di PNL è un'interessante idea di progetto di apprendimento automatico. Avrai bisogno di un corpus esistente di parole su cui addestrare il tuo modello e puoi facilmente trovare librerie Python per farlo. Puoi anche avere un dizionario predefinito con un elenco di coppie di domande e risposte che desideri addestrare al tuo modello.
3. Sistema di rilevamento di oggetti della fauna selvatica
Se vivi in una zona con frequenti avvistamenti di animali selvatici, è utile implementare un sistema di rilevamento degli oggetti per identificare la loro presenza nella tua zona. Segui questi passaggi per creare un sistema come questo:
- Installa le telecamere nell'area che desideri monitorare.
- Scarica tutti i filmati e salvali.
- Crea un'applicazione Python per analizzare le immagini in arrivo e identificare gli animali selvatici.
Microsoft ha creato un'API di riconoscimento delle immagini utilizzando i dati raccolti dalle telecamere della fauna selvatica. Hanno rilasciato un modello pre-addestrato open source per questo scopo chiamato MegaDetector.
Puoi utilizzare questo modello pre-addestrato nella tua applicazione Python per identificare gli animali selvatici dalle immagini raccolte. È uno dei progetti ML più interessanti menzionati finora ed è piuttosto semplice da implementare grazie alla disponibilità di un modello pre-addestrato per questo scopo.
API: Megarivelatore
4. Sistema di raccomandazione di Spotify Music
Spotify utilizza l'intelligenza artificiale per consigliare la musica ai suoi utenti. Puoi provare a creare un sistema di suggerimenti basato su dati disponibili pubblicamente su Spotify.
Spotify ha un'API che puoi utilizzare per recuperare i dati audio: puoi trovare funzionalità come l'anno di rilascio, la chiave, la popolarità e l'artista. Per accedere a questa API in Python, puoi utilizzare una libreria chiamata Spotipy.
Puoi anche utilizzare il set di dati Spotify su Kaggle che ha circa 600K righe. Utilizzando questi set di dati, puoi suggerire la migliore alternativa al musicista preferito di ogni utente. Puoi anche trovare consigli sui brani in base al contenuto e al genere preferito da ciascun utente.
Questo sistema di raccomandazione può essere creato utilizzando il clustering K-Means: i punti dati simili verranno raggruppati. È possibile consigliare all'utente finale brani con una distanza minima all'interno del cluster.
Una volta creato il sistema di raccomandazione, puoi anche trasformarlo in una semplice app Python e distribuirlo. Puoi convincere gli utenti a inserire le loro canzoni preferite su Spotify, quindi visualizzare i consigli sul modello sullo schermo che hanno la massima somiglianza con le canzoni che hanno apprezzato.
dataset: Kaggle set di dati Spotify
5. Analisi del paniere di mercato
L'analisi del paniere di mercato è una tecnica popolare utilizzata dai rivenditori per identificare gli articoli che possono essere venduti insieme.
Per esempio:
Un paio di anni fa, un analista di ricerca ha identificato una correlazione tra le vendite di birra e pannolini. Il più delle volte, ogni volta che un cliente entrava nel negozio per comprare una birra, compravano anche i pannolini insieme.
A causa di ciò, i negozi hanno iniziato a vendere insieme birra e pannolini nella stessa corsia come strategia di marketing per aumentare le vendite. E ha funzionato.
Si presumeva che birra e pannolini avessero un'alta correlazione poiché i maschi li compravano spesso insieme. Gli uomini entravano nel negozio per comprare una birra, insieme a molti altri articoli per la casa per la loro famiglia (compresi i pannolini). Sembra una correlazione abbastanza impossibile, ma è successo.
L'analisi del paniere di mercato può aiutare le aziende a identificare le correlazioni nascoste tra gli articoli che vengono spesso acquistati insieme. Questi negozi possono quindi posizionare i loro articoli in un modo che consenta alle persone di trovarli più facilmente.
Puoi utilizzare il set di dati Market Basket Optimization su Kaggle per creare e addestrare il tuo modello. L'algoritmo più comunemente utilizzato per eseguire l'analisi del paniere di mercato è l'algoritmo Apriori.
dataset: Set di dati di ottimizzazione del paniere di mercato di Kaggle
6. Durata del viaggio in taxi a New York
Il set di dati contiene variabili che includono le coordinate di inizio e fine di un viaggio in taxi, l'ora e il numero di passeggeri. L'obiettivo di questo progetto ML è prevedere la durata del viaggio con tutte queste variabili. È un problema di regressione.
Variabili come tempo e coordinate devono essere pre-elaborate in modo appropriato e convertite in un formato comprensibile. Questo progetto non è così semplice come sembra. Questo set di dati ha anche alcuni valori anomali che rendono la previsione più complessa, quindi dovrai gestirlo con tecniche di ingegneria delle funzionalità.
I criteri di valutazione per questa competizione NYC Taxi Trip Kaggle sono RMSLE o Root Mean Squared Log Error. La migliore presentazione su Kaggle ha ricevuto un punteggio RMSLE di 0.29 e il modello di base di Kaggle ha un RMSLE di 0.89.
Puoi utilizzare qualsiasi algoritmo di regressione per risolvere questo progetto Kaggle, ma i concorrenti più performanti di questa sfida hanno utilizzato modelli di potenziamento del gradiente o tecniche di deep learning.
dataset: Kaggle NYC Taxi Durata del viaggio Dataset
7. Rilevamento di spam in tempo reale
In questo progetto, puoi utilizzare tecniche di apprendimento automatico per distinguere tra messaggi spam (illegittimi) e ham (legittimi).
Per ottenere ciò, puoi utilizzare il set di dati Kaggle SMS Spam Collection. Questo set di dati contiene un insieme di circa 5K messaggi che sono stati etichettati come spam o ham.
È possibile eseguire i seguenti passaggi per creare un sistema di rilevamento dello spam in tempo reale:
- Usa il set di dati SMS Spam Collection di Kaggle per addestrare un modello di machine learning.
- Crea un semplice server di chat room in Python.
- Distribuisci il modello di apprendimento automatico sul tuo server di chat room e assicurati che tutto il traffico in entrata passi attraverso il modello.
- Consenti ai messaggi di passare solo se sono classificati come ham. Se sono spam, restituisci invece un messaggio di errore.
Per creare il modello di apprendimento automatico, devi prima elaborare i messaggi di testo presenti nel set di dati SMS Spam Collection di Kaggle. Quindi, converti questi messaggi in un pacchetto di parole in modo che possano essere facilmente passati al tuo modello di classificazione per la previsione.
dataset: Kaggle SMS raccolta dati spam
8. App di previsione della personalità di Myers-Briggs
Puoi creare un'app per prevedere il tipo di personalità di un utente in base a ciò che dice.
L'indicatore di tipo Myers-Briggs classifica gli individui in 16 diversi tipi di personalità. È uno dei test di personalità più popolari al mondo.
Se provi a trovare il tuo tipo di personalità su Internet, troverai molti quiz online. Dopo aver risposto a circa 20-30 domande, ti verrà assegnato un tipo di personalità.
Tuttavia, in questo progetto, puoi utilizzare l'apprendimento automatico per prevedere il tipo di personalità di chiunque solo sulla base di una frase.
Ecco i passaggi che puoi eseguire per raggiungere questo obiettivo:
- Crea un modello di classificazione multiclasse e addestralo sul set di dati Myers-Briggs su Kaggle. Ciò comporta la pre-elaborazione dei dati (rimozione di parole di arresto e caratteri non necessari) e alcune funzionalità di progettazione. Puoi utilizzare un modello di apprendimento superficiale come la regressione logistica o un modello di apprendimento profondo come un LSTM per questo scopo.
- Puoi creare un'applicazione che permetta agli utenti di inserire qualsiasi frase di loro scelta.
- Salva i pesi del modello di machine learning e integra il modello con la tua app. Dopo che l'utente finale ha inserito una parola, visualizza il suo tipo di personalità sullo schermo dopo che il modello ha fatto una previsione.
dataset: Set di dati di tipo MBTI Kaggle
9. Sistema di riconoscimento dell'umore + sistema di raccomandazione
Sei mai stato triste e hai sentito il bisogno di guardare qualcosa di divertente per tirarti su il morale? O ti sei mai sentito così frustrato da doverti rilassare e guardare qualcosa di rilassante?
Questo progetto è una combinazione di due progetti più piccoli.
Puoi creare un'app che riconosca l'umore di un utente in base a riprese web dal vivo e un suggerimento di film in base all'espressione dell'utente.
Per costruirlo, puoi seguire i seguenti passaggi:
- Crea un'app in grado di accogliere un feed video in diretta.
- Usa l'API di riconoscimento facciale di Python per rilevare volti ed emozioni sugli oggetti nel feed video.
- Dopo aver classificato queste emozioni in varie categorie, inizia a costruire il sistema di raccomandazione. Questo può essere un insieme di valori hardcoded per ogni emozione, il che significa che non è necessario coinvolgere l'apprendimento automatico per i consigli.
- Una volta completata la creazione dell'app, puoi distribuirla su Heroku, Dash o un server web.
API: API di riconoscimento facciale
10. Analisi del sentiment dei commenti di YouTube
In questo progetto, puoi creare una dashboard che analizza il sentimento generale dei popolari YouTuber.
Oltre 2 miliardi di utenti guardano i video di YouTube almeno una volta al mese. I famosi YouTuber ottengono centinaia di miliardi di visualizzazioni con i loro contenuti. Tuttavia, molti di questi influencer sono stati presi di mira a causa di controversie in passato e la percezione pubblica è in continua evoluzione.
Puoi creare un modello di analisi del sentiment e creare un dashboard per visualizzare i sentimenti intorno alle celebrità nel tempo.
Per costruirlo, puoi seguire i seguenti passaggi:
- Elimina i commenti dei video degli YouTuber che desideri analizzare.
- Utilizza un modello di analisi del sentiment pre-addestrato per fare previsioni su ogni commento.
- Visualizza le previsioni del modello su una dashboard. Puoi persino creare un'app dashboard utilizzando librerie come Dash (Python) o Shiny (R).
- Puoi rendere interattiva la dashboard consentendo agli utenti di filtrare il sentimento per intervallo di tempo, nome di YouTuber e genere video.
API: Raschietto per commenti di YouTube
Sommario
Il settore del machine learning è vasto e ricco di opportunità. Se vuoi entrare nel settore senza un background educativo formale, il modo migliore per dimostrare di avere le competenze necessarie per svolgere il lavoro è attraverso i progetti.
L'aspetto dell'apprendimento automatico della maggior parte dei progetti sopra elencati è piuttosto semplice. A causa della democratizzazione dell'apprendimento automatico, il processo di creazione del modello può essere facilmente raggiunto attraverso modelli e API pre-addestrati.
Anche progetti di intelligenza artificiale open source come Keras e FastAI hanno contribuito ad accelerare il processo di creazione del modello. La parte difficile di questi machine learning e progetti di data science è la raccolta dei dati, la pre-elaborazione e la distribuzione. Se ottieni un lavoro nell'apprendimento automatico, la maggior parte degli algoritmi sarà piuttosto semplice da costruire. Ci vorranno solo un giorno o due per creare un modello di previsione delle vendite. Passerai la maggior parte del tuo tempo a trovare fonti di dati appropriate e a mettere in produzione i tuoi modelli per ricavare valore aziendale.
Originale. Ripubblicato con il permesso.
Correlato:
Le migliori storie degli ultimi 30 giorni | |||
---|---|---|---|
|
Fonte: https://www.kdnuggets.com/2021/09/20-machine-learning-projects-hired.html
- "
- &
- 000
- 2021
- 9
- accesso
- Il mio account
- aggiuntivo
- AI
- alcol
- algoritmo
- Algoritmi
- Tutti
- Consentire
- .
- analista
- animali
- api
- API
- App
- Applicazioni
- applicazioni
- RISERVATA
- in giro
- intelligenza artificiale
- artista
- Audio
- Automatizzata
- disponibilità
- Borsa di parole
- Linea di base
- Nozioni di base
- birra
- MIGLIORE
- Miliardo
- sangue
- potenziamento
- Scatola
- botteghino
- Cancro al seno
- costruire
- Costruzione
- affari
- aziende
- Acquistare
- telecamere
- Cancro
- casi
- celebrità
- Challenge
- chatbot
- chatbots
- classificazione
- CNN
- codifica
- Colonna
- Commenti
- Aziende
- concorrenza
- concorrenti
- consolidamento
- contenuto
- rete neurale convoluzionale
- Coppia
- Servizio clienti
- Clienti
- Dash
- cruscotto
- dati
- scienza dei dati
- Date
- giorno
- affare
- albero decisionale
- apprendimento profondo
- Richiesta
- Previsione della domanda
- rivelazione
- Diabete
- DID
- Cifra
- cifre
- Malattia
- distanza
- domini
- educativo
- emozioni
- Ingegneria
- entra
- Excel
- esperienza
- esperimento
- Faccia
- riconoscimento facciale
- facce
- famiglia
- caratteristica
- Caratteristiche
- Federale
- Film
- Antincendio
- Nome
- in forma
- seguire
- formato
- pieno
- divertente
- futuro
- Sesso
- Obiettivi
- buono
- Scala di grigi
- grande
- assistenza sanitaria
- settore sanitario
- Alta
- assumere
- Vacanze
- Casa
- famiglia
- Come
- HTTPS
- centinaia
- idea
- Identificazione
- identificare
- Immagine
- Riconoscimento dell'immagine
- Compreso
- Reddito
- Aumento
- industrie
- industria
- influenzatori
- informazioni
- Intelligence
- interattivo
- Internet
- IT
- Lavoro
- Offerte di lavoro
- keras
- Le
- Le Lingue
- grandi
- IMPARARE
- imparato
- apprendimento
- Livello
- Biblioteca
- leggera
- LINK
- Lista
- caricare
- Lunghi
- machine learning
- Tecniche di apprendimento automatico
- Maggioranza
- Fare
- Rappresentanza
- Marketing
- Industria del marketing
- misurare
- medie
- Uomo
- Microsoft
- milione
- ML
- modello
- mese
- stato d'animo
- Più popolare
- cambiano
- film
- Film
- Musica
- Musicista
- Rete
- Neurale
- rete neurale
- notizie
- nlp
- NYC
- Rilevazione dell'oggetto
- offrire
- online
- corso online
- aprire
- Opportunità
- Altro
- paradigma
- pazienti
- Persone
- performance
- Personalità
- Popolare
- lavori
- predizione
- Previsioni
- presenti
- pressione
- prezzo
- Previsione dei prezzi
- prezzi
- Produzione
- della produttività
- Scelto dai professionisti
- Programma
- progetto
- progetti
- la percezione
- Python
- qualità
- mondo reale
- tempo reale
- regressione
- riparazioni
- Risultati
- rivenditori
- Le vendite
- Rischio
- fattori di rischio
- norme
- vendite
- Scienze
- scienziati
- allo
- sentimento
- set
- spostamento
- Un'espansione
- abilità
- sms
- So
- venduto
- RISOLVERE
- carne in scatola
- velocità
- spendere
- Spendere
- Spotify
- inizia a
- iniziato
- Tornare al suo account
- negozi
- Storie
- Strategia
- sistema
- Target
- Testing
- test
- Le nozioni di base
- il mondo
- tempo
- top
- traffico
- Training
- esercitazioni
- utenti
- utilità
- APPREZZIAMO
- Video
- Video
- Orologio
- sito web
- web server
- OMS
- Natura
- VINO
- entro
- parole
- Lavora
- flusso di lavoro
- Forza lavoro
- mondo
- X
- anno
- anni
- youtube
- youtuber