20 Machine Learning-Projekte, die Sie einstellen werden
Wenn Sie in den Arbeitsmarkt für maschinelles Lernen und Data Science einsteigen möchten, müssen Sie Ihre Fähigkeiten unter Beweis stellen, insbesondere wenn Sie sich durch Online-Kurse und Bootcamps autodidaktisch beigebracht haben. Ein Projektportfolio ist eine großartige Möglichkeit, Ihr neues Handwerk zu üben und überzeugende Beweise dafür zu liefern, dass ein Mitarbeiter Sie gegenüber der Konkurrenz einstellen sollte.
By Khushbu Shah, Content Manager bei ProjectPro.
Die KI- und Machine-Learning-Branche boomt wie nie zuvor. Ab 2021 wird die Zunahme der KI-Nutzung in allen Unternehmen einen Geschäftswert von 2.9 Billionen US-Dollar schaffen. KI hat viele Branchen auf der ganzen Welt automatisiert und ihre Arbeitsweise verändert. Die meisten großen Unternehmen integrieren KI, um die Produktivität in ihren Arbeitsabläufen zu maximieren, und Branchen wie Marketing und Gesundheitswesen haben aufgrund der Konsolidierung der KI einen Paradigmenwechsel durchgemacht.
Bildquelle: Unsplash
Aus diesem Grund gab es in den letzten Jahren eine steigende Nachfrage nach KI-Profis. Von 100 bis 2015 ist die Zahl der Stellenausschreibungen im Zusammenhang mit KI und maschinellem Lernen um fast 2018 % gestiegen. Diese Zahl ist seitdem gestiegen und wird voraussichtlich 2021 steigen.
Wenn Sie in die Branche des maschinellen Lernens einsteigen möchten, ist die gute Nachricht, dass es keinen Mangel an verfügbaren Stellen gibt. Unternehmen brauchen talentierte Mitarbeiter, die in der Lage sind, den Wandel zum maschinellen Lernen voranzutreiben. Der Arbeitsmarkt wird jedoch von Leuten unterwandert, die in die Datenbranche einsteigen wollen. Da kein spezieller Studiengang auf Studierende ausgerichtet ist, die maschinelles Lernen erlernen möchten, sind viele angehende ML-Praktiker Autodidakten.
Für den Online-Kurs für maschinelles Lernen von Andrew Ng sind über 4 Millionen Studenten eingeschrieben.
Leider hilft Ihnen die Einschreibung in Online-Kurse oder die Teilnahme an einem Bootcamp für maschinelles Lernen beim Erlernen der theoretischen Konzepte, bereitet Sie jedoch nicht auf einen Job in der Branche vor. Nach dem Erlernen der Theorie gibt es noch viel mehr praktische Arbeit zu tun. Angenommen, Sie kennen die Grundlagen von Algorithmen für maschinelles Lernen – Sie verstehen die Funktionsweise von Regressions- und Klassifizierungsmodellen und kennen die verschiedenen Arten von Clustering-Methoden.
Wie werden Sie die erlernten Fähigkeiten üben, um ein reales Problem zu lösen? Die einfache Antwort lautet: Üben, üben und vielfältig üben Projekte für maschinelles Lernen.
Sobald Sie mit dem Erlernen der theoretischen Konzepte fertig sind, sollten Sie mit der Arbeit an KI- und maschinellen Lernprojekten beginnen. Diese Projekte geben Ihnen die notwendige Praxis, um Ihre Fähigkeiten auf diesem Gebiet zu verbessern, und sind gleichzeitig ein großer Mehrwert für Ihr Machine-Learning-Portfolio.
Lassen Sie uns ohne viel Umschweife einige ML-Projektideen erkunden, die nicht nur Ihr Portfolio gut aussehen lassen, sondern auch Ihre Fähigkeiten zum maschinellen Lernen erheblich verbessern. Dies ist eine kuratierte Liste einiger der besten Machine-Learning-Projekte für Studenten, angehende Machine-Learning-Praktiker und Einzelpersonen aus nicht-technischen Bereichen. Sie können unabhängig von Ihrem Hintergrund an diesen Projekten arbeiten, solange Sie über Programmierkenntnisse und Kenntnisse im Bereich des maschinellen Lernens verfügen. Dies ist eine Liste von Machine-Learning-Projekten für Anfänger und Fortgeschrittene.
Wenn Sie neu in der Datenbranche sind und wenig Erfahrung mit realen Projekten haben, beginnen Sie mit ML-Projekten für Anfänger, bevor Sie zu den anspruchsvolleren übergehen.
Machine Learning-Projekte für Anfänger
1. Kaggle Titanic Vorhersage
Das erste Projekt auf dieser Liste ist eines der einfachsten ML-Projekte, die Sie übernehmen können. Dieses Projekt wird Anfängern in der Datenbranche empfohlen. Der Titanic-Datensatz ist auf Kaggle verfügbar und der Link zum Herunterladen ist unten angegeben.
Dieser Datensatz enthält Passagiere, die mit der Titanic gereist sind. Es enthält Details wie Passagieralter, Ticketpreis, Kabine und Geschlecht. Anhand dieser Informationen müssen Sie vorhersagen, ob diese Passagiere überlebt haben oder nicht.
Es ist ein einfaches binäres Klassifizierungsproblem, und Sie müssen nur vorhersagen, ob ein bestimmter Passagier überlebt hat. Das Beste an diesem Datensatz ist, dass die gesamte Vorverarbeitung für Sie erledigt wird. Sie haben ein schönes, sauberes Dataset zum Trainieren Ihres Machine Learning-Modells.
Da es sich um ein Klassifizierungsproblem handelt, können Sie Algorithmen wie logistische Regression, Entscheidungsbäume und Random Forests verwenden, um das Vorhersagemodell zu erstellen. Sie können auch Gradient Boosting-Modelle wie einen XGBoost-Klassifikator für dieses maschinelle Lernprojekt für Anfänger auswählen, um bessere Ergebnisse zu erzielen.
Datensatz: Kaggle Titanic-Datensatz
2. Hauspreisvorhersage
Hauspreisdaten sind auch für den Anfang gut geeignet, wenn Sie ein Anfänger im maschinellen Lernen sind. Dieses Projekt verwendet das auf Kaggle verfügbare Dataset zu den Hauspreisen. Die Zielvariable in diesem Dataset ist der Preis eines bestimmten Hauses, den Sie anhand von Informationen wie Hausfläche, Anzahl Schlafzimmer, Anzahl Badezimmer und Nebenkosten vorhersagen müssen.
Es handelt sich um ein Regressionsproblem, und Sie können Techniken wie die lineare Regression verwenden, um das Modell zu erstellen. Sie können auch einen fortgeschritteneren Ansatz wählen und einen Random Forest Regressor oder Gradient Boosting verwenden, um die Hauspreise vorherzusagen.
Dieses Dataset hat 80 Spalten, ohne die Zielvariable. Sie müssen einige Techniken zur Reduzierung der Dimensionalität anwenden, um Features von Hand auszuwählen, da das Hinzufügen zu vieler Variablen zu einer schlechten Leistung Ihres Modells führen kann.
Es gibt auch viele kategoriale Variablen im Dataset, daher müssen Sie mit Techniken wie One-Hot-Encoding oder Label-Encoding richtig damit umgehen.
Nachdem Sie Ihr Modell erstellt haben, können Sie Ihre Vorhersagen beim Hauspreiswettbewerb in Kaggle einreichen, da dieser noch offen ist. Der beste RMSE, der von Konkurrenten erreicht wird, ist 0, und viele Leute haben mit Hilfe von Regressions- und Gradienten-Boosting-Techniken gute Ergebnisse wie 0.15 erzielt.
Datensatz: Kaggle House Preisvorhersage-Datensatz
3. Vorhersage der Weinqualität
Der Datensatz zur Vorhersage der Weinqualität ist auch bei Anfängern in der Datenbranche sehr beliebt. In diesem Projekt verwenden Sie feste Säure, flüchtige Säure, Alkohol und Dichte, um die Qualität von Rotwein vorherzusagen.
Dies kann entweder als Klassifikations- oder als Regressionsproblem behandelt werden. Die Weinqualität Variable, die Sie im Dataset vorhersagen müssen, reicht von 0 bis 10, sodass Sie ein Regressionsmodell für die Vorhersage erstellen können. Ein anderer Ansatz besteht darin, die Werte (von 0 bis 10) in diskrete Intervalle zu zerlegen und sie in kategoriale Variablen umzuwandeln. Sie können beispielsweise drei Kategorien erstellen: niedrig, mittel, und Highs.
Anschließend können Sie einen Entscheidungsbaum-Klassifikator oder ein beliebiges Klassifizierungsmodell erstellen, um die Vorhersage zu treffen. Es handelt sich um ein relativ sauberes und unkompliziertes Dataset, mit dem Sie Ihre Fähigkeiten im Bereich Regression und Klassifizierung im maschinellen Lernen üben können.
Datensatz: Kaggle Rotweinqualitätsdatensatz
4. Vorhersage von Herzerkrankungen
Wenn Sie einen Datensatz in der Gesundheitsbranche untersuchen möchten, ist dies ein großartiger Datensatz für Anfänger. Dieser Datensatz wird verwendet, um das 10-Jahres-Risiko einer KHK (koronare Herzkrankheit) vorherzusagen. Die abhängigen Variablen in diesem Datensatz sind die Risikofaktoren für Herzerkrankungen, einschließlich Diabetes, Rauchen, Bluthochdruck und hoher Cholesterinspiegel.
Die unabhängige Variable ist das 10-Jahres-Risiko einer KHK. Es handelt sich um ein binäres Klassifikationsproblem, und die Zielvariable ist entweder 0 oder 1-0 für die Patienten, die nie eine Herzerkrankung entwickelt haben und 1 für die Patienten, die dies getan haben. Sie können an diesem Datensatz eine Funktionsauswahl durchführen, um die Merkmale zu identifizieren, die am meisten zum Herzrisiko beitragen. Anschließend können Sie ein Klassifizierungsmodell an die unabhängigen Variablen anpassen.
Dieser Datensatz ist stark unausgewogen, da viele der Patienten in diesem Datensatz dies taten nicht Herzerkrankungen entwickeln. Ein unausgeglichener Datensatz muss mit den richtigen Feature-Engineering-Techniken wie Oversampling, Weight-Tuning oder Undersampling behandelt werden. Wenn es nicht richtig behandelt wird, erhalten Sie am Ende ein Modell, das einfach die Mehrheitsklasse für jeden Datenpunkt vorhersagt und keine Patienten identifizieren kann, die war Herzerkrankungen entwickeln. Dies ist ein hervorragendes Dataset, mit dem Sie Ihre Fähigkeiten im Bereich Feature Engineering und maschinelles Lernen üben können.
Datensatz: Kaggle-Herzkrankheits-Datensatz
5. MNIST-Ziffernklassifizierung
Das MNIST dataset ist Ihr Sprungbrett in das Gebiet des Deep Learning. Dieser Datensatz besteht aus Graustufenbildern handgeschriebener Ziffern von 0 bis 9. Ihre Aufgabe wäre es, die Ziffer mit einem Deep-Learning-Algorithmus zu identifizieren. Dies ist ein Mehrklassenklassifikationsproblem mit zehn möglichen Ausgabeklassen. Sie können ein CNN (Convolutional Neural Network) verwenden, um diese Klassifizierung durchzuführen.
Der MNIST-Datensatz wird in der Keras-Bibliothek in Python erstellt. Alles, was Sie tun müssen, ist Keras zu installieren, die Bibliothek zu importieren und den Datensatz zu laden. Dieser Datensatz enthält etwa 60,000 Bilder, sodass Sie etwa 80 % dieser Bilder für das Training und weitere 20 % für Tests verwenden können.
Datensatz: Kaggle-Ziffernerkenner-Datensatz
6. Stimmungsanalyse von Twitter-Daten
Auf Kaggle sind viele Datensätze zur Twitter-Sentimentanalyse verfügbar. Einer der beliebtesten Datensätze heißt sentiment140 und enthält 1.6 Millionen vorverarbeitete Tweets. Dies ist ein großartiger Datensatz für den Anfang, wenn Sie neu in der Sentimentanalyse sind.
Diese Tweets wurden mit Anmerkungen versehen und die Zielvariable ist die Stimmung. Die eindeutigen Werte in dieser Spalte sind 0 (negativ), 2 (neutral) und 4 (positiv).
Nachdem Sie diese Tweets vorverarbeitet und in Vektoren umgewandelt haben, können Sie sie mithilfe eines Klassifizierungsmodells mit der zugehörigen Stimmung trainieren. Sie können für diese Aufgabe Algorithmen wie die logistische Regression, den Entscheidungsbaum-Klassifikator oder den XGBoost-Klassifikator verwenden.
Eine andere Alternative besteht darin, ein Deep-Learning-Modell wie LSTM zu verwenden, um eine Stimmungsvorhersage zu erstellen. Dies ist jedoch ein etwas schwierigerer Ansatz und fällt in die Kategorie der fortgeschrittenen Projekte.
Sie können dieses beschriftete Dataset auch als Grundlage für zukünftige Sentiment-Analyseaufgaben verwenden.
Wenn Sie Tweets haben, die Sie sammeln und eine Sentiment-Analyse durchführen möchten, können Sie ein Modell verwenden, das zuvor auf Sentiment140 trainiert wurde, um zukünftige Vorhersagen zu treffen.
Datensatz: Kaggle Sentiment140-Datensatz
7. Pima Indian Diabetes Vorhersage
Der Pima Indian Diabetes Dataset wird verwendet, um basierend auf diagnostischen Messungen vorherzusagen, ob ein Patient Diabetes hat.
Basierend auf Variablen wie BMI, Alter und Insulin wird das Modell Diabetes bei Patienten vorhersagen. Dieser Datensatz enthält neun Variablen – acht unabhängige Variablen und eine Zielvariable.
Die Zielvariable ist 'Diabetes', Sie werden also 1 für das Vorliegen von Diabetes oder 0 für das Fehlen von Diabetes vorhersagen.
Dies ist ein Klassifikationsproblem, um mit Modellen wie der logistischen Regression, dem Entscheidungsbaum-Klassifikator oder dem Random-Forest-Klassifikator zu experimentieren.
Alle unabhängigen Variablen in diesem Dataset sind numerisch, daher ist dies ein großartiger Dataset für den Anfang, wenn Sie nur über minimale Erfahrung im Feature-Engineering verfügen.
Dies ist ein Kaggle-Dataset, das für Anfänger offen ist. Es gibt viele Online-Tutorials, die Sie durch die Codierung der Lösung in Python und R führen. Diese Notebook-Tutorials sind eine großartige Möglichkeit, zu lernen und sich die Hände schmutzig zu machen, damit Sie sich komplexeren Projekten zuwenden können.
Datensatz: Kaggle Pima Indischer Diabetes-Datensatz
8. Brustkrebsklassifikation
Der Brustkrebsklassifikationsdatensatz auf Kaggle ist eine weitere hervorragende Möglichkeit, Ihre maschinellen Lern- und KI-Fähigkeiten zu üben.
Die meisten überwachten maschinellen Lernprobleme in der realen Welt sind Klassifizierungsprobleme wie dieses. Eine zentrale Herausforderung bei der Erkennung von Brustkrebs ist die Unfähigkeit, zwischen gutartigen (nicht krebsartigen) und bösartigen (krebsartigen) Tumoren zu unterscheiden. Der Datensatz enthält Variablen wie "radius_mean" und "area_mean" des Tumors, und Sie müssen basierend auf diesen Merkmalen klassifizieren, ob ein Tumor krebsartig ist oder nicht. Dieser Datensatz ist relativ einfach zu bearbeiten, da keine wesentliche Datenvorverarbeitung erforderlich ist. Es ist auch ein ausgewogenes Dataset, das Ihre Aufgabe leichter handhabbar macht, da Sie nicht viel Feature-Engineering durchführen müssen.
Das Training eines einfachen logistischen Regressionsklassifikators für diesen Datensatz kann eine Genauigkeit von bis zu 0.90 erreichen.
Datensatz: Kaggle Brustkrebsklassifikationsdatensatz
9. TMDB-Box-Office-Vorhersage
Dieser Kaggle-Datensatz ist eine großartige Möglichkeit, Ihre Regressionsfähigkeiten zu üben. Es besteht aus etwa 7000 Filmen, und Sie müssen die vorhandenen Variablen verwenden, um die Einnahmen des Films vorherzusagen.
Zu den vorhandenen Datenpunkten gehören Besetzung, Crew, Budget, Sprachen und Veröffentlichungsdaten. Der Datensatz enthält 23 Variablen, von denen eine die Zielvariable ist.
Ein einfaches lineares Regressionsmodell kann Ihnen ein R-Quadrat von über 0.60 liefern, sodass Sie dieses Modell als Basisvorhersagemodell verwenden können. Versuchen Sie, diese Punktzahl mit Techniken wie der XGBoost-Regression oder Light GBM zu übertreffen.
Dieser Datensatz ist etwas komplexer als der vorherige, da einige Spalten Daten in verschachtelten Wörterbüchern enthalten. Sie müssen einige zusätzliche Vorverarbeitungen durchführen, um diese Daten in ein verwendbares Format zu extrahieren, um ein Modell darauf zu trainieren.
Die Umsatzprognose ist ein großartiges Projekt, das Sie in Ihrem Portfolio präsentieren können, da es für eine Vielzahl von Domänen außerhalb der Filmindustrie einen Geschäftswert bietet.
Datensatz: Kaggle TMDB Box Office-Vorhersagedatensatz
10. Kundensegmentierung in Python
Der Datensatz zur Kundensegmentierung auf Kaggle ist eine großartige Möglichkeit, um mit unüberwachtem maschinellem Lernen zu beginnen. Dieser Datensatz besteht aus Kundendetails wie Alter, Geschlecht, Jahreseinkommen und Ausgabenquote.
Sie müssen diese Variablen verwenden, um Kundensegmente zu erstellen. Gleiche Kunden sollten in ähnliche Cluster gruppiert werden. Sie können für diese Aufgabe Algorithmen wie K-Means-Clustering oder hierarchisches Clustering verwenden. Kundensegmentierungsmodelle können einen Geschäftswert bieten.
Unternehmen möchten ihre Kunden oft trennen, um für jeden Kundentyp unterschiedliche Marketingtechniken zu entwickeln.
Zu den Hauptzielen dieses Datensatzes gehören:
- Erreichen der Kundensegmentierung mit maschinellen Lerntechniken
- Identifizieren Sie Ihre Zielkunden für verschiedene Marketingstrategien
- Verstehen Sie, wie Marketingstrategien in der realen Welt funktionieren
Der Aufbau eines Clustering-Modells für diese Aufgabe kann Ihrem Portfolio helfen, sich abzuheben, und die Segmentierung ist eine großartige Fähigkeit, wenn Sie einen KI-bezogenen Job in der Marketingbranche suchen.
Datensatz: Kaggle Mall-Kundensegmentierungsdatensatz
Machine Learning-Projekte der Mittelstufe/Fortgeschrittene für Ihren Lebenslauf
Sobald Sie mit der Arbeit an einfachen Machine-Learning-Projekten wie den oben aufgeführten fertig sind, können Sie zu anspruchsvolleren Projekten übergehen.
1. Verkaufsprognosen
Zeitreihenprognosen sind eine in der Branche sehr häufig verwendete maschinelle Lernmethode. Die Verwendung von Daten aus der Vergangenheit zur Vorhersage zukünftiger Verkäufe hat eine Vielzahl von geschäftlichen Anwendungsfällen. Das Kaggle Demand Forecasting-Dataset kann verwendet werden, um dieses Projekt zu üben.
Dieser Datensatz enthält Verkaufsdaten aus 5 Jahren, und Sie müssen die Verkäufe für die nächsten drei Monate vorhersagen. Im Datensatz sind zehn verschiedene Geschäfte aufgeführt, und in jedem Geschäft gibt es 50 Artikel.
Um Verkäufe vorherzusagen, können Sie verschiedene Methoden ausprobieren – ARIMA, Vector Autoregression oder Deep Learning. Eine Methode, die Sie für dieses Projekt verwenden können, besteht darin, die Umsatzsteigerung für jeden Monat zu messen und aufzuzeichnen. Bauen Sie dann das Modell auf der Differenz zwischen den Verkäufen des Vormonats und des aktuellen Monats auf. Die Berücksichtigung von Faktoren wie Feiertagen und Saisonalität kann die Leistung Ihres Modells für maschinelles Lernen verbessern.
Datensatz: Kaggle Store Artikel-Nachfrageprognose
2. Kundenservice-Chatbot
Ein Kundenservice-Chatbot verwendet KI- und maschinelle Lerntechniken, um Kunden zu antworten, und übernimmt die Rolle eines menschlichen Vertreters. Ein Chatbot sollte in der Lage sein, einfache Fragen zu beantworten, um die Kundenbedürfnisse zu befriedigen.
Es gibt derzeit drei Arten von Chatbots, die Sie erstellen können:
- Regelbasierte Chatbots – Diese Chatbots sind nicht intelligent. Sie werden mit einer Reihe vordefinierter Regeln gefüttert und antworten Benutzern nur basierend auf diesen Regeln. Einige Chatbots werden auch mit einem vordefinierten Satz von Fragen und Antworten bereitgestellt und können keine Anfragen beantworten, die außerhalb dieser Domäne liegen.
- Unabhängige Chatbots – Unabhängige Chatbots verwenden maschinelles Lernen, um die Anfrage eines Benutzers zu verarbeiten und zu analysieren und entsprechende Antworten bereitzustellen.
- NLP-Chatbots — Diese Chatbots können Muster in Wörtern verstehen und zwischen verschiedenen Wortkombinationen unterscheiden. Sie sind die fortschrittlichsten aller drei Chatbot-Typen, da sie sich basierend auf den Wortmustern, an denen sie trainiert wurden, überlegen können, was sie als nächstes sagen sollen.
Ein NLP-Chatbot ist eine interessante Projektidee für maschinelles Lernen. Sie benötigen ein vorhandenes Korpus von Wörtern, um Ihr Modell zu trainieren, und Sie können dazu leicht Python-Bibliotheken finden. Sie können auch ein vordefiniertes Wörterbuch mit einer Liste von Frage-Antwort-Paaren haben, mit denen Sie Ihr Modell trainieren möchten.
3. Wildtiererkennungssystem
Wenn Sie in einem Gebiet mit häufigen Sichtungen von Wildtieren leben, ist es hilfreich, ein Objekterkennungssystem zu implementieren, um ihre Anwesenheit in Ihrer Nähe zu erkennen. Befolgen Sie diese Schritte, um ein System wie dieses zu erstellen:
- Installieren Sie Kameras in dem Bereich, den Sie überwachen möchten.
- Laden Sie alle Videoaufnahmen herunter und speichern Sie sie.
- Erstellen Sie eine Python-Anwendung, um eingehende Bilder zu analysieren und wilde Tiere zu identifizieren.
Microsoft hat eine Bilderkennungs-API entwickelt, die Daten verwendet, die von Wildkameras gesammelt wurden. Zu diesem Zweck haben sie ein vortrainiertes Open-Source-Modell namens MegaDetector veröffentlicht.
Sie können dieses vortrainierte Modell in Ihrer Python-Anwendung verwenden, um Wildtiere aus den gesammelten Bildern zu identifizieren. Es ist eines der spannendsten ML-Projekte, die bisher erwähnt wurden, und ist aufgrund der Verfügbarkeit eines vortrainierten Modells für diesen Zweck ziemlich einfach zu implementieren.
API: MegaDetektor
4. Spotify Music Recommender-System
Spotify verwendet KI, um seinen Nutzern Musik zu empfehlen. Sie können versuchen, ein Empfehlungssystem basierend auf öffentlich verfügbaren Daten auf Spotify aufzubauen.
Spotify verfügt über eine API, mit der Sie Audiodaten abrufen können – Sie können Funktionen wie das Veröffentlichungsjahr, den Schlüssel, die Popularität und den Interpreten finden. Um in Python auf diese API zuzugreifen, können Sie eine Bibliothek namens Spotipy verwenden.
Sie können auch den Spotify-Datensatz auf Kaggle verwenden, der etwa 600 Zeilen enthält. Mithilfe dieser Datensätze können Sie die beste Alternative zum Lieblingsmusiker jedes Benutzers vorschlagen. Sie können auch Songempfehlungen basierend auf dem von jedem Benutzer bevorzugten Inhalt und Genre erstellen.
Dieses Empfehlungssystem kann mit K-Means-Clustering erstellt werden – ähnliche Datenpunkte werden gruppiert. Sie können dem Endbenutzer Songs mit einem minimalen Intra-Cluster-Abstand empfehlen.
Sobald Sie das Empfehlungssystem erstellt haben, können Sie es auch in eine einfache Python-App umwandeln und bereitstellen. Sie können Benutzer dazu bringen, ihre Lieblingssongs auf Spotify einzugeben und dann Ihre Modellempfehlungen auf dem Bildschirm anzuzeigen, die die höchste Ähnlichkeit mit den Songs haben, die sie genossen haben.
Datensatz: Kaggle Spotify-Datensatz
5. Warenkorbanalyse
Die Warenkorbanalyse ist eine beliebte Methode, die von Einzelhändlern verwendet wird, um Artikel zu identifizieren, die zusammen verkauft werden können.
Beispielsweise:
Vor einigen Jahren stellte ein Research-Analyst einen Zusammenhang zwischen dem Verkauf von Bier und Windeln fest. Wenn ein Kunde den Laden betrat, um ein Bier zu kaufen, kaufte er meistens auch zusammen Windeln.
Aus diesem Grund begannen die Geschäfte, Bier und Windeln zusammen auf demselben Gang zu verkaufen, um den Umsatz zu steigern. Und es hat funktioniert.
Es wurde angenommen, dass Bier und Windeln eine hohe Korrelation aufweisen, da Männer sie häufig zusammen kaufen. Männer gingen in den Laden, um ein Bier zu kaufen, zusammen mit mehreren anderen Haushaltsgegenständen für ihre Familie (einschließlich Windeln). Dies scheint eine ziemlich unmögliche Korrelation zu sein, aber es ist passiert.
Die Warenkorbanalyse kann Unternehmen dabei helfen, versteckte Korrelationen zwischen Artikeln zu erkennen, die häufig zusammen gekauft werden. Diese Geschäfte können ihre Artikel dann so positionieren, dass die Leute sie leichter finden.
Sie können das Dataset zur Warenkorboptimierung auf Kaggle verwenden, um Ihr Modell zu erstellen und zu trainieren. Der am häufigsten verwendete Algorithmus zur Durchführung der Warenkorbanalyse ist der Apriori-Algorithmus.
Datensatz: Kaggle Market Basket Optimierungsdatensatz
6. Dauer der Taxifahrt in NYC
Der Datensatz enthält Variablen, die Start- und Endkoordinaten einer Taxifahrt, die Zeit und die Anzahl der Passagiere enthalten. Das Ziel dieses ML-Projekts ist es, die Reisedauer mit all diesen Variablen vorherzusagen. Es ist ein Regressionsproblem.
Variablen wie Zeit und Koordinaten müssen entsprechend vorverarbeitet und in ein verständliches Format umgewandelt werden. Dieses Projekt ist nicht so einfach, wie es scheint. Dieses Dataset weist auch einige Ausreißer auf, die die Vorhersage komplexer machen, sodass Sie dies mit Feature-Engineering-Techniken behandeln müssen.
Die Bewertungskriterien für diesen NYC Taxi Trip Kaggle-Wettbewerb sind RMSLE oder der Root Mean Squared Log Error. Die Top-Einreichung auf Kaggle erhielt einen RMSLE-Wert von 0.29 und das Basismodell von Kaggle hat einen RMSLE von 0.89.
Sie können jeden Regressionsalgorithmus verwenden, um dieses Kaggle-Projekt zu lösen, aber die leistungsstärksten Konkurrenten dieser Herausforderung haben entweder Gradient Boosting-Modelle oder Deep-Learning-Techniken verwendet.
Datensatz: Kaggle NYC Taxifahrtdauer-Datensatz
7. Spam-Erkennung in Echtzeit
In diesem Projekt können Sie Techniken des maschinellen Lernens verwenden, um zwischen Spam-Nachrichten (illegitime) und Ham-Nachrichten (legitim) zu unterscheiden.
Um dies zu erreichen, können Sie den Datensatz Kaggle SMS Spam Collection verwenden. Dieses Dataset enthält einen Satz von ca. 5 Nachrichten, die als Spam oder Ham gekennzeichnet wurden.
Sie können die folgenden Schritte ausführen, um ein Echtzeit-Spam-Erkennungssystem zu erstellen:
- Verwenden Sie das Dataset der SMS-Spam-Sammlung von Kaggle, um ein Modell für maschinelles Lernen zu trainieren.
- Erstellen Sie einen einfachen Chatroom-Server in Python.
- Stellen Sie das Machine Learning-Modell auf Ihrem Chatroom-Server bereit und stellen Sie sicher, dass der gesamte eingehende Datenverkehr das Modell passiert.
- Lassen Sie nur Nachrichten passieren, wenn sie als Ham klassifiziert sind. Wenn es sich um Spam handelt, geben Sie stattdessen eine Fehlermeldung zurück.
Um das Modell für maschinelles Lernen zu erstellen, müssen Sie zunächst die Textnachrichten im Datensatz der SMS-Spam-Sammlung von Kaggle vorverarbeiten. Wandeln Sie diese Nachrichten dann in einen Beutel mit Wörtern um, damit sie leicht zur Vorhersage an Ihr Klassifizierungsmodell übergeben werden können.
Datensatz: Kaggle SMS-Spam-Sammlungs-Datensatz
8. Myers-Briggs-Persönlichkeitsvorhersage-App
Sie können eine App erstellen, um den Persönlichkeitstyp eines Benutzers basierend auf seinen Aussagen vorherzusagen.
Der Myers-Briggs-Typenindikator kategorisiert Personen in 16 verschiedene Persönlichkeitstypen. Es ist einer der beliebtesten Persönlichkeitstests weltweit.
Wenn Sie versuchen, Ihren Persönlichkeitstyp im Internet zu finden, finden Sie viele Online-Quiz. Nach Beantwortung von ca. 20–30 Fragen werden Sie einem Persönlichkeitstyp zugeordnet.
In diesem Projekt können Sie jedoch maschinelles Lernen verwenden, um den Persönlichkeitstyp jeder Person nur basierend auf einem Satz vorherzusagen.
Hier sind die Schritte, die Sie unternehmen können, um dies zu erreichen:
- Erstellen Sie ein Klassifizierungsmodell mit mehreren Klassen und trainieren Sie es mit dem Myers-Briggs-Dataset auf Kaggle. Dies beinhaltet eine Datenvorverarbeitung (Entfernen von Stoppwörtern und unnötigen Zeichen) und einige Feature-Engineering. Zu diesem Zweck können Sie ein flaches Lernmodell wie die logistische Regression oder ein Deep-Learning-Modell wie ein LSTM verwenden.
- Sie können eine Anwendung erstellen, mit der Benutzer einen beliebigen Satz ihrer Wahl eingeben können.
- Speichern Sie die Gewichtungen Ihres Machine Learning-Modells und integrieren Sie das Modell in Ihre App. Nachdem der Endbenutzer ein Wort eingegeben hat, zeigen Sie seinen Persönlichkeitstyp auf dem Bildschirm an, nachdem das Modell eine Vorhersage gemacht hat.
Datensatz: Kaggle MBTI-Typ-Datensatz
9. Stimmungserkennungssystem + Empfehlungssystem
Warst du jemals traurig und hattest das Gefühl, dass du etwas Lustiges sehen musst, um dich aufzuheitern? Oder waren Sie jemals so frustriert, dass Sie sich entspannen und etwas Entspannendes ansehen mussten?
Dieses Projekt ist eine Kombination aus zwei kleineren Projekten.
Sie können eine App erstellen, die die Stimmung eines Benutzers basierend auf Live-Webmaterial und einen Filmvorschlag basierend auf dem Gesichtsausdruck des Benutzers erkennt.
Um dies zu erstellen, können Sie die folgenden Schritte ausführen:
- Erstellen Sie eine App, die einen Live-Video-Feed aufnehmen kann.
- Verwenden Sie die Gesichtserkennungs-API von Python, um Gesichter und Emotionen auf Objekten im Video-Feed zu erkennen.
- Nachdem Sie diese Emotionen in verschiedene Kategorien eingeteilt haben, beginnen Sie mit dem Aufbau des Empfehlungssystems. Dies kann ein Satz hartcodierter Werte für jede Emotion sein, was bedeutet, dass Sie für die Empfehlungen kein maschinelles Lernen einbeziehen müssen.
- Sobald Sie mit der Erstellung der App fertig sind, können Sie sie auf Heroku, Dash oder einem Webserver bereitstellen.
10. Analyse der YouTube-Kommentar-Sentiment-Analyse
In diesem Projekt können Sie ein Dashboard erstellen, das die allgemeine Stimmung beliebter YouTuber analysiert.
Über 2 Milliarden Nutzer schauen sich mindestens einmal im Monat YouTube-Videos an. Beliebte YouTuber sammeln mit ihren Inhalten Hunderte von Milliarden Views. Viele dieser Influencer sind jedoch aufgrund von Kontroversen in der Vergangenheit in die Kritik geraten, und die öffentliche Wahrnehmung ändert sich ständig.
Sie können ein Stimmungsanalysemodell erstellen und ein Dashboard erstellen, um die Stimmungen rund um Prominente im Laufe der Zeit zu visualisieren.
Um dies zu erstellen, können Sie die folgenden Schritte ausführen:
- Scrapieren Sie Kommentare der Videos von den YouTubern, die Sie analysieren möchten.
- Verwenden Sie ein vortrainiertes Stimmungsanalysemodell, um Vorhersagen zu jedem Kommentar zu treffen.
- Visualisieren Sie die Vorhersagen des Modells auf einem Dashboard. Sie können sogar eine Dashboard-App mit Bibliotheken wie Dash (Python) oder Shiny (R) erstellen.
- Sie können das Dashboard interaktiv gestalten, indem Sie es Benutzern ermöglichen, die Stimmung nach Zeitrahmen, Name des YouTubers und Videogenre zu filtern.
Zusammenfassung
Die Branche des maschinellen Lernens ist groß und voller Möglichkeiten. Wenn Sie ohne formalen Bildungshintergrund in die Branche einsteigen möchten, zeigen Sie am besten durch Projekte, dass Sie über die erforderlichen Fähigkeiten für die Arbeit verfügen.
Der Aspekt des maschinellen Lernens der meisten oben aufgeführten Projekte ist ziemlich einfach. Aufgrund der Demokratisierung des maschinellen Lernens kann der Modellbildungsprozess einfach durch vortrainierte Modelle und APIs erreicht werden.
Open-Source-Projekte für künstliche Intelligenz wie Keras und FastAI haben ebenfalls dazu beigetragen, den Modellerstellungsprozess zu beschleunigen. Der knifflige Teil dieses maschinellen Lernens und Data-Science-Projekte ist die Datensammlung, Vorverarbeitung und Bereitstellung. Wenn Sie einen Job im maschinellen Lernen bekommen, sind die meisten Algorithmen ziemlich einfach zu erstellen. Es dauert nur ein oder zwei Tage, um ein Verkaufsprognosemodell zu erstellen. Sie werden die meiste Zeit damit verbringen, geeignete Datenquellen zu finden und Ihre Modelle in Produktion zu bringen, um einen Geschäftswert zu erzielen.
Original. Mit Genehmigung erneut veröffentlicht.
Related:
Quelle: https://www.kdnuggets.com/2021/09/20-machine-learning-projects-hired.html
- "
- &
- 000
- 2021
- 9
- Zugang
- Konto
- Zusätzliche
- AI
- Alkohol
- Algorithmus
- Algorithmen
- Alle
- Zulassen
- Analyse
- Analytiker
- Tiere
- Bienen
- APIs
- App
- Anwendung
- Apps
- Bereich
- um
- künstliche Intelligenz
- Künstler
- Audio-
- Automatisiert
- Verfügbarkeit
- Tasche der Wörter
- Baseline
- Grundlagen
- Bier
- BESTE
- Milliarde
- Blut
- Stärkung
- Box
- Abendkasse
- Brustkrebs
- bauen
- Building
- Geschäft
- Unternehmen
- Kaufe
- Kameras
- Krebs
- Fälle
- Prominente
- challenges
- Chatbot
- Chatbots
- Einstufung
- CNN
- Programmierung
- Kolonne
- Bemerkungen
- Unternehmen
- Wettbewerb
- Konkurrenz
- Festigung
- Inhalt
- Faltungs neuronales Netzwerk
- Paar
- Kundenservice
- Kunden
- Dash
- Armaturenbrett
- technische Daten
- Datenwissenschaft
- Datum
- Tag
- Deal
- Entscheidungsbaum
- tiefe Lernen
- Demand
- Nachfragevorhersage
- Entdeckung
- Diabetes
- DID
- Stelle
- Ziffern
- Krankheit
- Abstand
- Domains
- Bildungs-
- Emotionen
- Entwicklung
- Tritt ein
- Excel
- ERFAHRUNGEN
- Experiment
- Gesicht
- Gesichtserkennung
- Gesichter
- Familie
- Merkmal
- Eigenschaften
- Fed
- Filme
- Feuer
- Vorname
- passen
- folgen
- Format
- voller
- komisch
- Zukunft
- Geschlecht
- Ziele
- gut
- Graustufen
- groß
- Gesundheitswesen
- Healthcare-Industrie
- High
- Verleih
- Ferien
- Häuser
- Haushalt
- Ultraschall
- HTTPS
- hunderte
- Idee
- Login
- identifizieren
- Image
- Bilderkennung
- Einschließlich
- Einkommen
- Erhöhung
- Branchen
- Energiegewinnung
- Meinungsmacher
- Information
- Intelligenz
- interaktive
- Internet
- IT
- Job
- Jobs
- keras
- Wesentliche
- Sprachen
- grosse
- LERNEN
- gelernt
- lernen
- Niveau
- Bibliothek
- !
- LINK
- Liste
- Belastung
- Lang
- Maschinelles Lernen
- Techniken des maschinellen Lernens
- Mehrheit
- Making
- Markt
- Marketing
- Marketing-Industrie
- messen
- mittlere
- Herren
- Microsoft
- Million
- ML
- Modell
- Monat
- Stimmung
- Am beliebtesten
- schlauer bewegen
- Film
- Filme
- Musik
- Musiker
- Netzwerk
- Neural
- neuronale Netzwerk
- News
- Nlp
- NYC
- Objekterkennung
- bieten
- Online
- Online Kurs
- XNUMXh geöffnet
- Entwicklungsmöglichkeiten
- Andere
- Paradigma
- Patienten
- Personen
- Leistung
- Persönlichkeit
- Beliebt
- Mappe
- Prognose
- Prognosen
- Gegenwart
- Druck
- Preis
- Preisvorhersage
- gebühr
- Produktion
- PRODUKTIVITÄT
- Profis
- Programm
- Projekt
- Projekte
- Öffentlichkeit
- Python
- Qualität
- realen Welt
- Echtzeit
- Regression
- Forschungsprojekte
- Die Ergebnisse
- Einzelhändler
- Einnahmen
- Risiko
- Risikofaktoren
- Ohne eine erfahrene Medienplanung zur Festlegung von Regeln und Strategien beschleunigt der programmatische Medieneinkauf einfach die Rate der verschwenderischen Ausgaben.
- Vertrieb
- Wissenschaft
- Wissenschaftler
- Bildschirm
- Gefühl
- kompensieren
- verschieben
- Einfacher
- Fähigkeiten
- SMS
- So
- verkauft
- LÖSEN
- Spam
- Geschwindigkeit
- verbringen
- Ausgabe
- Spotify
- Anfang
- begonnen
- speichern
- Läden
- Geschichten
- Strategie
- System
- Target
- Testen
- Tests
- Die Grundlagen
- die Welt
- Zeit
- Top
- der Verkehr
- Ausbildung
- Tutorials
- Nutzer
- Dienstprogramme
- Wert
- Video
- Videos
- Ansehen
- Netz
- Web-Server
- WHO
- Tiere
- WEIN
- .
- Worte
- Arbeiten
- Arbeitsablauf.
- Belegschaft
- weltweit wie ausgehandelt und gekauft ausgeführt wird.
- X
- Jahr
- Jahr
- Youtube
- youtuber