20 projektów uczenia maszynowego, dzięki którym zostaniesz zatrudniony
Jeśli chcesz wejść na rynek pracy z uczeniem maszynowym i nauką danych, musisz wykazać się swoimi umiejętnościami, zwłaszcza jeśli jesteś samoukiem poprzez kursy online i bootcampy. Portfolio projektów to świetny sposób na przećwiczenie nowego rzemiosła i przedstawienie przekonujących dowodów na to, że pracownik powinien zatrudnić Cię zamiast konkurencji.
By Chuszbu Szach, Content Manager w ProjectPro.
Branża sztucznej inteligencji i uczenia maszynowego rozwija się jak nigdy dotąd. Od 2021 r. wzrost wykorzystania sztucznej inteligencji w firmach wytworzy 2.9 biliona dolarów wartości biznesowej. Sztuczna inteligencja zautomatyzowała wiele branż na całym świecie i zmieniła sposób ich działania. Większość dużych firm wykorzystuje sztuczną inteligencję, aby zmaksymalizować wydajność w swoich przepływach pracy, a branże takie jak marketing i opieka zdrowotna przeszły zmianę paradygmatu w wyniku konsolidacji AI.
Źródło obrazu: Unsplash
Z tego powodu w ciągu ostatnich kilku lat pojawiło się rosnące zapotrzebowanie na specjalistów AI. W latach 100–2015 liczba ofert pracy związanych ze sztuczną inteligencją i uczeniem maszynowym wzrosła prawie o 2018%. Od tego czasu liczba ta wzrosła i przewiduje się, że wzrośnie w 2021 r.
Jeśli chcesz wejść do branży uczenia maszynowego, dobrą wiadomością jest to, że nie brakuje dostępnych miejsc pracy. Firmy potrzebują utalentowanej siły roboczej, która jest w stanie zapoczątkować przejście na uczenie maszynowe. Jednak rynek pracy jest infiltrowany przez ludzi, którzy chcą włamać się do branży danych. Ponieważ żaden konkretny program studiów nie jest przeznaczony dla studentów, którzy chcą uczyć się uczenia maszynowego, wielu początkujących praktyków ML jest samoukami.
Na kurs uczenia maszynowego Andrew Ng zapisało się ponad 4 miliony uczniów.
Niestety zapisanie się na kursy online lub udział w Bootcampie z uczeniem maszynowym pomaga w nauce teoretycznych koncepcji, ale nie przygotowuje do pracy w branży. Po zapoznaniu się z teorią, można wykonać o wiele więcej praktycznej pracy. Załóżmy, że znasz podstawy algorytmów uczenia maszynowego — rozumiesz, jak działają modele regresji i klasyfikacji oraz znasz różne rodzaje metod grupowania.
Jak zamierzasz ćwiczyć umiejętności, których się nauczyłeś, aby rozwiązać rzeczywisty problem? Prosta odpowiedź brzmi: Ćwicz, Ćwicz i Ćwicz zróżnicowane projekty uczenia maszynowego.
Gdy skończysz uczyć się teoretycznych koncepcji, powinieneś rozpocząć pracę nad projektami AI i uczenia maszynowego. Projekty te zapewnią Ci praktykę niezbędną do doskonalenia umiejętności w terenie, a jednocześnie stanowią dużą wartość dodaną do Twojego portfolio uczenia maszynowego.
Bez trudu przyjrzyjmy się niektórym pomysłom na projekty ML, które nie tylko sprawią, że Twoje portfolio będzie dobrze wyglądać, ale także znacznie poprawią Twoje umiejętności uczenia maszynowego. To jest wyselekcjonowana lista jednych z najlepszych projektów uczenia maszynowego dla studentów, początkujących praktyków uczenia maszynowego i osób z dziedzin nietechnicznych. Możesz pracować nad tymi projektami niezależnie od swojego pochodzenia, o ile masz trochę umiejętności kodowania i umiejętności uczenia maszynowego. To jest lista projektów uczenia maszynowego dla początkujących i zaawansowanych.
Jeśli jesteś nowy w branży danych i masz niewielkie doświadczenie w rzeczywistych projektach, zacznij od projektów ML na poziomie początkującym, zanim przejdziesz do bardziej wymagających.
Projekty uczenia maszynowego dla początkujących
1. Przewidywanie Kaggle Titanica
Pierwszy projekt na tej liście jest jednym z najprostszych projektów ML, jakie możesz podjąć. Ten projekt jest polecany osobom początkującym w branży danych. Zbiór danych Titanica jest dostępny na Kaggle, a link do jego pobrania znajduje się poniżej.
Ten zbiór danych dotyczy pasażerów, którzy podróżowali na Titanicu. Zawiera szczegółowe informacje, takie jak wiek pasażera, opłata za bilet, kabina i płeć. Na podstawie tych informacji będziesz musiał przewidzieć, czy ci pasażerowie przeżyli, czy nie.
Jest to prosty problem klasyfikacji binarnej, a wszystko, co musisz zrobić, to przewidzieć, czy konkretny pasażer przeżył. Najlepszą rzeczą w tym zbiorze danych jest to, że całe wstępne przetwarzanie jest wykonywane za Ciebie. Masz ładny, czysty zestaw danych do trenowania modelu uczenia maszynowego.
Ponieważ jest to problem z klasyfikacją, do zbudowania modelu predykcyjnego można użyć algorytmów, takich jak regresja logistyczna, drzewa decyzyjne i losowe lasy. Możesz także wybrać modele zwiększające gradient, takie jak klasyfikator XGBoost, dla tego projektu uczenia maszynowego dla początkujących, aby uzyskać lepsze wyniki.
Zestaw danych: Zbiór danych Kaggle Titanic
2. Przewidywanie ceny domu
Dane o cenach domów są również świetne na początek, jeśli jesteś początkującym uczeniem maszynowym. Ten projekt będzie korzystać z zestawu danych o cenach domów dostępnych w Kaggle. Zmienną docelową w tym zestawie danych jest cena konkretnego domu, którą należy przewidzieć na podstawie informacji takich jak powierzchnia domu, liczba sypialni, liczba łazienek i narzędzia.
Jest to problem regresji i do zbudowania modelu można użyć technik, takich jak regresja liniowa. Możesz również zastosować bardziej zaawansowane podejście i użyć losowego regresora lasu lub wzmocnienia gradientu, aby przewidzieć ceny domów.
Ten zbiór danych ma 80 kolumn, z wyłączeniem zmiennej docelowej. Będziesz musiał zastosować pewne techniki redukcji wymiarów, aby ręcznie wybrać cechy, ponieważ dodanie zbyt wielu zmiennych może spowodować słabą wydajność modelu.
W zbiorze danych znajduje się również wiele zmiennych kategorycznych, więc musisz odpowiednio sobie z nimi radzić za pomocą technik, takich jak kodowanie jednokrotne lub kodowanie etykiet.
Po zbudowaniu modelu możesz przesłać swoje prognozy do konkursu cen domów w Kaggle, ponieważ jest on nadal otwarty. Najlepszy RMSE osiągnięty przez zawodników to 0, a wiele osób osiągnęło dobre wyniki, takie jak 0.15 za pomocą technik regresji i wzmacniania gradientu.
Zestaw danych: Zestaw danych prognozy cenowej Kaggle House
3. Przewidywanie jakości wina
Zestaw danych prognozowania jakości wina jest również bardzo popularny wśród początkujących w branży danych. W tym projekcie będziesz używać stałej kwasowości, kwasowości lotnej, alkoholu i gęstości do przewidywania jakości czerwonego wina.
Można to potraktować jako problem klasyfikacji lub regresji. ten jakość wina zmienna, którą musisz przewidzieć w zbiorze danych, mieści się w zakresie od 0 do 10, dzięki czemu możesz zbudować model regresji do przewidywania. Innym podejściem, które możesz zastosować, jest rozbicie wartości (od 0 do 10) na dyskretne przedziały i przekształcenie ich w zmienne kategorialne. Możesz utworzyć trzy kategorie, na przykład — Średnio zaawansowany, i wysoka.
Następnie można zbudować klasyfikator drzewa decyzyjnego lub dowolny model klasyfikacji, aby dokonać prognozy. Jest to stosunkowo czysty i prosty zestaw danych do ćwiczenia umiejętności uczenia maszynowego w zakresie regresji i klasyfikacji.
Zestaw danych: Zbiór danych o jakości czerwonego wina Kaggle
4. Przewidywanie chorób serca
Jeśli chcesz poznać zestaw danych w branży opieki zdrowotnej, jest to świetny zestaw danych na początek. Ten zestaw danych służy do przewidywania 10-letniego ryzyka CHD (choroby wieńcowej serca). Zmiennymi zależnymi w tym zestawie danych są czynniki ryzyka chorób serca, w tym cukrzyca, palenie tytoniu, wysokie ciśnienie krwi i wysoki poziom cholesterolu.
Zmienną niezależną jest 10-letnie ryzyko CHD. Jest to problem klasyfikacji binarnej, a zmienna docelowa wynosi 0 lub 1-0 dla pacjentów, u których nigdy nie rozwinęła się choroba serca i 1 dla pacjentów, u których wystąpiła choroba. W tym zbiorze danych można dokonać selekcji cech, aby zidentyfikować cechy, które najbardziej przyczyniają się do ryzyka serca. Następnie możesz dopasować model klasyfikacji do zmiennych niezależnych.
Ten zbiór danych jest wysoce niezrównoważony, ponieważ wielu pacjentów w tym zbiorze danych nie nie rozwijać chorobę serca. Niezrównoważony zestaw danych musi być obsługiwany przy użyciu odpowiednich technik inżynierii funkcji, takich jak oversampling, weight tuning lub undersampling. Jeśli nie zostanie odpowiednio potraktowany, otrzymasz model, który po prostu przewiduje klasę większości dla każdego punktu danych i nie może zidentyfikować pacjentów, którzy zrobił rozwijać chorobę serca. Jest to doskonały zestaw danych, który pozwoli Ci ćwiczyć swoje umiejętności w zakresie inżynierii funkcji i uczenia maszynowego.
Zestaw danych: Zbiór danych dotyczących chorób serca Kaggle
5. Klasyfikacja cyfr MNIST
Połączenia MNIST zestaw danych to Twój krok w kierunku głębokiego uczenia się. Ten zestaw danych składa się z obrazów odręcznych cyfr w skali szarości od 0 do 9. Twoim zadaniem będzie zidentyfikowanie cyfry za pomocą algorytmu głębokiego uczenia. Jest to problem klasyfikacji wieloklasowej z dziesięcioma możliwymi klasami wyjściowymi. Do przeprowadzenia tej klasyfikacji można użyć CNN (Convolutional Neural Network).
Zestaw danych MNIST jest zbudowany w bibliotece Keras w Pythonie. Wszystko, co musisz zrobić, to zainstalować Keras, zaimportować bibliotekę i załadować zestaw danych. Ten zestaw danych zawiera około 60,000 80 obrazów, dzięki czemu około 20% tych obrazów można wykorzystać do trenowania, a kolejne XNUMX% do testowania.
Zestaw danych: Zestaw danych rozpoznawania cyfr Kaggle
6. Analiza nastrojów danych z Twittera
W Kaggle dostępnych jest wiele zestawów danych do analizy nastrojów na Twitterze. Jednym z najpopularniejszych zbiorów danych jest sentyment140, który zawiera 1.6 miliona wstępnie przetworzonych tweetów. To świetny zestaw danych na początek, jeśli dopiero zaczynasz analizować nastroje.
Te tweety zostały opatrzone adnotacjami, a zmienną docelową jest sentyment. Unikalne wartości w tej kolumnie to 0 (ujemne), 2 (neutralne) i 4 (dodatnie).
Po wstępnym przetworzeniu tych tweetów i skonwertowaniu ich na wektory możesz użyć modelu klasyfikacji, aby wytrenować je z powiązanymi opiniami. Do tego zadania można użyć algorytmów, takich jak regresja logistyczna, klasyfikator drzewa decyzyjnego lub klasyfikator XGBoost.
Inną alternatywą jest użycie modelu głębokiego uczenia, takiego jak LSTM, w celu wymyślenia przewidywania nastrojów. Jest to jednak nieco trudniejsze podejście i należy do kategorii projektów zaawansowanych.
Możesz również użyć tego oznaczonego zestawu danych jako podstawy dla przyszłych zadań analizy nastrojów.
Jeśli masz jakiekolwiek tweety, które chcesz zebrać i przeprowadzić analizę sentymentu, możesz użyć modelu, który został wcześniej przeszkolony w zakresie sentymentu140, aby tworzyć prognozy na przyszłość.
Zestaw danych: Zbiór danych Kaggle Sentiment140
7. Przewidywanie indyjskiej cukrzycy Pima
Zestaw danych Pima Indian Diabetes Dataset służy do przewidywania, czy pacjent ma cukrzycę na podstawie pomiarów diagnostycznych.
Na podstawie zmiennych, takich jak BMI, wiek i insulina, model będzie przewidywał cukrzycę u pacjentów. Ten zbiór danych ma dziewięć zmiennych — osiem zmiennych niezależnych i jedną zmienną docelową.
Zmienna docelowa to 'cukrzyca', więc można przewidzieć 1 dla obecności cukrzycy lub 0 dla braku cukrzycy.
Jest to problem klasyfikacji do eksperymentowania z modelami, takimi jak regresja logistyczna, klasyfikator drzew decyzyjnych lub losowy klasyfikator lasów.
Wszystkie niezależne zmienne w tym zestawie danych są numeryczne, więc jest to świetny zestaw danych na początek, jeśli masz minimalne doświadczenie w inżynierii funkcji.
To jest zbiór danych Kaggle otwarty dla początkujących. Istnieje wiele samouczków online, które przeprowadzą Cię przez kodowanie rozwiązania w Python i R. Te samouczki zeszytu to świetny sposób na naukę i ubrudzenie sobie rąk, dzięki czemu możesz przejść do bardziej złożonych projektów.
Zestaw danych: Zbiór danych dotyczących indyjskiej cukrzycy Kaggle Pima
8. Klasyfikacja raka piersi
Zestaw danych klasyfikacji raka piersi w Kaggle to kolejny doskonały sposób na ćwiczenie umiejętności uczenia maszynowego i sztucznej inteligencji.
Większość nadzorowanych problemów z uczeniem maszynowym w prawdziwym świecie to problemy z klasyfikacją, takie jak ten. Kluczowym wyzwaniem w identyfikacji raka piersi jest niemożność rozróżnienia między guzami łagodnymi (nienowotworowymi) a złośliwymi (nowotworowymi). Zestaw danych zawiera zmienne, takie jak „radius_mean” i „area_mean” guza, a czy guz jest rakowy, czy nie, będziesz musiał dokonać klasyfikacji na podstawie tych cech. Ten zestaw danych jest stosunkowo łatwy w obsłudze, ponieważ nie ma potrzeby wykonywania żadnego znaczącego wstępnego przetwarzania danych. Jest to również dobrze wyważony zestaw danych, dzięki czemu Twoje zadanie jest łatwiejsze w zarządzaniu, ponieważ nie musisz dużo zajmować się inżynierią funkcji.
Uczenie prostego klasyfikatora regresji logistycznej na tym zbiorze danych może zapewnić dokładność nawet 0.90.
Zestaw danych: Zbiór danych klasyfikacji raka piersi według Kaggle
9. Przewidywanie kas TMDB
Ten zestaw danych Kaggle to świetny sposób na ćwiczenie umiejętności regresji. Składa się z około 7000 filmów i będziesz musiał użyć obecnych zmiennych, aby przewidzieć dochód filmu.
Obecne punkty danych obejmują obsadę, załogę, budżet, języki i daty wydania. W zbiorze danych znajdują się 23 zmienne, z których jedna jest zmienną docelową.
Podstawowy model regresji liniowej może dać R-kwadrat powyżej 0.60, więc możesz go użyć jako podstawowego modelu predykcji. Spróbuj pobić ten wynik, używając technik takich jak regresja XGBoost lub Light GBM.
Ten zestaw danych jest nieco bardziej złożony niż poprzedni, ponieważ niektóre kolumny zawierają dane w zagnieżdżonych słownikach. Musisz wykonać dodatkowe przetwarzanie wstępne, aby wyodrębnić te dane w użytecznym formacie, aby wytrenować na nich model.
Prognozowanie przychodów to świetny projekt do zaprezentowania w swoim portfolio, ponieważ zapewnia wartość biznesową dla różnych dziedzin spoza branży filmowej.
Zestaw danych: Kaggle TMDB Zestaw danych prognozy Box Office
10. Segmentacja klientów w Pythonie
Zestaw danych do segmentacji klientów w Kaggle to świetny sposób na rozpoczęcie pracy z nienadzorowanym uczeniem maszynowym. Ten zbiór danych składa się z danych klientów, takich jak wiek, płeć, roczny dochód i wynik wydatków.
Musisz użyć tych zmiennych do tworzenia segmentów klientów. Klienci, którzy są podobni, powinni być pogrupowani w podobne klastry. Do tego zadania można użyć algorytmów, takich jak grupowanie K-średnich lub grupowanie hierarchiczne. Modele segmentacji klientów mogą zapewnić wartość biznesową.
Firmy często chcą segregować swoich klientów, aby wymyślić różne techniki marketingowe dla każdego typu klienta.
Główne cele tego zbioru danych obejmują:
- Osiągnięcie segmentacji klientów za pomocą technik uczenia maszynowego
- Zidentyfikuj docelowych klientów dla różnych strategii marketingowych
- Dowiedz się, jak strategie marketingowe działają w prawdziwym świecie
Zbudowanie modelu klastrowania do tego zadania może wyróżnić Twoje portfolio, a segmentacja jest świetną umiejętnością, jeśli szukasz pracy związanej z AI w branży marketingowej.
Zestaw danych: Zbiór danych segmentacji klientów Kaggle Mall
Projekty uczenia maszynowego na poziomie średniozaawansowanym/zaawansowanym dla twojego CV
Po zakończeniu pracy nad prostymi projektami uczenia maszynowego, takimi jak te wymienione powyżej, możesz przejść do bardziej wymagających projektów.
1. Prognozowanie sprzedaży
Prognozowanie szeregów czasowych to technika uczenia maszynowego bardzo często stosowana w branży. Wykorzystanie danych z przeszłości do przewidywania przyszłej sprzedaży ma wiele biznesowych przypadków użycia. Do przećwiczenia tego projektu można użyć zestawu danych prognozowania popytu Kaggle.
Ten zestaw danych zawiera dane o sprzedaży z 5 lat i będziesz musiał przewidywać sprzedaż na następne trzy miesiące. W zestawie danych znajduje się dziesięć różnych sklepów, a każdy sklep zawiera 50 pozycji.
Aby przewidzieć sprzedaż, możesz wypróbować różne metody — ARIMA, Autoregresję Wektorową lub głębokie uczenie. Jedną z metod, którą możesz zastosować w tym projekcie, jest mierzenie wzrostu sprzedaży w każdym miesiącu i rejestrowanie go. Następnie zbuduj model na różnicy między sprzedażą z poprzedniego miesiąca a sprzedażą w bieżącym miesiącu. Uwzględnienie takich czynników jak święta i sezonowość może poprawić wydajność Twojego modelu uczenia maszynowego.
Zestaw danych: Prognozowanie popytu na przedmioty w sklepie Kaggle
2. Chatbot obsługi klienta
Chatbot obsługi klienta wykorzystuje sztuczną inteligencję i techniki uczenia maszynowego, aby odpowiadać klientom, przyjmując rolę ludzkiego przedstawiciela. Chatbot powinien być w stanie odpowiedzieć na proste pytania, aby zaspokoić potrzeby klienta.
Obecnie istnieją trzy rodzaje chatbotów, które możesz zbudować:
- Chatboty oparte na regułach — te chatboty nie są inteligentne. Są karmione zestawem wstępnie zdefiniowanych reguł i odpowiadają użytkownikom tylko na podstawie tych reguł. Niektóre chatboty mają również predefiniowany zestaw pytań i odpowiedzi i nie mogą odpowiadać na zapytania spoza tej domeny.
- Niezależne chatboty — Niezależne chatboty wykorzystują uczenie maszynowe do przetwarzania i analizowania żądań użytkownika oraz odpowiedniego udzielania odpowiedzi.
- Chatboty NLP — Te chatboty potrafią rozumieć wzorce w słowach i rozróżniać różne kombinacje słów. Są najbardziej zaawansowanymi ze wszystkich trzech typów chatbotów, ponieważ potrafią wymyślić, co powiedzieć dalej, na podstawie wzorców słów, w których zostali przeszkoleni.
Chatbot NLP to ciekawy pomysł na projekt uczenia maszynowego. Będziesz potrzebować istniejącego korpusu słów, aby wytrenować swój model, i możesz łatwo znaleźć biblioteki Pythona, aby to zrobić. Możesz także mieć wstępnie zdefiniowany słownik z listą par pytań i odpowiedzi, które chcesz wytrenować w swoim modelu.
3. System wykrywania dzikich zwierząt
Jeśli mieszkasz na obszarze, na którym często widuje się dzikie zwierzęta, warto wdrożyć system wykrywania obiektów w celu identyfikacji ich obecności na danym obszarze. Wykonaj następujące kroki, aby zbudować taki system:
- Zainstaluj kamery w obszarze, który chcesz monitorować.
- Pobierz wszystkie materiały wideo i zapisz je.
- Utwórz aplikację w języku Python, aby analizować przychodzące obrazy i identyfikować dzikie zwierzęta.
Microsoft zbudował interfejs Image Recognition API przy użyciu danych zebranych z fotopułapek. W tym celu wydali przeszkolony model open-source o nazwie MegaDetector.
Możesz użyć tego wstępnie wytrenowanego modelu w swojej aplikacji w języku Python, aby zidentyfikować dzikie zwierzęta na podstawie zebranych obrazów. Jest to jeden z najbardziej ekscytujących dotychczas wspomnianych projektów ML i jest dość prosty do wdrożenia ze względu na dostępność wstępnie wytrenowanego modelu do tego celu.
OGIEŃ: Megadetektor
4. System rekomendacji muzyki Spotify
Spotify wykorzystuje sztuczną inteligencję do polecania muzyki swoim użytkownikom. Możesz spróbować zbudować system rekomendacji na podstawie publicznie dostępnych danych na Spotify.
Spotify ma interfejs API, którego możesz użyć do pobierania danych dźwiękowych — możesz znaleźć takie funkcje, jak rok wydania, klucz, popularność i wykonawca. Aby uzyskać dostęp do tego interfejsu API w Pythonie, możesz użyć biblioteki o nazwie Spotipy.
Możesz także użyć zestawu danych Spotify na Kaggle, który ma około 600 XNUMX wierszy. Korzystając z tych zestawów danych, możesz zaproponować najlepszą alternatywę dla ulubionego muzyka każdego użytkownika. Możesz także wymyślić rekomendacje utworów na podstawie treści i gatunku preferowanego przez każdego użytkownika.
Ten system rekomendacji można zbudować przy użyciu klastrowania K-Means — podobne punkty danych zostaną zgrupowane. Możesz polecać utwory z minimalną odległością między klastrami użytkownikowi końcowemu.
Po zbudowaniu systemu rekomendacji możesz również przekształcić go w prostą aplikację Pythona i wdrożyć. Możesz zachęcić użytkowników do wprowadzania swoich ulubionych utworów w Spotify, a następnie wyświetlać na ekranie rekomendacje modeli, które są najbardziej podobne do ulubionych utworów.
Zestaw danych: Zbiór danych Kaggle Spotify
5. Analiza koszyka rynkowego
Analiza koszyka rynkowego to popularna technika wykorzystywana przez sprzedawców detalicznych do identyfikowania przedmiotów, które mogą być sprzedawane razem.
Na przykład:
Kilka lat temu analityk badawczy zidentyfikował korelację między sprzedażą piwa a pieluchami. W większości przypadków, ilekroć klient wchodził do sklepu po piwo, kupował też razem pieluchy.
Z tego powodu sklepy zaczęły sprzedawać piwo i pieluchy razem w tym samym korytarzu jako strategię marketingową mającą na celu zwiększenie sprzedaży. I zadziałało.
Założono, że piwo i pieluchy wykazywały wysoką korelację, ponieważ mężczyźni często kupowali je razem. Mężczyźni wchodzili do sklepu, aby kupić piwo, a także kilka innych artykułów gospodarstwa domowego dla swojej rodziny (w tym pieluchy). Wydaje się to całkiem niemożliwą korelacją, ale tak się stało.
Analiza koszyków rynkowych może pomóc firmom zidentyfikować ukryte korelacje między przedmiotami, które są często kupowane razem. Sklepy te mogą następnie umieszczać swoje przedmioty w sposób, który ułatwia ludziom ich odnalezienie.
Możesz użyć zestawu danych optymalizacji koszyka rynkowego na Kaggle, aby zbudować i wytrenować swój model. Najczęściej stosowanym algorytmem używanym do przeprowadzania analizy koszyków rynkowych jest algorytm Apriori.
Zestaw danych: Zbiór danych optymalizacji koszyka rynkowego Kaggle
6. Czas trwania podróży taksówką w Nowym Jorku
Zestaw danych zawiera zmienne, które obejmują współrzędne początku i końca podróży taksówką, czas i liczbę pasażerów. Celem tego projektu ML jest przewidzenie czasu trwania podróży z wszystkimi tymi zmiennymi. Jest to problem regresji.
Zmienne, takie jak czas i współrzędne, muszą być odpowiednio wstępnie przetworzone i przekonwertowane na zrozumiały format. Ten projekt nie jest tak prosty, jak się wydaje. Ten zestaw danych zawiera również pewne wartości odstające, które sprawiają, że przewidywanie jest bardziej złożone, więc będziesz musiał sobie z tym poradzić za pomocą technik inżynierii funkcji.
Kryteria oceny dla tego konkursu Kaggle Taxi Trip w Nowym Jorku to RMSLE lub Root Mean Squared Log Error. Najlepsze zgłoszenie na Kaggle otrzymało wynik RMSLE równy 0.29, a model bazowy Kaggle ma RMSLE równy 0.89.
Możesz użyć dowolnego algorytmu regresji, aby rozwiązać ten projekt Kaggle, ale najlepsi konkurenci tego wyzwania albo używali modeli zwiększania gradientu, albo technik głębokiego uczenia się.
Zestaw danych: Kaggle NYC Zbiór danych dotyczących czasu trwania podróży taksówką
7. Wykrywanie spamu w czasie rzeczywistym
W tym projekcie możesz użyć technik uczenia maszynowego, aby rozróżnić wiadomości spamowe (nielegalne) i ham (uprawnione).
Aby to osiągnąć, możesz użyć zestawu danych Kaggle SMS Spam Collection. Ten zbiór danych zawiera zestaw około 5 tys. wiadomości, które zostały oznaczone jako spam lub szynka.
Aby zbudować system wykrywania spamu w czasie rzeczywistym, możesz wykonać następujące czynności:
- Użyj zestawu danych Kaggle SMS Spam Collection, aby wytrenować model uczenia maszynowego.
- Stwórz prosty serwer czatu w Pythonie.
- Wdróż model uczenia maszynowego na serwerze czatu i upewnij się, że cały ruch przychodzący przechodzi przez ten model.
- Zezwalaj tylko na wiadomości, które są sklasyfikowane jako szynka. Jeśli są spamem, zamiast tego zwróć komunikat o błędzie.
Aby zbudować model uczenia maszynowego, musisz najpierw wstępnie przetworzyć wiadomości tekstowe znajdujące się w zestawie danych Kaggle SMS Spam Collection. Następnie przekonwertuj te wiadomości na worek słów, aby można je było łatwo przekazać do modelu klasyfikacji w celu przewidywania.
Zestaw danych: Kaggle Zbiór danych dotyczących zbierania spamu SMS
8. Aplikacja przewidywania osobowości Myers-Briggs
Możesz utworzyć aplikację, która będzie przewidywać typ osobowości użytkownika na podstawie tego, co mówi.
Wskaźnik typu Myers-Briggs dzieli osoby na 16 różnych typów osobowości. Jest to jeden z najpopularniejszych testów osobowości na świecie.
Jeśli spróbujesz znaleźć swój typ osobowości w Internecie, znajdziesz wiele quizów online. Po udzieleniu odpowiedzi na około 20–30 pytań zostaniesz przypisany do typu osobowości.
Jednak w tym projekcie możesz wykorzystać uczenie maszynowe do przewidywania typu osobowości dowolnej osoby na podstawie jednego zdania.
Oto kroki, które możesz podjąć, aby to osiągnąć:
- Zbuduj wieloklasowy model klasyfikacji i trenuj go na zestawie danych Myers-Briggs na Kaggle. Obejmuje to wstępne przetwarzanie danych (usuwanie słów stop i niepotrzebnych znaków) oraz inżynierię funkcji. W tym celu można użyć modelu płytkiego uczenia, takiego jak regresja logistyczna, lub modelu uczenia głębokiego, takiego jak LSTM.
- Możesz stworzyć aplikację, która pozwoli użytkownikom wpisać dowolne zdanie.
- Zapisz wagi modelu uczenia maszynowego i zintegruj model ze swoją aplikacją. Gdy użytkownik końcowy wprowadzi słowo, wyświetl jego typ osobowości na ekranie po tym, jak model dokona prognozy.
Zestaw danych: Zbiór danych typu Kaggle MBTI
9. System rozpoznawania nastroju + System rekomendacji
Czy kiedykolwiek byłeś smutny i czułeś, że potrzebujesz obejrzeć coś zabawnego, aby cię pocieszyć? A może kiedykolwiek czułeś się tak sfrustrowany, że musiałeś się zrelaksować i obejrzeć coś relaksującego?
Ten projekt jest połączeniem dwóch mniejszych projektów.
Możesz zbudować aplikację, która rozpozna nastrój użytkownika na podstawie materiału filmowego na żywo w Internecie i sugestii filmu na podstawie wyrazu twarzy użytkownika.
Aby to zbudować, możesz wykonać następujące kroki:
- Utwórz aplikację, która może pobierać transmisję wideo na żywo.
- Użyj interfejsu API rozpoznawania twarzy Pythona, aby wykrywać twarze i emocje na obiektach w strumieniu wideo.
- Po zaklasyfikowaniu tych emocji do różnych kategorii zacznij budować system rekomendacji. Może to być zestaw zakodowanych na stałe wartości dla każdej emocji, co oznacza, że rekomendacje nie wymagają uczenia maszynowego.
- Po zakończeniu tworzenia aplikacji możesz ją wdrożyć na Heroku, Dash lub serwerze internetowym.
OGIEŃ: Interfejs API rozpoznawania twarzy
10. Analiza nastrojów komentarzy na YouTube
W tym projekcie możesz stworzyć dashboard analizujący ogólne nastroje popularnych YouTuberów.
Ponad 2 miliardy użytkowników ogląda filmy z YouTube co najmniej raz w miesiącu. Popularni YouTuberzy zdobywają setki miliardów wyświetleń swoimi treściami. Jednak wielu z tych wpływowych osób znalazło się pod ostrzałem z powodu kontrowersji w przeszłości, a odbiór publiczny stale się zmienia.
Możesz zbudować model analizy nastrojów i utworzyć pulpit nawigacyjny, aby wizualizować nastroje wokół celebrytów w czasie.
Aby to zbudować, możesz wykonać następujące kroki:
- Zdrap komentarze do filmów przez YouTuberów, których chcesz przeanalizować.
- Użyj wstępnie wytrenowanego modelu analizy nastrojów, aby przewidywać każdy komentarz.
- Wizualizuj prognozy modelu na pulpicie nawigacyjnym. Możesz nawet utworzyć aplikację pulpitu nawigacyjnego, korzystając z bibliotek takich jak Dash (Python) lub Shiny (R).
- Możesz sprawić, że pulpit nawigacyjny będzie interaktywny, umożliwiając użytkownikom filtrowanie nastrojów według ram czasowych, nazwy YouTubera i gatunku wideo.
OGIEŃ: Skrobak komentarzy YouTube
Podsumowanie
Branża uczenia maszynowego jest duża i pełna możliwości. Jeśli chcesz wejść do branży bez formalnego wykształcenia, najlepszym sposobem na pokazanie, że masz umiejętności niezbędne do wykonywania pracy, są projekty.
Aspekt uczenia maszynowego większości wymienionych powyżej projektów jest dość prosty. Ze względu na demokratyzację uczenia maszynowego proces budowania modelu można łatwo przeprowadzić za pomocą wstępnie wytrenowanych modeli i interfejsów API.
Projekty sztucznej inteligencji typu open source, takie jak Keras i FastAI, również pomogły przyspieszyć proces budowania modelu. Trudna część tych uczenia maszynowego i projekty z zakresu nauki o danych to gromadzenie, wstępne przetwarzanie i wdrażanie danych. Jeśli zdobędziesz pracę w uczeniu maszynowym, większość algorytmów będzie dość prosta do zbudowania. Stworzenie modelu prognozowania sprzedaży zajmie tylko dzień lub dwa. Większość czasu spędzisz na znajdowaniu odpowiednich źródeł danych i wprowadzaniu modeli do produkcji, aby uzyskać wartość biznesową.
Oryginalny. Przesłane za zgodą.
Związane z:
Najważniejsze artykuły z ostatnich 30 dni | |||
---|---|---|---|
|
Źródło: https://www.kdnuggets.com/2021/09/20-machine-learning-projects-hired.html
- "
- &
- 000
- 2021
- 9
- dostęp
- Konto
- Dodatkowy
- AI
- Alkohol
- algorytm
- Algorytmy
- Wszystkie kategorie
- Pozwalać
- analiza
- analityk
- zwierzęta
- api
- Pszczoła
- Aplikacja
- Zastosowanie
- mobilne i webowe
- POWIERZCHNIA
- na około
- sztuczna inteligencja
- artysta
- audio
- zautomatyzowane
- dostępność
- Worek słów
- Baseline
- Podstawy
- piwo
- BEST
- Miliard
- krew
- pobudzanie
- Pudełko
- box office
- Rak piersi
- budować
- Budowanie
- biznes
- biznes
- kupować
- kamery
- Rak
- Etui
- Gwiazdy
- wyzwanie
- chatbot
- nasze chatboty
- klasyfikacja
- CNN
- Kodowanie
- Kolumna
- komentarze
- Firmy
- konkurencja
- konkurenci
- konsolidacja
- zawartość
- splotowa sieć neuronowa
- Para
- Obsługa klienta
- Klientów
- myślnik
- tablica rozdzielcza
- dane
- nauka danych
- Daty
- dzień
- sprawa
- drzewo decyzyjne
- głęboka nauka
- Kreowanie
- Prognozowanie popytu
- Wykrywanie
- Cukrzyca
- ZROBIŁ
- Cyfra
- cyfry
- choroba
- dystans
- domeny
- edukacyjny
- emocje
- Inżynieria
- Wchodzi
- przewyższać
- doświadczenie
- eksperyment
- Twarz
- rozpoznawanie twarzy
- twarze
- członków Twojej rodziny
- Cecha
- Korzyści
- nakarmiony
- Film
- natura
- i terminów, a
- dopasować
- obserwuj
- format
- pełny
- zabawny
- przyszłość
- Płeć
- Gole
- dobry
- Grayscale
- wspaniały
- opieki zdrowotnej
- przemysł medyczny
- Wysoki
- zatrudnić
- wakacje
- dom
- gospodarstwo domowe
- W jaki sposób
- HTTPS
- Setki
- pomysł
- Identyfikacja
- zidentyfikować
- obraz
- Rozpoznawanie obrazu
- Włącznie z
- Dochód
- Zwiększać
- przemysłowa
- przemysł
- wpływowi
- Informacja
- Inteligencja
- interaktywne
- Internet
- IT
- Praca
- Oferty pracy
- keras
- Klawisz
- Języki
- duży
- UCZYĆ SIĘ
- dowiedziałem
- nauka
- poziom
- Biblioteka
- lekki
- LINK
- Lista
- załadować
- długo
- uczenie maszynowe
- Techniki uczenia maszynowego
- Większość
- Dokonywanie
- rynek
- Marketing
- Przemysł marketingowy
- zmierzyć
- średni
- Mężczyzna
- Microsoft
- milion
- ML
- model
- miesięcy
- nastrój
- Najbardziej popularne posty
- ruch
- film
- Kino
- Muzyka
- Muzyk
- sieć
- Nerwowy
- sieci neuronowe
- aktualności
- nlp
- NYC
- Wykrywanie obiektów
- oferta
- Online
- kurs online
- koncepcja
- Szanse
- Inne
- paradygmat
- pacjenci
- Ludzie
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- osobowość
- Popularny
- teczka
- przepowiednia
- Przewidywania
- teraźniejszość
- nacisk
- Cena
- Przewidywanie ceny
- wycena
- Produkcja
- wydajność
- specjalistów
- Program
- projekt
- projektowanie
- publiczny
- Python
- jakość
- Prawdziwy świat
- w czasie rzeczywistym
- regresja
- Badania naukowe
- Efekt
- sprzedawców
- dochód
- Ryzyko
- czynniki ryzyka
- reguły
- sole
- nauka
- Naukowcy
- Ekran
- sentyment
- zestaw
- przesunięcie
- Prosty
- umiejętności
- SMS
- So
- sprzedany
- ROZWIĄZANIA
- spam
- prędkość
- wydać
- Spędzanie
- Spotify
- początek
- rozpoczęty
- sklep
- sklep
- historie
- Strategia
- system
- cel
- Testowanie
- Testy
- Podstawy
- świat
- czas
- Top
- ruch drogowy
- Trening
- tutoriale
- i twitterze
- Użytkownicy
- Użytkowe
- wartość
- Wideo
- Filmy
- Oglądaj
- sieć
- serwer wWW
- KIM
- Wildlife
- WINO
- w ciągu
- słowa
- Praca
- workflow
- Siła robocza
- świat
- X
- rok
- lat
- youtube
- YouTuber