Plato tarafından yeniden yayınlandı

İzleyiciler: 0

İşe Alınmanızı Sağlayacak 20 Makine Öğrenimi Projesi

Etiketler: Kariyer, Makine öğrenme, Proje

Makine öğrenimi ve veri bilimi iş piyasasına girmek istiyorsanız, özellikle çevrimiçi kurslar ve eğitim kampları aracılığıyla kendi kendinize öğretiyorsanız, becerilerinizin yeterliliğini göstermeniz gerekecektir. Bir proje portföyü, yeni zanaatınızı uygulamak ve bir çalışanın sizi rekabette işe alması gerektiğine dair ikna edici kanıtlar sunmak için harika bir yoldur.

yorumlar

By Huşbu Şah, ProjectPro'da İçerik Yöneticisi.

Yapay zeka ve Makine Öğrenimi sektörü, daha önce hiç olmadığı kadar hızlı gelişiyor. 2021 itibariyle, işletmeler arasında yapay zeka kullanımındaki artış, 2.9 trilyon dolarlık işletme değeri yaratacak. AI, dünya genelinde birçok endüstriyi otomatikleştirdi ve çalışma şeklini değiştirdi. Çoğu büyük şirket, iş akışlarında üretkenliği en üst düzeye çıkarmak için AI'yı kullanır ve pazarlama ve sağlık gibi endüstriler, AI'nın konsolidasyonu nedeniyle bir paradigma kayması geçirdi.

Görüntü Kaynağı: Unsplash

Bu nedenle, yapay zeka uzmanları için son birkaç yılda artan bir talep olmuştur. 100'ten 2015'e kadar AI ve makine öğrenimi ile ilgili iş ilanlarında neredeyse %2018'lük bir artış oldu. Bu sayı o zamandan beri arttı ve 2021'de artması bekleniyor.

Makine öğrenimi endüstrisine girmek istiyorsanız, iyi haber şu ki, iş sıkıntısı yok. Şirketler, makine öğrenimine geçişe öncülük edebilecek yetenekli bir iş gücüne ihtiyaç duyuyor. Ancak, iş piyasasına veri endüstrisine girmek isteyen insanlar sızıyor. Makine öğrenimi öğrenmek isteyen öğrencilere yönelik belirli bir derece programı bulunmadığından, birçok hevesli makine öğrenimi uygulayıcısı kendi kendini yetiştirmiştir.

Andrew Ng'nin çevrimiçi makine öğrenimi kursuna kayıtlı 4 milyondan fazla öğrenci var.

Ne yazık ki, çevrimiçi kurslara kaydolmak veya bir makine öğrenimi Bootcamp'i almak, teorik kavramları öğrenmenize yardımcı olur, ancak sizi sektördeki bir işe hazırlamaz. Teoriyi öğrendikten sonra yapılacak daha çok uygulamalı iş var. Diyelim ki makine öğrenimi algoritmalarının temellerini biliyorsunuz - regresyon ve sınıflandırma modellerinin nasıl çalıştığını anlıyorsunuz ve farklı türde kümeleme yöntemlerini biliyorsunuz.

Gerçek hayattaki bir problemi çözmek için öğrendiğiniz becerileri nasıl uygulayacaksınız? Basit cevap şudur: Alıştırma, Alıştırma ve Uygulama çeşitliliği makine öğrenimi projeleri.

Teorik kavramları öğrenmeyi bitirdikten sonra, yapay zeka ve makine öğrenimi projeleri üzerinde çalışmaya başlamalısınız. Bu projeler size sahadaki becerilerinizi geliştirmek için gerekli pratiği verecek ve aynı zamanda makine öğrenimi portföyünüze büyük bir değer katacaktır.

Lafı fazla uzatmadan, sadece portföyünüzün güzel görünmesini sağlamakla kalmayacak, aynı zamanda makine öğrenimi becerilerinizi de önemli ölçüde geliştirecek bazı ML proje fikirlerini keşfedelim. Bu, öğrenciler, hevesli makine öğrenimi uygulayıcıları ve teknik olmayan alanlardan bireyler için en iyi makine öğrenimi projelerinden bazılarının derlenmiş bir listesidir. Biraz kodlama ve makine öğrenimi becerilerine sahip olduğunuz sürece, geçmişiniz ne olursa olsun bu projeler üzerinde çalışabilirsiniz. Bu, başlangıç ve ileri düzey makine öğrenimi projelerinin bir listesidir.

Veri endüstrisinde yeniyseniz ve gerçek yaşam projelerinde çok az deneyiminiz varsa, daha zorlu olanlara geçmeden önce başlangıç seviyesindeki makine öğrenimi projeleriyle başlayın.

Yeni Başlayanlar için Makine Öğrenimi Projeleri

1. Kaggle Titanik Tahmini

Bu listedeki ilk proje, üstlenebileceğiniz en basit ML projelerinden biridir. Bu proje, veri endüstrisindeki yeni başlayanları tamamlamak için önerilir. Titanik veri seti Kaggle'da mevcuttur ve indirme bağlantısı aşağıda verilmiştir.

Bu veri seti, titanikte seyahat eden yolculara aittir. Yolcu yaşı, bilet ücreti, kabin ve cinsiyet gibi ayrıntılara sahiptir. Bu bilgilere dayanarak, bu yolcuların hayatta kalıp kalmadığını tahmin etmeniz gerekecek.

Bu basit bir ikili sınıflandırma problemidir ve tek yapmanız gereken belirli bir yolcunun hayatta kalıp kalmadığını tahmin etmektir. Bu veri seti ile ilgili en iyi şey, tüm ön işlemlerin sizin için yapılmış olmasıdır. Makine öğrenimi modelinizi eğitmek için güzel ve temiz bir veri kümeniz var.

Bu bir sınıflandırma problemi olduğundan, tahmine dayalı modeli oluşturmak için lojistik regresyon, karar ağaçları ve rastgele ormanlar gibi algoritmaları kullanmayı seçebilirsiniz. Daha iyi sonuçlar elde etmek için bu başlangıç düzeyindeki makine öğrenimi projesi için XGBoost sınıflandırıcı gibi gradyan artırma modellerini de seçebilirsiniz.

Veri kümesi: Kaggle Titanik Veri Kümesi

2. Konut Fiyat Tahmini

Makine öğrenimine yeni başlıyorsanız, ev fiyatları verileri de başlangıç için harikadır. Bu proje, Kaggle'da bulunan ev fiyatlandırma veri setini kullanacak. Bu veri setindeki hedef değişken, ev alanı, yatak odası sayısı, banyo sayısı ve kamu hizmetleri gibi bilgileri kullanarak tahmin etmeniz gereken belirli bir evin fiyatıdır.

Bu bir regresyon problemidir ve modeli oluşturmak için lineer regresyon gibi teknikleri kullanabilirsiniz. Ayrıca daha gelişmiş bir yaklaşım benimseyebilir ve ev fiyatlarını tahmin etmek için rastgele bir orman regresörü veya gradyan artırma kullanabilirsiniz.

Bu veri kümesi, hedef değişken hariç 80 sütuna sahiptir. Çok fazla değişken eklemek modelinizin düşük performans göstermesine neden olabileceğinden, özellikleri elle seçmek için bazı boyut küçültme teknikleri kullanmanız gerekecektir.

Ayrıca veri kümesinde birçok kategorik değişken vardır, bu nedenle one-hot kodlama veya etiket kodlama gibi teknikleri kullanarak bunlarla düzgün bir şekilde ilgilenmeniz gerekir.

Modelinizi oluşturduktan sonra, hala açık olduğu için Kaggle'daki ev fiyatlandırma yarışmasına tahminlerinizi gönderebilirsiniz. Rakipler tarafından elde edilen en iyi RMSE 0'dır ve birçok kişi, regresyon ve gradyan artırma teknikleri yardımıyla 0.15 gibi iyi sonuçlar elde etmiştir.

Veri kümesi: Kaggle Evi Fiyat Tahmin Veri Kümesi

3. Şarap Kalitesi Tahmini

Şarap kalitesi tahmin veri seti, veri endüstrisindeki yeni başlayanlar arasında da oldukça popülerdir. Bu projede, kırmızı şarabın kalitesini tahmin etmek için sabit asitlik, uçucu asitlik, alkol ve yoğunluk kullanacaksınız.

Bu, bir sınıflandırma veya regresyon problemi olarak ele alınabilir. NS şarap kalitesi 0-10 arasındaki veri kümesi aralıklarında tahmin etmeniz gereken değişken, böylece tahmin etmek için bir regresyon modeli oluşturabilirsiniz. Alabileceğiniz başka bir yaklaşım, değerleri (0-10 arası) ayrık aralıklara bölmek ve bunları kategorik değişkenlere dönüştürmektir. Üç kategori oluşturabilirsiniz, örneğin — düşük, orta, ve yüksek.

Ardından, tahmini yapmak için bir karar ağacı sınıflandırıcı veya herhangi bir sınıflandırma modeli oluşturabilirsiniz. Regresyon ve sınıflandırma makine öğrenimi becerilerinizi uygulamak için nispeten temiz ve basit bir veri kümesidir.

Veri kümesi: Kaggle Kırmızı Şarap Kalitesi Veri Kümesi

4. Kalp Hastalığı Tahmini

Sağlık sektöründeki bir veri kümesini keşfetmek istiyorsanız, bu başlangıç seviyesi için harika bir veri kümesidir. Bu veri seti, 10 yıllık KKH (Koroner Kalp Hastalığı) riskini tahmin etmek için kullanılır. Bu veri setindeki bağımlı değişkenler, diyabet, sigara, yüksek tansiyon ve yüksek kolesterol seviyeleri dahil olmak üzere kalp hastalığı risk faktörleridir.

Bağımsız değişken, 10 yıllık KKH riskidir. İkili bir sınıflandırma problemidir ve hedef değişken hiç kalp hastalığı gelişmemiş hastalar için 0 veya 1–0 ve gelişen hastalar için 1'dir. Kalp riskine en çok katkıda bulunan özellikleri belirlemek için bu veri kümesinde bazı özellik seçimleri yapabilirsiniz. Ardından, bağımsız değişkenlere bir sınıflandırma modeli sığdırabilirsiniz.

Bu veri seti oldukça dengesiz çünkü bu veri setindeki hastaların çoğu değil kalp hastalığı geliştirir. Aşırı örnekleme, ağırlık ayarlama veya yetersiz örnekleme gibi doğru özellik mühendisliği teknikleri kullanılarak dengesiz bir veri kümesinin ele alınması gerekir. Düzgün bir şekilde ele alınmazsa, her veri noktası için çoğunluk sınıfını basitçe tahmin eden ve hastaları tanımlayamayan bir model elde edersiniz. yaptı kalp hastalığı geliştirir. Bu, özellik mühendisliği ve makine öğrenimi becerilerinizi geliştirmeniz için mükemmel bir veri kümesidir.

Veri kümesi: Kaggle Kalp Hastalığı Veri Kümesi

5. MNIST Rakam Sınıflandırması

The MNİST veri kümesi, derin öğrenme alanına atılan adımınızdır. Bu veri seti, 0'dan 9'a kadar elle yazılmış rakamların gri tonlamalı görüntülerinden oluşur. Göreviniz, bir derin öğrenme algoritması kullanarak rakamı tanımlamak olacaktır. Bu, on olası çıktı sınıfına sahip çok sınıflı bir sınıflandırma problemidir. Bu sınıflandırmayı gerçekleştirmek için bir CNN (Convolutional Neural Network) kullanabilirsiniz.

MNIST veri kümesi, Python'daki Keras kitaplığı içinde oluşturulmuştur. Tek yapmanız gereken Keras'ı kurmak, kitaplığı içe aktarmak ve veri kümesini yüklemek. Bu veri kümesinde yaklaşık 60,000 görüntü vardır, bu nedenle bu görüntülerin yaklaşık %80'ini eğitim için ve %20'sini de test için kullanabilirsiniz.

Veri kümesi: Kaggle Rakam Tanıyıcı Veri Kümesi

6. Twitter Verilerinin Duygu Analizi

Kaggle'da birçok Twitter duygu analizi veri seti bulunmaktadır. En popüler veri kümelerinden biri, 140 milyon önceden işlenmiş Tweet içeren duygu 1.6 olarak adlandırılır. Duyarlılık analizinde yeniyseniz, başlamak için harika bir veri kümesidir.

Bu Tweetlere açıklama eklendi ve hedef değişken duygudur. Bu sütundaki benzersiz değerler 0 (negatif), 2 (nötr) ve 4'tür (pozitif).

Bu Tweetleri ön işleme tabi tuttuktan ve vektörlere dönüştürdükten sonra, onları ilişkili duyarlılıklarıyla eğitmek için bir sınıflandırma modeli kullanabilirsiniz. Bu görev için lojistik regresyon, karar ağacı sınıflandırıcı veya XGBoost sınıflandırıcı gibi algoritmalar kullanabilirsiniz.

Diğer bir alternatif, duygu tahmini yapmak için LSTM gibi bir derin öğrenme modeli kullanmaktır. Ancak bu biraz daha zorlayıcı bir yaklaşımdır ve gelişmiş proje kategorisine girer.

Bu etiketli veri kümesini, gelecekteki duygu analizi görevleri için bir temel olarak da kullanabilirsiniz.

Eğer toplamak ve üzerinde duygu analizi yapmak istediğiniz Tweetleriniz varsa, geleceğe yönelik tahminler yapmak için daha önce duygu 140 konusunda eğitilmiş bir model kullanabilirsiniz.

Veri kümesi: Kaggle Sentiment140 Veri Kümesi

7. Pima Hint Diyabeti Tahmini

Pima Indian Diabetes Dataset, tanısal ölçümlere dayalı olarak bir hastanın diyabetli olup olmadığını tahmin etmek için kullanılır.

BMI, yaş ve insülin gibi değişkenlere dayalı olarak model, hastalarda diyabeti öngörecektir. Bu veri kümesinde dokuz değişken vardır - sekiz bağımsız değişken ve bir hedef değişken.

Hedef değişken 'şeker hastalığı', yani diyabet varlığı için 1 veya diyabet yokluğu için 0 tahmin edeceksiniz.

Bu, lojistik regresyon, karar ağacı sınıflandırıcı veya rastgele orman sınıflandırıcı gibi modellerle deney yapmak için bir sınıflandırma problemidir.

Bu veri kümesindeki tüm bağımsız değişkenler sayısaldır, bu nedenle minimum özellik mühendisliği deneyiminiz varsa, başlamak için bu harika bir veri kümesidir.

Bu, yeni başlayanlara açık bir Kaggle veri kümesidir. Çözümü Python ve R'de kodlamada size yol gösteren birçok çevrimiçi öğretici var. Bu not defteri öğreticileri, daha karmaşık projelere geçebilmeniz için öğrenmek ve ellerinizi kirletmek için harika bir yoldur.

Veri kümesi: Kaggle Pima Hint Diyabeti Veri Kümesi

8. Meme Kanseri Sınıflandırması

Kaggle'daki meme kanseri sınıflandırma veri seti, makine öğrenimi ve yapay zeka becerilerinizi geliştirmenin bir başka mükemmel yoludur.

Gerçek dünyadaki çoğu denetimli makine öğrenimi problemi, bunun gibi sınıflandırma problemleridir. Meme kanseri teşhisinde önemli bir zorluk, iyi huylu (kanserli olmayan) ve kötü huylu (kanserli) tümörleri ayırt edememektir. Veri setinde tümörün “radius_mean” ve “area_mean” gibi değişkenleri vardır ve bir tümör kanserli olup olmadığını bu özelliklere göre sınıflandırmanız gerekecektir. Bu veri kümesi üzerinde çalışmak nispeten kolaydır çünkü önemli bir veri ön işlemesi yapmaya gerek yoktur. Ayrıca, çok fazla özellik mühendisliği yapmanız gerekmediğinden görevinizi daha yönetilebilir hale getiren iyi dengelenmiş bir veri kümesidir.

Bu veri kümesinde basit bir lojistik regresyon sınıflandırıcısı eğitmek size 0.90'a kadar yüksek doğruluk sağlayabilir.

Veri kümesi: Kaggle Meme Kanseri Sınıflandırma Veri Kümesi

9. TMDB Gişe Tahmini

Bu Kaggle veri seti, regresyon becerilerinizi geliştirmenin harika bir yoludur. Yaklaşık 7000 filmden oluşuyor ve filmin gelirini tahmin etmek için mevcut değişkenleri kullanmanız gerekecek.

Mevcut veri noktaları, oyuncu kadrosu, ekip, bütçe, diller ve yayın tarihlerini içerir. Veri setinde biri hedef değişken olmak üzere 23 değişken bulunmaktadır.

Temel bir doğrusal regresyon modeli size 0.60'ın üzerinde bir R-kare verebilir, böylece bunu temel tahmin modeliniz olarak kullanabilirsiniz. XGBoost regresyonu veya Light GBM gibi teknikleri kullanarak bu puanı geçmeye çalışın.

Bazı sütunlarda iç içe sözlüklerde veri bulunduğundan, bu veri kümesi öncekinden biraz daha karmaşıktır. Üzerinde bir model eğitmek için bu verileri kullanılabilir bir biçimde çıkarmak için bazı ek ön işlemler yapmanız gerekir.

Gelir tahmini, film endüstrisi dışındaki çeşitli alanlara iş değeri sağladığı için portföyünüzü sergilemek için harika bir projedir.

Veri kümesi: Kaggle TMDB Gişe Tahmin Veri Kümesi

10. Python'da Müşteri Segmentasyonu

Kaggle'daki müşteri segmentasyonu veri seti, denetimsiz makine öğrenimine başlamanın harika bir yoludur. Bu veri seti, yaşları, cinsiyetleri, yıllık gelirleri ve harcama puanları gibi müşteri ayrıntılarından oluşur.

Müşteri segmentleri oluşturmak için bu değişkenleri kullanmanız gerekir. Birbirine benzeyen müşteriler benzer kümeler halinde gruplandırılmalıdır. Bu görev için K-Means kümeleme veya hiyerarşik kümeleme gibi algoritmalar kullanabilirsiniz. Müşteri segmentasyon modelleri iş değeri sağlayabilir.

Şirketler genellikle her müşteri türü için farklı pazarlama teknikleri bulmak için müşterilerini ayırmak ister.

Bu veri kümesinin ana hedefleri şunları içerir:

Makine öğrenimi tekniklerini kullanarak müşteri segmentasyonu elde etmek
Farklı pazarlama stratejileri için hedef müşterilerinizi belirleyin
Pazarlama stratejilerinin gerçek dünyada nasıl çalıştığını anlayın

Bu görev için bir kümeleme modeli oluşturmak, portföyünüzün öne çıkmasına yardımcı olabilir ve pazarlama endüstrisinde yapay zeka ile ilgili bir iş bulmak istiyorsanız segmentasyon harika bir beceridir.

Veri kümesi: Kaggle Mall Müşteri Segmentasyonu Veri Kümesi

Özgeçmişiniz için Orta/İleri Düzey Makine Öğrenimi Projeleri

Yukarıda listelenenler gibi basit makine öğrenimi projeleri üzerinde çalışmayı bitirdikten sonra daha zorlu projelere geçebilirsiniz.

1. Satış Tahmini

Zaman serisi tahmini, endüstride çok sık kullanılan bir makine öğrenme tekniğidir. Gelecekteki satışları tahmin etmek için geçmiş verilerin kullanılması, çok sayıda iş kullanım örneğine sahiptir. Bu projeyi uygulamak için Kaggle Talep Tahmini veri seti kullanılabilir.

Bu veri kümesinde 5 yıllık satış verileri bulunur ve önümüzdeki üç ay için satışları tahmin etmeniz gerekir. Veri kümesinde listelenen on farklı mağaza vardır ve her mağazada 50 öğe vardır.

Satışları tahmin etmek için çeşitli yöntemleri deneyebilirsiniz: ARIMA, Vektör Otoregresyon veya derin öğrenme. Bu proje için kullanabileceğiniz yöntemlerden biri, her ay için satışlardaki artışı ölçmek ve kaydetmektir. Ardından, modeli önceki ay ile mevcut ay satışları arasındaki farka göre oluşturun. Tatiller ve mevsimsellik gibi faktörleri hesaba katmak, makine öğrenimi modelinizin performansını iyileştirebilir.

Veri kümesi: Kaggle Mağaza Ürün Talep Tahmini

2. Müşteri Hizmetleri Sohbet Robotu

Bir müşteri hizmetleri sohbet robotu, bir insan temsilcisi rolünü üstlenerek müşterilere yanıt vermek için yapay zeka ve makine öğrenimi tekniklerini kullanır. Bir sohbet robotu, müşteri ihtiyaçlarını karşılamak için basit soruları yanıtlayabilmelidir.

Şu anda oluşturabileceğiniz üç tür sohbet robotu vardır:

Kural Tabanlı Sohbet Robotları — Bu sohbet robotları akıllı değildir. Önceden tanımlanmış bir dizi kuralla beslenirler ve yalnızca bu kurallara göre kullanıcılara yanıt verirler. Bazı sohbet robotları ayrıca önceden tanımlanmış bir dizi soru ve yanıtla sağlanır ve bu alanın dışında kalan sorguları yanıtlayamaz.
Bağımsız Sohbet Robotları - Bağımsız sohbet robotları, bir kullanıcının isteğini işlemek ve analiz etmek ve buna göre yanıtlar vermek için makine öğrenimini kullanır.
NLP Chatbots - Bu sohbet robotları, kelimelerdeki kalıpları anlayabilir ve farklı kelime kombinasyonlarını ayırt edebilir. Eğitim aldıkları kelime kalıplarına dayalı olarak ne söyleyeceklerini bulabildikleri için, üç chatbot türünün en gelişmişleridir.

Bir NLP sohbet robotu, ilginç bir makine öğrenimi projesi fikridir. Modelinizi eğitmek için var olan bir sözcük bütününe ihtiyacınız olacak ve bunu yapmak için Python kitaplıklarını kolayca bulabilirsiniz. Ayrıca, modelinizi eğitmek istediğiniz soru ve cevap çiftlerinin bir listesini içeren önceden tanımlanmış bir sözlüğünüz de olabilir.

3. Yaban Hayatı Nesne Tespit Sistemi

Vahşi hayvanların sık görüldüğü bir bölgede yaşıyorsanız, bölgenizdeki varlıklarını belirlemek için bir nesne algılama sistemi uygulamak faydalı olacaktır. Bunun gibi bir sistem oluşturmak için şu adımları izleyin:

İzlemek istediğiniz alana kameralar kurun.
Tüm video görüntülerini indirin ve kaydedin.
Gelen görüntüleri analiz etmek ve vahşi hayvanları tanımlamak için bir Python uygulaması oluşturun.

Microsoft, vahşi yaşam kameralarından toplanan verileri kullanarak bir Görüntü Tanıma API'si oluşturmuştur. MegaDetector adı verilen bu amaç için açık kaynaklı önceden eğitilmiş bir model yayınladılar.

Toplanan görüntülerden vahşi hayvanları tanımlamak için Python uygulamanızda bu önceden eğitilmiş modeli kullanabilirsiniz. Şimdiye kadar bahsedilen en heyecan verici ML projelerinden biridir ve bu amaç için önceden eğitilmiş bir modelin bulunması nedeniyle uygulanması oldukça basittir.

API: MegaDedektör

4. Spotify Müzik Öneri Sistemi

Spotify, kullanıcılarına müzik önermek için AI kullanır. Spotify'da herkese açık verilere dayalı bir öneri sistemi oluşturmayı deneyebilirsiniz.

Spotify, ses verilerini almak için kullanabileceğiniz bir API'ye sahiptir; yayın yılı, anahtar, popülerlik ve sanatçı gibi özellikleri bulabilirsiniz. Python'da bu API'ye erişmek için Spotipy adlı bir kitaplık kullanabilirsiniz.

Kaggle'da yaklaşık 600K satır içeren Spotify veri kümesini de kullanabilirsiniz. Bu veri kümelerini kullanarak, her kullanıcının favori müzisyenine en iyi alternatifi önerebilirsiniz. Ayrıca her kullanıcının tercih ettiği içerik ve türe göre şarkı önerileri de üretebilirsiniz.

Bu öneri sistemi, K-Means kümelemesi kullanılarak oluşturulabilir - benzer veri noktaları gruplandırılacaktır. Son kullanıcıya aralarında minimum küme içi mesafe olan şarkıları önerebilirsiniz.

Öneri sistemini oluşturduktan sonra, onu basit bir Python uygulamasına dönüştürebilir ve dağıtabilirsiniz. Kullanıcıların Spotify'da favori şarkılarını girmelerini sağlayabilir, ardından beğendikleri şarkılara en çok benzeyen model önerilerinizi ekranda görüntüleyebilirsiniz.

Veri kümesi: Kaggle Spotify Veri Kümesi

5. Pazar Sepeti Analizi

Pazar Sepeti Analizi, perakendeciler tarafından birlikte satılabilecek ürünleri belirlemek için kullanılan popüler bir tekniktir.

Örneğin:

Birkaç yıl önce, bir araştırma analisti bira ve çocuk bezi satışları arasında bir ilişki tespit etti. Çoğu zaman, bir müşteri ne zaman bira almak için mağazaya girse, birlikte bebek bezi de alırdı.

Bu nedenle mağazalar, satışları artırmak için bir pazarlama stratejisi olarak aynı reyonda bira ve çocuk bezi satmaya başladılar. Ve işe yaradı.

Erkekler sık sık birlikte aldıkları için bira ve çocuk bezlerinin yüksek bir korelasyona sahip olduğu varsayılmıştır. Erkekler, aileleri için (bebek bezleri dahil) diğer birkaç ev eşyası ile birlikte bir bira almak için mağazaya girerdi. Bu oldukça imkansız bir korelasyon gibi görünüyor, ama oldu.

Pazar Sepeti Analizi, şirketlerin sıklıkla birlikte satın alınan ürünler arasındaki gizli korelasyonları belirlemesine yardımcı olabilir. Bu mağazalar daha sonra eşyalarını insanların daha kolay bulmasını sağlayacak şekilde konumlandırabilir.

Modelinizi oluşturmak ve eğitmek için Kaggle'daki Market Sepeti Optimizasyonu veri setini kullanabilirsiniz. Pazar Sepeti Analizi yapmak için kullanılan en yaygın algoritma Apriori algoritmasıdır.

Veri kümesi: Kaggle Market Sepeti Optimizasyon Veri Kümesi

6. NYC Taksi Gezisi Süresi

Veri kümesi, bir taksi yolculuğunun başlangıç ve bitiş koordinatlarını, zamanı ve yolcu sayısını içeren değişkenlere sahiptir. Bu ML projesinin amacı, tüm bu değişkenlerle yolculuk süresini tahmin etmektir. Bu bir gerileme sorunudur.

Zaman ve koordinatlar gibi değişkenlerin uygun şekilde önceden işlenmesi ve anlaşılır bir formata dönüştürülmesi gerekir. Bu proje göründüğü kadar basit değil. Bu veri kümesi ayrıca, tahmini daha karmaşık hale getiren bazı aykırı değerlere sahiptir, bu nedenle bunu özellik mühendisliği teknikleriyle halletmeniz gerekecektir.

Bu NYC Taksi Gezisi Kaggle Yarışması için değerlendirme kriteri RMSLE veya Kök Ortalama Kare Günlük Hatasıdır. Kaggle'da en çok yapılan başvuru 0.29 RMSLE puanı aldı ve Kaggle'ın temel modeli 0.89 RMSLE puanı aldı.

Bu Kaggle projesini çözmek için herhangi bir regresyon algoritmasını kullanabilirsiniz, ancak bu zorluğun en yüksek performanslı rakipleri ya gradyan artırma modelleri ya da derin öğrenme teknikleri kullanmıştır.

Veri kümesi: Kaggle NYC Taksi Gezisi Süresi Veri Kümesi

7. Gerçek Zamanlı İstenmeyen Posta Algılama

Bu projede, spam (gayrı meşru) ve jambon (meşru) mesajları ayırt etmek için makine öğrenimi tekniklerini kullanabilirsiniz.

Bunu başarmak için Kaggle SMS İstenmeyen Posta Toplama veri setini kullanabilirsiniz. Bu veri kümesi, spam veya jambon olarak etiketlenmiş yaklaşık 5K ileti kümesi içerir.

Gerçek zamanlı bir spam algılama sistemi oluşturmak için aşağıdaki adımları uygulayabilirsiniz:

Bir makine öğrenimi modelini eğitmek için Kaggle'ın SMS İstenmeyen Posta Toplama veri kümesini kullanın.
Python'da basit bir sohbet odası sunucusu oluşturun.
Makine öğrenimi modelini sohbet odası sunucunuza dağıtın ve gelen tüm trafiğin modelden geçmesini sağlayın.
Yalnızca jambon olarak sınıflandırılmışsa iletilerin geçmesine izin verin. Bunlar spam ise, bunun yerine bir hata mesajı döndürün.

Makine öğrenimi modelini oluşturmak için önce Kaggle'ın SMS İstenmeyen Posta Toplama veri kümesinde bulunan metin mesajlarını önceden işlemeniz gerekir. Ardından, tahmin için sınıflandırma modelinize kolayca aktarılabilmesi için bu mesajları bir kelime torbasına dönüştürün.

Veri kümesi: Kaggle SMS Spam Toplama Veri Kümesi

8. Myers-Briggs Kişilik Tahmin Uygulaması

Bir kullanıcının kişilik tipini söylediklerine göre tahmin etmek için bir uygulama oluşturabilirsiniz.

Myers-Briggs tipi gösterge, bireyleri 16 farklı kişilik tipine ayırır. Dünyanın en popüler kişilik testlerinden biridir.

İnternette kişilik tipinizi bulmaya çalışırsanız, birçok çevrimiçi sınav bulacaksınız. Yaklaşık 20-30 soruyu yanıtladıktan sonra bir kişilik tipine atanacaksınız.

Ancak bu projede, herhangi birinin kişilik tipini yalnızca bir cümleye dayanarak tahmin etmek için makine öğrenimini kullanabilirsiniz.

Bunu başarmak için atabileceğiniz adımlar şunlardır:

Çok sınıflı bir sınıflandırma modeli oluşturun ve bunu Kaggle'daki Myers-Briggs veri kümesinde eğitin. Bu, veri ön işlemeyi (durdurma sözcüklerini ve gereksiz karakterleri kaldırma) ve bazı özellik mühendisliğini içerir. Bunun için lojistik regresyon gibi sığ bir öğrenme modeli veya LSTM gibi bir derin öğrenme modeli kullanabilirsiniz.
Kullanıcıların istedikleri herhangi bir cümleyi girmelerine izin veren bir uygulama oluşturabilirsiniz.
Makine öğrenimi model ağırlıklarınızı kaydedin ve modeli uygulamanızla entegre edin. Son kullanıcı bir kelime girdikten sonra, model bir tahmin yaptıktan sonra kişilik tipini ekranda görüntüleyin.

Veri kümesi: Kaggle MBTI Türü Veri Kümesi

9. Ruh Hali Tanıma Sistemi + Tavsiye Sistemi

Hiç üzüldün ve seni neşelendirmek için komik bir şey izleme ihtiyacı hissettin mi? Ya da gevşemek ve rahatlatıcı bir şey izlemek için ihtiyaç duyacak kadar hüsrana uğradınız mı?

Bu proje iki küçük projenin birleşimidir.

Canlı web görüntülerine dayalı olarak kullanıcının ruh halini ve kullanıcının ifadesine dayalı olarak bir film önerisini tanıyan bir uygulama oluşturabilirsiniz.

Bunu oluşturmak için aşağıdaki adımları uygulayabilirsiniz:

Canlı video beslemesi alabilen bir uygulama oluşturun.
Video akışındaki nesnelerdeki yüzleri ve duyguları algılamak için Python'un yüz tanıma API'sini kullanın.
Bu duyguları çeşitli kategorilere ayırdıktan sonra tavsiye sistemini oluşturmaya başlayın. Bu, her duygu için bir dizi sabit kodlanmış değer olabilir; bu, öneriler için makine öğrenimini dahil etmenize gerek olmadığı anlamına gelir.
Uygulamayı oluşturmayı tamamladığınızda, onu Heroku, Dash veya bir web sunucusuna dağıtabilirsiniz.

API: Yüz Tanıma API'si

10. YouTube Yorum Duyarlılık Analizi

Bu projede, popüler YouTuber'ların genel duyarlılığını analiz eden bir gösterge panosu oluşturabilirsiniz.

2 milyardan fazla kullanıcı ayda en az bir kez YouTube videoları izliyor. Popüler YouTuber'lar, içerikleriyle yüz milyarlarca görüntüleme elde ediyor. Bununla birlikte, bu etkileyicilerin çoğu geçmişteki tartışmalar nedeniyle ateş altında kaldı ve kamuoyunun algısı sürekli değişiyor.

Bir duygu analizi modeli oluşturabilir ve zaman içinde ünlülerin etrafındaki duyguları görselleştirmek için bir gösterge panosu oluşturabilirsiniz.

Bunu oluşturmak için aşağıdaki adımları uygulayabilirsiniz:

Analiz etmek istediğiniz YouTuber'ların videolarının yorumlarını kazıyın.
Her yoruma ilişkin tahminler yapmak için önceden eğitilmiş bir duygu analizi modeli kullanın.
Modelin tahminlerini bir gösterge panosunda görselleştirin. Dash (Python) veya Shiny (R) gibi kitaplıkları kullanarak bir pano uygulaması bile oluşturabilirsiniz.
Kullanıcıların duyguları zaman çerçevesine, YouTuber adına ve video türüne göre filtrelemesine izin vererek kontrol panelini etkileşimli hale getirebilirsiniz.

API: YouTube Yorum Kazıyıcı

Özet

Makine öğrenimi endüstrisi büyük ve fırsatlarla dolu. Resmi bir eğitim geçmişiniz olmadan sektöre girmek istiyorsanız, işi yapmak için gerekli becerilere sahip olduğunuzu göstermenin en iyi yolu projelerdir.

Yukarıda listelenen çoğu projenin makine öğrenimi yönü oldukça basittir. Makine öğreniminin demokratikleşmesi nedeniyle, önceden eğitilmiş modeller ve API'ler aracılığıyla model oluşturma süreci kolayca gerçekleştirilebilir.

Keras ve FastAI gibi açık kaynaklı yapay zeka projeleri de model oluşturma sürecini hızlandırmaya yardımcı oldu. Bu makine öğreniminin zor kısmı ve veri bilimi projeleri veri toplama, ön işleme ve dağıtımdır. Makine öğreniminde bir işe girerseniz, çoğu algoritmayı oluşturmak oldukça basit olacaktır. Bir satış tahmini modeli oluşturmak yalnızca bir veya iki gün sürecektir. İş değeri elde etmek için zamanınızın çoğunu uygun veri kaynaklarını bulmak ve modellerinizi üretime sokmak için harcayacaksınız.

orijinal. İzinle yeniden yayınlandı.

İlgili:

= Önceki yazı

Sonraki mesaj =>

30 Gün İçindeki En Çok Okunan Haberler

En popüler
Python ile Excel Dosyalarını Okuyor musunuz? 1000 kat daha hızlı bir yol var Python Kullanarak Microsoft Excel ve Word'ü Otomatikleştirin Veri Mühendisliği Becerileri Olmayan Veri Bilimcileri Acı Gerçekle Yüzleşecek Veri Bilimi Projeleriniz için Çarpıcı Web Uygulamaları Nasıl Oluşturulur Sizi İşe Alacak Bir Veri Bilimi Portföyü

En Paylaşımlı
Makine ve Derin Öğrenme Özeti Açık Kitap Veri Mühendisliği Becerileri Olmayan Veri Bilimcileri Acı Gerçekle Yüzleşecek Hipotez Testinin Açıklanması Veri Bilimi Hile Sayfası 2.0 Yeni Başlayanlar İçin 8 Derin Öğrenme Projesi Fikri