Veri Bilimi Probleminiz için İlk Model Nasıl Seçilir

Kaynak Düğüm: 1052498

Veri Bilimi Probleminiz için İlk Model Nasıl Seçilir

Kendinize biraz zaman ve baş ağrısından tasarruf edin ve basit başlayın.


By zachary warnes, Veri Bilimcisi



Fotoğraf Cesar Carlevarino Aragon on Unsplash

 

Bu gönderi, bir problem için hangi modelin kullanılacağına karar vermeye çalışan yeni ve/veya hevesli veri bilimcileri içindir.

Bu gönderi, veri tartışmasını ele almayacak. Bir veri bilimcinin yaptığı işin büyük çoğunluğunun bu olduğunu umuyoruz. Hazır bazı verileriniz olduğunu ve nasıl bazı tahminler yapabileceğinizi görmek istediğinizi varsayıyorum.

Basit Modeller

 
 
Görünüşte sonsuz varyantlarla seçilebilecek birçok model var.

Bir regresyon modelini bir sınıflandırma modeline dönüştürmek için genellikle yalnızca küçük değişiklikler gerekir ve bunun tersi de geçerlidir. Neyse ki bu çalışma, standart python denetimli öğrenme paketleri ile sizin için zaten yapılmıştır. Yani sadece istediğiniz seçeneği seçmeniz gerekiyor.

Aralarından seçim yapabileceğiniz birçok model var:

  • Karar ağaçları
  • Destek vektör makineleri (SVM)
  • Naif bayanlar
  • K-En Yakın Komşular
  • Nöral ağlar
  • Gradyan Arttırma
  • Rasgele Ormanlar

Liste uzayıp gidiyor ama ikisinden biriyle başlamayı düşünün.

Lineer regresyon & Lojistik regresyon

 
 



Fotoğraf iMattAkıllı on Unsplash

 

Evet, xgboost, BERT ve GPT-3 gibi havalı modeller var ama bu ikisinden başlayın.

not: lojistik regresyonun talihsiz bir adı var. Model, sınıflandırma için kullanılır, ancak tarihsel nedenlerden dolayı adı devam eder.

Bu karışıklığı ortadan kaldırmak için adı doğrusal sınıflandırma gibi basit bir şeyle değiştirmenizi öneririm. Ancak, sektörde henüz bu tür bir kaldıraca sahip değilim.

Doğrusal regresyon

 
 

from sklearn.linear_model import LinearRegression
import numpy as npX = np.array([[2, 3], [5, 6], [8,9], [10, 11]])
y = np.dot(X, np.array([1, 2])) + 1
reg = LinearRegression().fit(X, y)
reg.score(X, y)

Lojistik regresyon

 
 

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_breast_cancer
X, y = load_breast_cancer(return_X_y=True)
clf = LogisticRegression(solver='liblinear', random_state=10).fit(X, y)
clf.score(X,y)

Neden Bu Modeller?

 
 
Neden bu basit modellerle başlamalısınız? Çünkü muhtemelen probleminizin süslü bir şeye ihtiyacı yoktur.

Bazı derin öğrenme modellerini bozmak ve yalnızca küçük bir doğruluk artışı elde etmek için AWS ücretlerine yüzlerce harcamak buna değmez.

Bu iki model on yıllardır üzerinde çalışılan ve en çok kullanılan modellerden bazılarıdır. makine öğreniminde iyi anlaşılan modeller.

Kolayca yorumlanabilirler. Her iki model de doğrusaldır, bu nedenle girdileri, elle hesaplayabileceğiniz bir şekilde çıktılarına çevrilir.

Kendini biraz baş ağrısından kurtar.

 
 
Deneyimli bir veri bilimcisi olsanız bile, bu modellerin probleminizdeki performansını bilmelisiniz, çünkü bunların uygulanması ve test edilmesi çok zahmetsizdir.

Bunun suçlusu oldum. Daha önce doğrudan daldım ve karmaşık modeller oluşturdum. Kullandığım xgboost modelinin genel olarak üstün olduğunu düşünüyorum, bu yüzden benim başlangıç ​​modelim olmalı. Yalnızca bir doğrusal regresyon modelinin birkaç yüzde puanıyla çalıştığını öğrenmek için. Lineer regresyon ise daha basit ve daha yorumlanabilir olduğu için kullanıldı.

Burada oyunda bir ego unsuru var.



Fotoğraf Sebastian Hermann on Unsplash

 

Bu karmaşık modelleri ve bunları nasıl kullanacağınızı anladığınızı göstermek isteyebilirsiniz. Ancak bazen kurmak, eğitmek ve bakımını yapmak pratik değildir. Bir modelin kullanılabilmesi, o modelin kullanılması gerektiği anlamına gelmez.

Zamanını boşa harcama. Yeterince iyi olan ve alışılan bir şey her zaman daha iyidir karmaşık bir şeyden daha, ama kimse kullanmıyor veya anlamıyor.

Umarım, şimdi basit bir şekilde başlarsınız ve bu modellerden biriyle başlarsınız.

İlk soru

 
 
Benim sorunum bir sınıflandırma problemi mi yoksa bir regresyon problemi mi?

Sorununuz bir gerileme sorunu mu?

 
Sürekli bir çıktıyı tahmin etmeye mi çalışıyorsunuz?



Doğrusal Regresyon (Yazara Göre Fotoğraf)

 

Ev, ürün veya hisse senedi gibi bir şeyin fiyatı mı? gerileme.

Uçuş süresi, üretim süresi veya bir kullanıcının blogunuzda geçirdiği süre gibi bir şey ne kadar sürer? gerileme.

Lineer regresyon ile başlayın. Doğrusal regresyonunuzu çizin ve bu modeli değerlendirin.

Performansı buraya kaydedin. Sorununuz için zaten yeterince iyiyse, onunla devam edin. Aksi takdirde, şimdi diğer modelleri denemeye başlayabilirsiniz.

Sorununuz bir sınıflandırma sorunu mu?

 
İkili bir çıktı mı yoksa birden fazla benzersiz ve ayrık çıktı mı tahmin etmeye çalışıyorsunuz?



Lojistik Regresyon (Fotoğraf Yazar)

 

Birinin mağazanızdan bir şey satın alıp almayacağını veya bir oyun kazanacağını mı belirlemeye çalışıyorsunuz? sınıflandırma.

Evet ya da hayır, sahip olduğunuz soruyu yanıtlıyor mu? sınıflandırma.

Lojistik regresyonla başlayın, verilerinizin veya bir alt kümesinin dağılım grafiğini oluşturun ve sınıfları renklendirin. Belki de zaten net bir model vardır.

Yine, modeli değerlendirin ve yine de performansınızı iyileştirmeniz gerekiyorsa bunu temeliniz olarak kullanın. Ama buradan başlayın.

Sonuç

 
 
Muhtemelen, bunu baştan sona okuyanlar, hangi modeli kullanacaklarını seçerken kendilerini benzer bir durumda bulacaklardır. Ve sonra, okuduğunuz bir makaleden bu yeni model için probleminizin mükemmel olduğuna karar verin. Sonuç olarak, sonunda daha basit bir model kazanmak için bu karmaşık modelde ince ayar yapmak için saatler harcamak.

Performansa göre değil, ama tam olarak basit ve yorumlanması kolay oldukları için.

Kendinize biraz zaman ve enerji kazandırın. Sadece doğrusal regresyon ve lojistik regresyon ile başlayın.

 
Bio: zachary warnes Pacmed'te bir Veri Bilimcisi ve sürekli olarak yeni zorluklar arayan bir kişidir. Yıllar önce, yeni sorunlarla uğraşmanın ve engelleri aşmanın yeni beceriler öğrenmenin ve geliştirmenin en hızlı yolu olduğunu fark eden Zachary, her yeni zorlukla yüzleşmekten fayda sağlamak için sürekli olarak yeni durumlara yerleşmeye çalıştı.

orijinal. İzinle yeniden yayınlandı.

İlgili:

Kaynak: https://www.kdnuggets.com/2021/08/select-initial-model-data-science-problem.html

Zaman Damgası:

Den fazla KDNuggets