Minimo di data science: 10 competenze essenziali che devi conoscere per iniziare a dedicarti alla data science

Ripubblicato da Platone

Seguaci: 0

Data Science minimo: 10 competenze essenziali che devi sapere per iniziare a fare scienza dei dati

La scienza dei dati è un campo così ampio che include diverse suddivisioni come la preparazione e l'esplorazione dei dati, la rappresentazione e la trasformazione dei dati, la visualizzazione e la presentazione dei dati, l'analisi predittiva e l'apprendimento automatico, ecc. Per i principianti, è naturale sollevare la seguente domanda: Di quali competenze ho bisogno per diventare un data scientist?

Questo articolo discuterà 10 abilità essenziali che sono necessarie per esercitare i data scientist. Queste abilità potrebbero essere raggruppate in 2 categorie, vale a dire, competenze tecnologiche (Matematica e statistica, capacità di codifica, capacità di elaborazione dati e pre-elaborazione, capacità di visualizzazione dei dati, capacità di apprendimento automatico e capacità di progetto del mondo reale) e abilità morbide (Abilità comunicative, capacità di apprendimento permanente, abilità dei giocatori di squadra e abilità etiche).

La scienza dei dati è un campo in continua evoluzione, tuttavia la padronanza delle basi della scienza dei dati ti fornirà il background necessario di cui hai bisogno per perseguire concetti avanzati come l'apprendimento profondo, l'intelligenza artificiale, ecc. Questo articolo discuterà 10 abilità essenziali per praticando data scientist.

(i) Statistiche e probabilità

Statistics and Probability viene utilizzato per la visualizzazione di feature, preelaborazione dei dati, trasformazione di feature, assegnazione di dati, riduzione della dimensionalità, progettazione di feature, valutazione del modello, ecc. Di seguito sono riportati gli argomenti con cui avere familiarità:

un significato

b) Mediana

c) Modalità

d) Deviazione / varianza standard

e) Coefficiente di correlazione e matrice di covarianza

f) Distribuzioni di probabilità (Binomiale, Poisson, Normale)

g) valore p

h) MSE (errore quadratico medio)

i) Punteggio R2

j) Teorema di Baye (precisione, richiamo, valore predittivo positivo, valore predittivo negativo, matrice di confusione, curva ROC)

k) Test A / B

l) Simulazione Monte Carlo

(ii) Calcolo multivariabile

La maggior parte dei modelli di machine learning è costruita con un set di dati con diverse funzionalità o predittori. Pertanto, la familiarità con il calcolo multivariabile è estremamente importante per la creazione di un modello di apprendimento automatico. Ecco gli argomenti che devi conoscere:

a) Funzioni di più variabili

b) Derivate e gradienti

c) Funzione Step, funzione Sigmoid, funzione Logit, funzione ReLU (Rectified Linear Unit)

d) Funzione di costo

e) Tracciamento di funzioni

f) Valori minimo e massimo di una funzione

(iii) Algebra lineare

L'algebra lineare è l'abilità matematica più importante nell'apprendimento automatico. Un set di dati è rappresentato come una matrice. L'algebra lineare viene utilizzata nella preelaborazione dei dati, nella trasformazione dei dati e nella valutazione dei modelli. Ecco gli argomenti che devi conoscere:

a) Vettori

b) Matrici

c) Trasposizione di una matrice

d) L'inverso di una matrice

e) Il determinante di una matrice

f) Prodotto a punti

g) Autovalori

h) Autovettori

(iv) Metodi di ottimizzazione

La maggior parte degli algoritmi di apprendimento automatico esegue la modellazione predittiva riducendo al minimo una funzione obiettivo, apprendendo in tal modo i pesi che devono essere applicati ai dati di test per ottenere le etichette previste. Ecco gli argomenti che devi conoscere:

a) Funzione costo / funzione obiettivo

b) Funzione di verosimiglianza

c) Funzione di errore

d) Algoritmo di discesa del gradiente e sue varianti (ad esempio, algoritmo di discesa del gradiente stocastico)

Scopri di più sull'algoritmo di discesa del gradiente qui: Apprendimento automatico: come funziona l'algoritmo di discesa del gradiente.

Le capacità di programmazione sono essenziali nella scienza dei dati. Poiché Python e R sono considerati i due linguaggi di programmazione più popolari nella scienza dei dati, le conoscenze essenziali in entrambi i linguaggi sono cruciali. Alcune organizzazioni possono richiedere solo competenze in R o Python, non in entrambi.

(i) Abilità in Python

Acquisire familiarità con le competenze di programmazione di base in Python. Ecco i pacchetti più importanti che dovresti padroneggiare come usare:

a) Numpano

b) Panda

c) Matplotlib

d) Nato dal mare

e) Scikit-impara

f) PyTorch

(ii) Abilità in R

a) Tidiverso

b) Dplr

c) Ggplot2

d) Cursore

e) Stringa

(iii) Competenze in altri linguaggi di programmazione

Alcune organizzazioni o settori possono richiedere competenze nei seguenti linguaggi di programmazione:

a) Eccellere

b) Quadro

c) Hadoop

d) SQL

e) Scintilla

I dati sono fondamentali per qualsiasi analisi nella scienza dei dati, sia essa analisi inferenziale, analisi predittiva o analisi prescrittiva. Il potere predittivo di un modello dipende dalla qualità dei dati utilizzati nella costruzione del modello. I dati sono disponibili in diverse forme, come testo, tabella, immagine, voce o video. Molto spesso, i dati utilizzati per l'analisi devono essere estratti, elaborati e trasformati per renderli in una forma adatta per ulteriori analisi.

i) Conflitto di dati: Il processo di data wrangling è un passaggio fondamentale per qualsiasi data scientist. Molto raramente i dati sono facilmente accessibili in un progetto di data science per l'analisi. È più probabile che i dati si trovino in un file, in un database o siano estratti da documenti come pagine web, tweet o PDF. Sapere come trattare e pulire i dati ti consentirà di ricavare informazioni critiche dai tuoi dati che altrimenti sarebbero nascosti.

ii) Pre-elaborazione dei dati: La conoscenza della pre-elaborazione dei dati è molto importante e include argomenti come:

a) Gestione dei dati mancanti

b) Imputazione dei dati

c) Gestione dei dati categoriali

d) Codifica delle etichette delle classi per problemi di classificazione

e) Tecniche di trasformazione delle caratteristiche e riduzione della dimensionalità, come l'analisi delle componenti principali (PCA) e l'analisi discriminante lineare (LDA).

Comprendere i componenti essenziali di una buona visualizzazione dei dati.

a) Componente dati: Un primo passo importante per decidere come visualizzare i dati è sapere di che tipo di dati si tratta, ad esempio dati categoriali, dati discreti, dati continui, dati di serie temporali, ecc.

b) Componente geometrico: Qui è dove decidi quale tipo di visualizzazione è adatto ai tuoi dati, ad es. Grafico a dispersione, grafici a linee, grafici a barre, istogrammi, grafici qq, densità uniformi, grafici a scatole, grafici a coppie, mappe di calore, ecc.

c) Componente di mappatura: Qui devi decidere quale variabile usare come variabile x e cosa usare come variabile y. Questo è importante, soprattutto quando il tuo set di dati è multidimensionale con diverse funzionalità.

d) Componente di scala: Qui decidi che tipo di scale utilizzare, ad es. Scala lineare, scala logaritmica, ecc.

e) Etichette Componente: Tinclude cose come le etichette degli assi, i titoli, le legende, la dimensione del carattere da usare, ecc.

f) Componente etica: Qui, vuoi assicurarti che la tua visualizzazione racconti la vera storia. È necessario essere consapevoli delle proprie azioni durante la pulizia, il riepilogo, la manipolazione e la produzione di una visualizzazione dei dati e assicurarsi di non utilizzare la visualizzazione per fuorviare o manipolare il pubblico.

L'apprendimento automatico è un ramo molto importante della scienza dei dati. È importante comprendere il framework di apprendimento automatico: definizione dei problemi, analisi dei dati, creazione di modelli, test e valutazione e applicazione del modello. Scopri di più sul framework di machine learning da qui: Il processo di apprendimento automatico.

Di seguito sono riportati importanti algoritmi di apprendimento automatico con cui avere familiarità.

i) Apprendimento supervisionato (previsione di variabili continue)

a) Regressione di base

b) Analisi multiregressione

c) Regolarizzazione della regressione

ii) Apprendimento supervisionato (previsione di variabili discrete)

a) Classificatore di regressione logistica

b) Supporta il classificatore di macchine vettoriali

c) Classificatore K-più vicino (KNN)

d) Classificatore dell'albero decisionale

e) Classificatore casuale della foresta

iii) Apprendimento senza supervisione

a) Algoritmo di clustering di KMeans

Le competenze acquisite dal solo lavoro del corso non ti renderanno uno scienziato dei dati. Un data scientist qualificato deve essere in grado di dimostrare la prova del completamento con successo di un progetto di data science nel mondo reale che includa ogni fase della scienza dei dati e del processo di apprendimento automatico come la definizione dei problemi, l'acquisizione e l'analisi dei dati, la costruzione di modelli, il test del modello, la valutazione del modello e distribuzione di modelli. I progetti di data science del mondo reale si possono trovare nei seguenti:

a) Progetti Kaggle

b) Stage

c) Dalle interviste

I data scientist devono essere in grado di comunicare le loro idee con altri membri del team o con gli amministratori aziendali nelle loro organizzazioni. Buone capacità di comunicazione avrebbero un ruolo chiave qui per essere in grado di trasmettere e presentare informazioni molto tecniche a persone con poca o nessuna comprensione dei concetti tecnici nella scienza dei dati. Buone capacità di comunicazione aiuteranno a promuovere un'atmosfera di unità e solidarietà con altri membri del team come analisti di dati, ingegneri di dati, ingegneri sul campo, ecc.

La scienza dei dati è un campo in continua evoluzione, quindi preparati ad abbracciare e apprendere nuove tecnologie. Un modo per tenersi in contatto con gli sviluppi nel campo è creare una rete con altri data scientist. Alcune piattaforme che promuovono il networking sono LinkedIn, GitHub e Medium (Verso la scienza dei dati ed Verso l'AI pubblicazioni). Le piattaforme sono molto utili per informazioni aggiornate sui recenti sviluppi nel campo.

In qualità di data scientist, lavorerai in un team di analisti di dati, ingegneri, amministratori, quindi hai bisogno di buone capacità di comunicazione. Devi anche essere un buon ascoltatore, specialmente durante le prime fasi di sviluppo del progetto in cui devi fare affidamento su ingegneri o altro personale per essere in grado di progettare e strutturare un buon progetto di scienza dei dati. Essere un buon giocatore di squadra ti aiuterà a prosperare in un ambiente aziendale e mantenere buoni rapporti con gli altri membri del tuo team, nonché gli amministratori o i direttori della tua organizzazione.

Comprendi le implicazioni del tuo progetto. Sii sincero con te stesso. Evita di manipolare i dati o di utilizzare un metodo che produca intenzionalmente bias nei risultati. Sii etico in tutte le fasi, dalla raccolta e analisi dei dati alla costruzione del modello, analisi, test e applicazione. Evita di fabbricare risultati allo scopo di fuorviare o manipolare il tuo pubblico. Sii etico nel modo in cui interpreti i risultati del tuo progetto di data science.

In sintesi, abbiamo discusso di 10 competenze essenziali necessarie per la pratica dei data scientist. La scienza dei dati è un campo in continua evoluzione, tuttavia la padronanza delle basi della scienza dei dati ti fornirà il background necessario di cui hai bisogno per perseguire concetti avanzati come l'apprendimento profondo, l'intelligenza artificiale, ecc.

Benjamin O.Tayo è un fisico, un educatore di scienza dei dati e uno scrittore, nonché il proprietario di DataScienceHub. In precedenza, Benjamin insegnava ingegneria e fisica presso la U. of Central Oklahoma, Grand Canyon U. e Pittsburgh State U.

Originale. Ripubblicato con il permesso.