Contesto, coerenza e collaborazione sono essenziali per il successo della scienza dei dati

Nodo di origine: 1882940

Contesto, coerenza e collaborazione sono essenziali per il successo della scienza dei dati
Foto di mohamed_hassan su Pixabay

 

I campi dell'intelligenza artificiale (AI) e dell'apprendimento automatico (ML) non sono più, alla fine del 2021, campi nascenti con un futuro incerto davanti a sé. L'intelligenza artificiale e il machine learning sono cresciuti fino a diventare sfere di influenza enormemente influenti sul più ampio mondo della scienza dei dati, un fatto che è rimasto più vero di mai durante quest'anno.

Tuttavia, poiché l'IA, il ML e, di conseguenza, la scienza dei dati hanno continuato ad espandersi, così anche i parametri che possono creare o distruggere il successo dei team di scienza dei dati. Le opportunità di ottenere approfondimenti significativi e approfonditi dai campi dell'IA e del machine learning si basano su team di data science che sono più grandi di un semplice data scientist che opera con un singolo laptop. Ci sono semplicemente troppi dati che devono essere ottenuti, puliti e preparati per l'analisi, un processo che consuma una parte significativa della giornata lavorativa media di un data scientist, per essere gestiti da una sola persona. 

I moderni progetti di scienza dei dati ruotano attorno a informazioni importanti riguardanti la preparazione dei dati, progetti di scienza dei dati precedenti e potenziali modi per implementare modelli di dati che devono essere condivisi con più scienze dei dati. Pertanto, è fondamentale indagare sui motivi per cui i team di data science richiedono contesto, coerenza e collaborazione sicura dei propri dati per garantire il successo della data science. Esaminiamo rapidamente ciascuno di questi requisiti in modo da poter comprendere meglio come potrebbe essere il successo della scienza dei dati in futuro.

Parte prima: Contesto

 
Il nostro esame del futuro successo della scienza dei dati inizia con il contesto: nessun processo di costruzione di modelli iterativi che si basa sulla sperimentazione prova e fallisci può durare a lungo senza una conoscenza istituzionale che sia documentata, archiviata e resa disponibile ai data scientist. E, tuttavia, una grande quantità di conoscenza istituzionale viene regolarmente persa a causa della mancanza di un'adeguata documentazione e archiviazione.

Considera questo scenario comune: un data scientist junior o cittadino viene coinvolto in un progetto per migliorare le proprie competenze, solo per lottare subito dopo collaborazione sincrona e asincrona per mancanza di contesto. Questi membri del team ad hoc hanno bisogno del contesto per conoscere meglio i dati con cui interagiscono, le persone che hanno affrontato problemi in passato e come il lavoro precedente ha influenzato l'attuale panorama del progetto.

La necessità di documentare adeguatamente i progetti, i modelli di dati e i relativi flussi di lavoro può facilmente distrarre un team di data scientist, per non parlare di uno solo che opera da solo. I leader possono prendere in considerazione la possibilità di farlo assumere uno sviluppatore freelance contribuire con il proprio tempo alla conservazione e alla diffusione della conoscenza istituzionale per migliorare le sessioni standard di revisione e feedback dei moderni progetti di scienza dei dati. Queste sessioni, così come i sistemi software, gli ambienti di lavoro e le migliori pratiche possono semplificare l'acquisizione più efficace del contesto relativo al progetto che migliora la rilevabilità dei dati di scienziati di dati junior e cittadini in futuro.

Il successo della scienza dei dati richiede il gestione snella della conoscenza e il suo contesto circostante. Senza di esso, è probabile che i data scientist nuovi, junior e cittadini abbiano difficoltà con l'onboarding e il contributo significativo ai loro progetti, il che a sua volta porta i team a ricreare i progetti piuttosto che contribuire al lavoro precedente. 

Parte seconda: coerenza

 
I campi di ML e AI hanno contribuito a cambiamenti fondamentali quando si tratta di servizi finanziari, salute e scienze della vita e produzione; questi settori, tuttavia, sono soggetti a importanti ambienti normativi. Ciò significa che un progetto di IA che si svolge in un ambiente regolamentato deve essere riproducibile con una pista di controllo chiara. In altre parole, i leader IT e aziendali che sono in qualche modo coinvolti in un progetto di data science devono farlo garantire un livello di coerenza dei dati quando si tratta dei risultati del loro progetto di data science. 

I leader IT e aziendali che possono aspettarsi un livello affidabile di coerenza possono anche godere di maggiore sicurezza quando arriva il momento di apportare i tipi di cambiamenti strategici facilitati dall'IA. C'è molto in gioco quando si tratta di progetti di scienza dei dati e ci sono molti investimenti su di essi, quindi i data scientist meritano un'infrastruttura in cui possano operare con un livello garantito di riproducibilità dall'inizio alla fine. Questa piena riproducibilità si traduce nella coerenza dei dati che i top executive cercano per decidere se un progetto di data science è sufficientemente significativo e in linea con i propri obiettivi di business.

Questi alti dirigenti dovrebbero, a loro volta, aspettarsi che, man mano che i loro team scientifici si espandono, cresceranno anche i set di formazione e i requisiti hardware necessari per garantire la coerenza dei risultati dei progetti precedenti. Pertanto, i processi e i sistemi che aiutano a gestire un ambiente sono una necessità assoluta per l'espansione del team di data science. Se, ad esempio, un data scientist sta usando un laptop mentre un data engineer sta eseguendo una versione diversa di una libreria in esecuzione su una VM cloud, quel data scientist potrebbe vedere il proprio modello di dati produrre risultati diversi da una macchina all'altra. La conclusione: i dirigenti dovrebbero garantire che i loro collaboratori di dati dispongano di un modo coerente per condividere gli stessi ambienti software.

Parte terza: Collaborazione

 
Infine, arriviamo all'importanza di una collaborazione sicura. Poiché le aziende continuano a spostare le proprie operazioni su un modello di lavoro da casa, le organizzazioni si stanno rendendo conto che la collaborazione nella scienza dei dati è molto più difficile della collaborazione di persona. Sebbene alcuni compiti fondamentali della scienza dei dati siano gestibili con l'aiuto di un'unica scienza dei dati (preparazione dei dati, ricerca e iterazione del modello dei dati), la maggior parte dei dirigenti aziendali ha erroneamente abbandonato la collaborazione per strada e di conseguenza ha ostacolato la produttività remota.

Ma come si facilita il coordinamento efficace e remoto tra i partecipanti al progetto e la sicurezza dei dati del progetto? La risposta sta nei file di lavoro condivisibili e nei dati relativi a un progetto di scienza dei dati che lo rendono più praticabile per diffondere informazioni a distanza. E man mano che la diffusione dei dati relativi al progetto diventa più semplice, più semplice diventa condividere le informazioni, più facile è facilitare la collaborazione remota sui dati. I partecipanti a un progetto di scienza dei dati possono sfruttare gli strumenti basati sul cloud per rafforzare la sicurezza alla base della loro ricerca. ma troppi leader hanno commesso l'errore di non incoraggiare la collaborazione, riducendo la produttività.

Conclusione

 
Il puro progresso che si è svolto nel regno della scienza dei dati negli ultimi anni è stato senza precedenti e francamente sorprendente. La progressione della scienza dei dati ha reso possibile per le aziende di tutto il mondo rispondere a domande che in precedenza avevano poche, se non nessuna, risposte prontamente disponibili senza le innovazioni rese possibili da AI e ML. 

Tuttavia, poiché il mondo della scienza dei dati continua a maturare e crescere, è giunto il momento che i massimi dirigenti e i team di scienza dei dati che supervisionano escano da un modo più ad hoc e reattivo di portare a termine il lavoro. È probabile che le risorse che i data scientist possono utilizzare per generare contesto, coerenza e una maggiore collaborazione come gli ambienti di lavoro software siano essenziali per il successo della scienza dei dati. In definitiva, i progetti richiederanno uno sforzo minore da parte di data scientist, ingegneri, analisti e ricercatori, che saranno maggiormente in grado di accelerare il continuo e sorprendente successo del campo.

 
 
Nahla Davis è uno sviluppatore di software e scrittore di tecnologia. Prima di dedicare il suo lavoro a tempo pieno alla scrittura tecnica, è riuscita, tra le altre cose interessanti, a servire come programmatore capo in un'organizzazione di branding esperienziale Inc. 5,000 i cui clienti includono Samsung, Time Warner, Netflix e Sony.

Fonte: https://www.kdnuggets.com/2022/01/context-consistency-collaboration-essential-data-science-success.html

Timestamp:

Di più da KDnuggets