Contextul, consistența și colaborarea sunt esențiale pentru succesul în știința datelor

Nodul sursă: 1882940

Contextul, consistența și colaborarea sunt esențiale pentru succesul în știința datelor
Fotografie de mohamed_hassan pe Pixabay

 

Domeniile inteligenței artificiale (AI) și învățării automate (ML) nu mai sunt, la sfârșitul anului 2021, domenii în curs de dezvoltare cu viitor incert în față. AI și ML au crescut pentru a deveni sfere de influență extrem de influente în lumea mai largă a științei datelor, un fapt care a rămas mai adevărat decât vreodată pe tot parcursul acestui an.

Pe măsură ce AI, ML și, ulterior, știința datelor au continuat să se extindă, totuși, la fel au continuat să se extindă și parametrii care pot face sau distruge succesul echipelor din știința datelor. Oportunitățile de a obține informații semnificative și profunde din domeniile AI și ML sunt bazate pe echipe de știință a datelor care sunt mai mari decât un simplu om de știință de date care operează cu un singur laptop. Pur și simplu, există prea multe date care trebuie obținute, curățate și pregătite pentru analiză – un proces care consumă o parte semnificativă din ziua de lucru medie a unui cercetător de date – pentru ca orice persoană să le poată gestiona singură. 

Proiectele moderne de știință a datelor se învârt în jurul informațiilor importante cu privire la pregătirea datelor, proiecte anterioare de știință a datelor și modalități potențiale de a implementa modele de date care trebuie partajate cu mai multe științe ale datelor. Prin urmare, este crucial să se investigheze motivele pentru care echipele de știință a datelor necesită context, consecvență și colaborare sigură a datelor lor pentru a asigura succesul științei datelor. Să examinăm rapid fiecare dintre aceste cerințe, astfel încât să putem înțelege mai bine cum ar putea arăta succesul științei datelor în viitor.

Prima parte: Context

 
Examinarea noastră a succesului viitor al științei datelor începe cu contextul: niciun proces de construire iterativă a modelelor care se bazează pe experimentarea „încercați și eșua”. poate dura mult timp fără cunoștințe instituționale care sunt documentate, stocate și puse la dispoziția oamenilor de știință de date. Și totuși, o mare parte a cunoștințelor instituționale se pierde în mod regulat din cauza lipsei de documentare și stocare adecvată.

Luați în considerare acest scenariu obișnuit: un cercetător de date junior sau cetățean este atras într-un proiect pentru a-și îmbunătăți abilitățile, doar pentru a se lupta imediat după aceea cu colaborare sincronă și asincronă din cauza lipsei de context. Acești membri ai echipei ad-hoc au nevoie de context pentru a afla mai multe despre datele cu care interacționează, despre oamenii care au abordat probleme în trecut și despre modul în care munca anterioară a influențat peisajul actual al proiectului.

Necesitatea de a documenta în mod corespunzător proiectele, precum și modelele de date și fluxurile de lucru ale acestora poate distrage cu ușurință o echipă de oameni de știință ai datelor, cu atât mai puțin una care operează singur. Liderii pot lua în considerare opțiunea de a angajați un dezvoltator independent să contribuie cu timpul lor la conservarea și diseminarea cunoștințelor instituționale pentru a îmbunătăți sesiunile standard de revizuire și feedback ale proiectelor moderne de știință a datelor. Aceste sesiuni, precum și sistemele software, bancurile de lucru și cele mai bune practici pot eficientiza capturarea mai eficientă a contextului legat de proiect, care îmbunătățește descoperirea datelor de către oamenii de știință de date juniori și cetățeni în viitor.

Succesul în știința datelor necesită management eficient al cunoștințelor și contextul înconjurător. Fără aceasta, oamenii de știință de date noi, juniori și cetățeni sunt probabil să se lupte cu integrarea și contribuția semnificativă la proiectele lor, ceea ce, la rândul său, duce la recrearea echipelor de proiecte, mai degrabă decât să contribuie la munca anterioară. 

Partea a doua: Consecvență

 
Domeniile ML și AI au contribuit la schimbări fundamentale atunci când vine vorba de servicii financiare, sănătate și științe ale vieții și producție; aceste industrii, totuși, sunt supuse unor medii de reglementare semnificative. Aceasta înseamnă că un proiect AI care are loc într-un mediu reglementat trebuie să fie reproductibil cu o pistă de audit clară. Cu alte cuvinte, liderii IT și de afaceri care sunt într-un fel, formează sau formează implicați într-un proiect de știință a datelor trebuie să o facă asigura un nivel de coerență a datelor când vine vorba de rezultatele proiectului lor de știință a datelor. 

Liderii IT și de afaceri care se pot aștepta la un nivel de încredere de consistență se pot bucura, de asemenea, de mai multă încredere atunci când vine timpul să facă tipurile de schimbări strategice pe care AI le facilitează. Sunt multe în joc când vine vorba de proiecte de știință a datelor și există o mulțime de investiții care se bazează pe ele, așa că oamenii de știință de date merită o infrastructură în care să poată opera cu un nivel garantat de reproductibilitate de la început la sfârșit. Această reproductibilitate deplină se traduce în coerența datelor pe care directorii de top o caută pentru a decide dacă un proiect de știință a datelor este sau nu suficient de semnificativ și aliniat cu obiectivele lor de afaceri.

Acești directori de top ar trebui, la rândul lor, să se aștepte ca pe măsură ce echipele lor științifice se extind, la fel și seturile de instruire și cerințele hardware necesare pentru a asigura coerența rezultatelor proiectelor mai vechi. Prin urmare, procesele și sistemele care ajută la gestionarea unui mediu sunt o necesitate absolută pentru extinderea unei echipe de știință a datelor. Dacă, de exemplu, un cercetător de date folosește un laptop în timp ce un inginer de date rulează o versiune diferită a unei biblioteci care rulează pe o VM în cloud, acel om de știință de date poate vedea modelul său de date producând rezultate diferite de la o mașină la alta. Concluzia: directorii trebuie să se asigure că colaboratorii lor de date au un mod consecvent de a partaja exact aceleași medii software.

Partea a treia: Colaborare

 
În cele din urmă, ajungem la importanța colaborării sigure. Pe măsură ce companiile continuă să-și schimbe operațiunile către un model de lucru de la domiciliu, organizațiile își dau seama că colaborarea în știința datelor este mult mai dificilă decât colaborarea în persoană. Deși unele sarcini de bază ale științei datelor sunt gestionabile cu ajutorul unei singure științe a datelor (pregătirea datelor, cercetarea și iterația modelului de date), majoritatea directorilor de afaceri au lăsat din greșeală colaborarea pe margine și au împiedicat ulterior productivitatea de la distanță.

Dar cum se facilitează coordonarea eficientă și de la distanță între participanții la proiect, precum și securitatea datelor din proiect? Răspunsul constă în fișierele de lucru care pot fi partajate și în datele referitoare la un proiect de știință a datelor care o fac mai viabilă pentru a difuza informații de la distanță. Și pe măsură ce diseminarea datelor legate de proiect devine mai simplă, cu cât devine mai simplă partajarea informațiilor, cu atât este mai ușor să se faciliteze colaborarea la distanță a datelor. Participanții la un proiect de știință a datelor pot folosi instrumente bazate pe cloud pentru a consolida securitatea din spatele cercetării lor. dar prea mulți lideri au făcut greșeala de a nu încuraja colaborarea, reducând productivitatea.

Concluzie

 
Progresul absolut care s-a desfășurat în domeniul științei datelor în ultimii ani a fost fără precedent și, sincer, uimitor. Progresul științei datelor a făcut posibil ca companiile din întreaga lume să abordeze întrebări care anterior aveau puține, dacă nu există, răspunsuri ușor disponibile, fără inovațiile care au fost posibile de AI și ML. 

Cu toate acestea, pe măsură ce lumea științei datelor continuă să se maturizeze și să crească, este timpul ca directorii de top și echipele de știință a datelor pe care le supraveghează să treacă de la un mod mai ad-hoc și mai reactiv de a-și duce la bun sfârșit munca. Resurse pe care oamenii de știință de date le pot folosi pentru a genera context, consecvență și o colaborare mai mare, cum ar fi bancurile de lucru software, sunt probabil esențiale pentru succesul științei datelor. În cele din urmă, proiectele vor solicita mai puțin efort din partea oamenilor de știință, inginerilor, analiștilor și cercetătorilor, care vor fi mai capabili să accelereze succesul continuu și uimitor al domeniului.

 
 
Nahla Davies este un dezvoltator de software și scriitor de tehnologie. Înainte de a-și dedica munca cu normă întreagă scrierii tehnice, ea a reușit, printre alte lucruri interesante, să servească ca programator principal la o organizație de branding experiență Inc. 5,000 ai cărei clienți includ Samsung, Time Warner, Netflix și Sony.

Sursa: https://www.kdnuggets.com/2022/01/context-consistency-collaboration-essential-data-science-success.html

Timestamp-ul:

Mai mult de la KDnuggets