Kontekst, konsistens og samarbejde er afgørende for succes i datavidenskab

Kildeknude: 1882940

Kontekst, konsistens og samarbejde er afgørende for succes i datavidenskab
Photo by mohamed_hassan på Pixabay

 

Områderne kunstig intelligens (AI) og maskinlæring (ML) er ved slutningen af ​​2021 ikke længere spirende felter med en usikker fremtid foran sig. AI og ML er vokset til at blive enormt indflydelsesrige indflydelsessfærer på den bredere verden af ​​datavidenskab, et faktum, at er forblevet sandere end nogensinde i hele dette år.

I takt med at AI, ML og efterfølgende datavidenskab er blevet ved med at udvide sig, har de parametre, der kan gøre eller ødelægge datavidenskabsteams succes, også vokset. Mulighederne for at opnå betydelig og dybtgående indsigt fra områderne AI og ML er baseret på datavidenskabsteams, der er større end blot én dataforsker, der arbejder med en enkelt bærbar computer. Der er simpelthen for mange data, der skal indhentes, renses og forberedes til analyse – en proces, der bruger en betydelig del af en dataforskers gennemsnitlige arbejdsdag – til at en person kan håndtere alene. 

Moderne datavidenskabsprojekter kredser om vigtig information vedrørende dataforberedelse, tidligere datavidenskabelige projekter og potentielle veje frem til at implementere datamodeller, der skal deles med flere datavidenskaber. Derfor er det afgørende at undersøge årsagerne til, at datavidenskabsteams kræver kontekst, konsistens og sikkert samarbejde mellem deres data for at sikre datavidenskabens succes. Lad os hurtigt undersøge hvert af disse krav, så vi bedre kan forstå, hvordan datavidenskabens succes fremadrettet kan se ud.

Første del: Kontekst

 
Vores undersøgelse af fremtidig datavidenskabssucces begynder med kontekst: ingen proces med iterativ modelbygning der er afhængig af prøv-det-og-fejl-eksperimenter kan holde længe uden institutionel viden, der er dokumenteret, lagret og gjort tilgængelig for data scientists. Og alligevel går en hel del institutionel viden jævnligt tabt på grund af mangel på ordentlig dokumentation og opbevaring.

Overvej dette almindelige scenarie: en junior- eller borgerdataforsker bliver trukket ind i et projekt for at forbedre deres færdigheder, kun for kort efter at kæmpe med synkront og asynkront samarbejde på grund af manglende sammenhæng. Disse ad-hoc-teammedlemmer har brug for kontekst for at vide mere om de data, de interagerer med, de mennesker, der har behandlet problemer i fortiden, og hvordan tidligere arbejde har påvirket det nuværende projektlandskab.

Behovet for korrekt at dokumentere projekter såvel som datamodeller og deres arbejdsgange kan nemt distrahere et team af dataforskere, endsige en enkelt, der arbejder alene. Ledere kan overveje muligheden for at ansæt en freelance-udvikler at bidrage med deres tid til at bevare og formidle institutionel viden for at forbedre standardgennemgangen og feedbacksessionerne for moderne datavidenskabelige projekter. Disse sessioner samt softwaresystemer, arbejdsborde og bedste praksis kan strømline den mere effektive indfangning af projektrelateret kontekst, der forbedrer dataopdagbarheden for yngre og borgere dataforskere i fremtiden.

Data science succes kræver strømlinet forvaltning af viden og dens omgivende kontekst. Uden det vil nye, junior- og borgerdataforskere sandsynligvis kæmpe med onboarding og det meningsfulde bidrag til deres projekter, hvilket igen fører til, at teams genskaber projekter i stedet for at bidrage til tidligere arbejde. 

Anden del: Konsistens

 
Områderne ML og AI har bidraget til grundlæggende ændringer, når det kommer til finansielle tjenesteydelser, sundheds- og biovidenskaberne og fremstilling; disse industrier er dog underlagt betydelige reguleringsmiljøer. Det betyder, at et AI-projekt, der foregår i et reguleret miljø, skal kunne reproduceres med et tydeligt revisionsspor. Med andre ord skal it- og virksomhedsledere, der på en eller anden måde, form eller form er involveret i et datavidenskabsprojekt, sikre et niveau af datakonsistens når det kommer til deres data science projekts resultater. 

IT- og virksomhedsledere, der kan forvente et pålideligt niveau af konsistens, kan også nyde mere selvtillid, når det er tid til at foretage de typer strategiske skift, som AI muliggør. Der er masser på spil, når det kommer til datavidenskabelige projekter, og der er mange investeringer, der kører på dem, så dataforskere fortjener en infrastruktur, hvori de kan operere med et garanteret niveau af reproducerbarhed fra start til slut. Denne fulde reproducerbarhed udmønter sig i den sammenhæng i data, som topledere leder efter for at afgøre, om et datavidenskabsprojekt er tilstrækkeligt betydningsfuldt og i overensstemmelse med deres forretningsmål.

Disse topledere bør til gengæld forvente, at efterhånden som deres videnskabsteam udvides, så vil de nødvendige træningssæt og hardwarekrav også for at sikre konsistens i resultater fra ældre projekter. Derfor er processer og systemer, der hjælper med at styre et miljø, en absolut nødvendighed for en datavidenskabsteamudvidelse. Hvis f.eks. en dataforsker bruger en bærbar computer, mens en dataingeniør kører en anden version af et bibliotek, der kører på en cloud-VM, kan denne dataforsker se deres datamodel producere forskellige resultater fra én maskine til den næste. Den nederste linje: ledere bør sikre, at deres datasamarbejdspartnere har en ensartet måde at dele nøjagtig de samme softwaremiljøer på.

Tredje del: Samarbejde

 
Endelig kommer vi til vigtigheden af ​​et sikkert samarbejde. Efterhånden som virksomheder fortsætter med at flytte deres aktiviteter til en work-home-model, indser organisationer, at datavidenskabssamarbejde er meget vanskeligere end personligt samarbejde. Selvom nogle kerneopgaver inden for datavidenskab kan håndteres ved hjælp af en enkelt datavidenskab (dataforberedelse, forskning og datamodeliteration), har størstedelen af ​​virksomhedsledere fejlagtigt forladt samarbejdet og har efterfølgende hindret fjernproduktivitet.

Men hvordan faciliterer man effektiv og fjernkoordinering mellem projektdeltagere samt sikkerheden af ​​projektdata? Svaret ligger i delbare arbejdsfiler og data vedrørende et datavidenskabsprojekt som gør det mere levedygtigt at formidle information på afstand. Og efterhånden som formidling af projektrelaterede data bliver enklere, jo nemmere det bliver at dele information, jo lettere er det at facilitere fjernsamarbejde om data. Deltagere i et datavidenskabsprojekt kan udnytte cloud-baserede værktøjer til at styrke sikkerheden bag deres forskning. men alt for mange ledere har begået den fejl ikke at opmuntre til samarbejde, hvilket reducerer produktiviteten.

Konklusion

 
De store fremskridt, der har udspillet sig inden for datavidenskab i de seneste år, har været uden fortilfælde og ærlig talt fantastisk. Datavidenskabens fremskridt har gjort det muligt for virksomheder verden over at tage fat på spørgsmål, der tidligere havde få, om overhovedet nogen, let tilgængelige svar uden de innovationer, der er blevet muliggjort af AI og ML. 

Men efterhånden som verden af ​​datavidenskab fortsætter med at modnes og vokse, er det på tide, at topledere og de datavidenskabsteams, de fører tilsyn med, migrerer væk fra en mere ad-hoc og reaktiv måde at få arbejdet udført. Ressourcer, som datavidenskabsfolk kan bruge til at skabe kontekst, konsistens og større samarbejde, såsom softwarearbejdsborde, vil sandsynligvis være afgørende for succes inden for datavidenskab. I sidste ende vil projekter kræve mindre indsats fra datavidenskabsmænd, ingeniører, analytikere og forskere, som bedre vil være i stand til at accelerere feltets fortsatte og forbløffende succes.

 
 
Nahla Davies er softwareudvikler og teknologiskribent. Før hun helligede sit arbejde på fuld tid til teknisk skrivning, nåede hun – blandt andet spændende – at fungere som ledende programmør hos en Inc. 5,000 erfaringsbaseret branding-organisation, hvis kunder omfatter Samsung, Time Warner, Netflix og Sony.

Kilde: https://www.kdnuggets.com/2022/01/context-consistency-collaboration-essential-data-science-success.html

Tidsstempel:

Mere fra KDnuggets