Kontekst, järjepidevus ja koostöö on andmeteaduse edu jaoks olulised

Allikasõlm: 1882940

Kontekst, järjepidevus ja koostöö on andmeteaduse edu jaoks olulised
Foto: mohamed_hassan Pixabays

 

Tehisintellekti (AI) ja masinõppe (ML) valdkonnad ei ole 2021. aasta lõpus enam tekkivad valdkonnad, mille tulevik on ebakindel. AI ja ML on muutunud tohutult mõjukateks mõjusfäärideks laiemas andmeteaduse maailmas, mis on tõsiasi, et on jäänud tõesemaks kui kunagi kogu selle aasta jooksul.

Kuna AI, ML ja hiljem ka andmeteadus on jätkuvalt laienenud, on laienenud ka parameetrid, mis võivad andmeteaduse meeskondade edu muuta või seda murda. Võimalused saada märkimisväärseid ja põhjalikke teadmisi AI ja ML valdkondadest põhinevad andmeteaduse meeskondadel, mis on suuremad kui üks andmeteadlane, kes töötab ühe sülearvutiga. Andmeid, mida tuleb hankida, puhastada ja analüüsiks ette valmistada – see protsess võtab olulise osa andmeteadlase keskmisest tööpäevast – on lihtsalt liiga palju, et üksi saaks hakkama. 

Kaasaegsed andmeteaduse projektid keerlevad andmete ettevalmistamise, varasemate andmeteaduse projektide ja võimalike andmemudelite juurutamise viiside ümber olulise teabe, mida tuleb jagada mitme andmeteadusega. Seetõttu on ülioluline uurida põhjuseid, miks andmeteaduse meeskonnad nõuavad andmete konteksti, järjepidevust ja turvalist koostööd, et tagada andmeteaduse edu. Uurime kiiresti kõiki neid nõudeid, et saaksime paremini mõista, milline võib andmeteaduse edu välja näha.

Esimene osa: kontekst

 
Meie tulevase andmeteaduse edu uurimine algab kontekstist: iteratiivse mudeli loomise protsessi pole mis tugineb proovi-ja-ebaõnnestumise katsele võib kesta kaua ilma institutsionaalsete teadmisteta, mis on dokumenteeritud, salvestatud ja andmeteadlastele kättesaadavaks tehtud. Siiski läheb suur osa institutsionaalsetest teadmistest korrapäraselt kaotsi, kuna puudub korralik dokumentatsioon ja säilitamine.

Mõelge sellele tavalisele stsenaariumile: noorem või kodanikest andmeteadlane kaasatakse projekti, et oma oskusi parandada, kuid varsti pärast seda peab ta vaeva nägema. sünkroonne ja asünkroonne koostöö konteksti puudumise tõttu. Need ad hoc meeskonnaliikmed vajavad konteksti, et saada rohkem teavet andmete kohta, millega nad suhtlevad, inimestest, kes on minevikus probleemidega tegelenud, ja kuidas eelnev töö mõjutas praegust projektimaastikku.

Projektide, andmemudelite ja nende töövoogude nõuetekohase dokumenteerimise vajadus võib kergesti hajutada andmeteadlaste meeskonna tähelepanu, rääkimata üksikust, kes töötab üksi. Juhid võivad kaaluda võimalust palgata vabakutseline arendaja panustada oma aega institutsionaalsete teadmiste säilitamisse ja levitamisse, et täiustada kaasaegsete andmeteaduse projektide standardseid ülevaate- ja tagasisideseansse. Need seansid, samuti tarkvarasüsteemid, töölauad ja parimad tavad võivad tõhustada projektiga seotud konteksti tõhusamat jäädvustamist, mis parandab noorte ja kodanike andmeteadlaste andmete leitavust tulevikus.

Andmeteaduse edu nõuab tõhustatud teadmiste haldamine ja seda ümbritsevat konteksti. Ilma selleta on uutel, noorematel ja kodanike andmeteadlastel tõenäoliselt probleeme sisseelamise ja oma projektidesse sisulise panusega, mis omakorda viib selleni, et meeskonnad loovad projekte uuesti, mitte ei panusta varasemasse töösse. 

Teine osa: järjepidevus

 
ML ja AI valdkonnad on kaasa aidanud fundamentaalsetele muutustele finantsteenuste, tervise- ja bioteaduste ning tootmise valdkonnas; need tööstusharud on aga allutatud olulisele regulatiivsele keskkonnale. See tähendab, et reguleeritud keskkonnas toimuv AI projekt peab olema reprodutseeritav selge kontrolljäljega. Teisisõnu peavad IT- ja ärijuhid, kes on mingil moel, kuju või vormiga seotud andmeteaduse projektiga tagada andmete järjepidevuse tase mis puudutab nende andmeteaduse projekti tulemusi. 

IT- ja ettevõtete juhid, kes võivad eeldada usaldusväärset järjepidevust, võivad samuti tunda suuremat enesekindlust, kui on aeg teha selliseid strateegilisi nihkeid, mida tehisintellekt hõlbustab. Andmeteaduse projektide osas on kaalul palju ja nendesse kulub palju investeeringuid, nii et andmeteadlased väärivad infrastruktuuri, milles nad saavad töötada garanteeritud reprodutseeritavusega algusest lõpuni. See täielik reprodutseeritavus väljendub andmete järjepidevuses, mida tippjuhid otsivad, et otsustada, kas andmeteaduse projekt on piisavalt oluline ja nende ärieesmärkidega kooskõlas.

Need tippjuhid peaksid omakorda eeldama, et nende teadusmeeskondade laienedes laienevad ka vajalikud koolituskomplektid ja riistvaranõuded, et tagada vanemate projektide tulemuste järjepidevus. Seetõttu on keskkonda hallata aitavad protsessid ja süsteemid andmeteaduse meeskonna laienemiseks hädavajalikud. Kui näiteks andmeteadlane kasutab sülearvutit, samal ajal kui andmeinsener kasutab pilve-VM-is töötavat teegi teist versiooni, võib see andmeteadlane näha oma andmemudelit, mis annab masinate lõikes erinevaid tulemusi. Lõpptulemus: juhid peaksid tagama, et nende andmekaastöötajatel oleks järjepidev viis täpselt sama tarkvarakeskkondade jagamiseks.

Kolmas osa: koostöö

 
Lõpuks jõuame turvalise koostöö olulisuseni. Kuna ettevõtted jätkavad oma tegevuse üleviimist kodust töötamise mudelile, mõistavad organisatsioonid, et andmeteaduslik koostöö on palju keerulisem kui isiklik koostöö. Kuigi mõned põhilised andmeteaduslikud ülesanded on hallatavad ühe andmeteaduse abil (andmete ettevalmistamine, uurimine ja andmemudeli iteratsioon), on enamik ettevõtete juhte ekslikult jätnud koostöö kõrvale ja on seejärel takistanud kaugtootlikkust.

Kuidas aga hõlbustada projektis osalejate vahelist tõhusat ja kaugkoordineerimist ning projekti andmete turvalisust? Vastus peitub jagatavates tööfailides ja andmeteaduse projektiga seotud andmetes mis muudavad selle elujõulisemaks teabe kauglevitamiseks. Ja kuna projektiga seotud andmete levitamine muutub lihtsamaks, seda lihtsamaks muutub teabe jagamine, seda lihtsam on hõlbustada kaugandmete koostööd. Andmeteaduse projektis osalejad saavad oma uuringute tagamise turvalisuse tugevdamiseks kasutada pilvepõhiseid tööriistu. kuid liiga paljud juhid on teinud vea, et ei julgustanud koostööd, vähendades tootlikkust.

Järeldus

 
Viimastel aastatel andmeteaduse vallas toimunud tohutu edusammud on olnud enneolematud ja ausalt öeldes hämmastavad. Andmeteaduse areng on võimaldanud ettevõtetel üle maailma tegeleda küsimustega, millele varem oli vähe, kui üldse, kergesti kättesaadavaid vastuseid ilma tehisintellekti ja ML-i võimaldanud uuendusteta. 

Kuna aga andmeteaduse maailm aina küpseb ja kasvab, on tippjuhtidel ja nende juhendatavatel andmeteaduse meeskondadel aeg lahkuda ad hoc ja reaktiivsemast töö tegemise viisist. Ressursid, mida andmeteadlased saavad kasutada konteksti, järjepidevuse ja suurema koostöö loomiseks, nagu tarkvara töölauad, on tõenäoliselt andmeteaduse edu jaoks olulised. Lõppkokkuvõttes nõuavad projektid andmeteadlastelt, inseneridelt, analüütikutelt ja teadlastelt vähem pingutusi, kes suudavad paremini kiirendada valdkonna jätkuvat ja hämmastavat edu.

 
 
Nahla Davies on tarkvaraarendaja ja tehnikakirjutaja. Enne kui ta pühendas oma töö täiskohaga tehnilisele kirjutamisele, suutis ta muuhulgas olla ka juhtprogrammeerija Inc. 5,000 kogemusliku brändingu organisatsioonis, mille klientide hulka kuuluvad Samsung, Time Warner, Netflix ja Sony.

Allikas: https://www.kdnuggets.com/2022/01/context-consistency-collaboration-essential-data-science-success.html

Ajatempel:

Veel alates KDnuggets