Kontekst, spójność i współpraca są niezbędne dla sukcesu w dziedzinie nauki o danych

Węzeł źródłowy: 1882940

Kontekst, spójność i współpraca są niezbędne dla sukcesu w dziedzinie nauki o danych
Photo by mohamed_hassan na Pixabay

 

Pod koniec 2021 r. obszary sztucznej inteligencji (AI) i uczenia maszynowego (ML) nie będą już powstawać, a przed nimi niepewna przyszłość. Sztuczna inteligencja i ML stały się niezwykle wpływowymi strefami wpływów w szerszym świecie data science, co jest faktem pozostała prawdziwsza niż kiedykolwiek przez cały ten rok.

Ponieważ sztuczna inteligencja, ML, a następnie nauka o danych nadal się rozwijają, pojawiają się również parametry, które mogą przyczynić się do sukcesu zespołów zajmujących się analizą danych. Możliwości uzyskania znaczących i głębokich informacji z dziedzin AI i ML są oparte na zespołach zajmujących się analizą danych, które są większe niż tylko jeden naukowiec pracujący na jednym laptopie. Jest po prostu zbyt wiele danych, które trzeba uzyskać, oczyścić i przygotować do analizy — procesu, który pochłania znaczną część przeciętnego dnia pracy analityka danych — aby jakakolwiek osoba mogła sobie z nimi samodzielnie poradzić. 

Nowoczesne projekty nauki o danych obracają się wokół ważnych informacji dotyczących przygotowania danych, wcześniejszych projektów nauki o danych i potencjalnych sposobów wdrażania modeli danych, które muszą być udostępniane wielu naukowcom o danych. Dlatego ważne jest, aby zbadać powody, dla których zespoły zajmujące się analizą danych wymagają kontekstu, spójności i bezpiecznej współpracy swoich danych, aby zapewnić sukces w zakresie analizy danych. Przyjrzyjmy się szybko każdemu z tych wymagań, aby lepiej zrozumieć, jak może wyglądać postęp w dziedzinie nauki o danych.

Część pierwsza: kontekst

 
Nasze badanie przyszłego sukcesu nauki o danych zaczyna się od kontekstu: brak procesu iteracyjnego budowania modelu która opiera się na eksperymentach typu „próbuj i się nie udaj” może trwać długo bez wiedzy instytucjonalnej, która jest udokumentowana, przechowywana i udostępniana naukowcom zajmującym się danymi. A jednak duża część wiedzy instytucjonalnej jest regularnie tracona z powodu braku odpowiedniej dokumentacji i przechowywania.

Rozważ ten typowy scenariusz: młodszy lub obywatelski analityk danych zostaje wciągnięty do projektu, aby poprawić swoje umiejętności, a wkrótce potem zmaga się z współpraca synchroniczna i asynchroniczna z powodu braku kontekstu. Członkowie zespołu ad hoc potrzebują kontekstu, aby dowiedzieć się więcej o danych, z którymi wchodzą w interakcje, ludziach, którzy rozwiązywali problemy w przeszłości oraz o tym, jak poprzednia praca wpłynęła na obecny krajobraz projektu.

Konieczność odpowiedniego dokumentowania projektów oraz modeli danych i ich przepływów pracy może łatwo odwrócić uwagę zespołu analityków danych, nie mówiąc już o pojedynczym, działającym samodzielnie. Liderzy mogą rozważyć opcję: zatrudnij niezależnego programistę poświęcić swój czas na zachowanie i rozpowszechnianie wiedzy instytucjonalnej, aby ulepszyć standardowe sesje przeglądów i informacji zwrotnych dotyczących nowoczesnych projektów nauki o danych. Te sesje, a także systemy oprogramowania, warsztaty i najlepsze praktyki mogą usprawnić bardziej efektywne przechwytywanie kontekstu związanego z projektem, co w przyszłości poprawi możliwość odkrywania danych przez młodszych i obywatelskich naukowców zajmujących się danymi.

Sukces w nauce o danych wymaga usprawnione zarządzanie wiedzą i otaczający go kontekst. Bez niego nowi, młodsi i obywatele analitycy danych prawdopodobnie będą mieli trudności z wdrażaniem i znaczącym wkładem w swoje projekty, co z kolei prowadzi do tego, że zespoły ponownie tworzą projekty, zamiast wnosić wkład w poprzednią pracę. 

Część druga: Spójność

 
Dziedziny ML i AI przyczyniły się do fundamentalnych zmian, jeśli chodzi o usługi finansowe, zdrowie i nauki przyrodnicze oraz produkcję; jednak branże te podlegają istotnym uwarunkowaniom regulacyjnym. Oznacza to, że projekt AI, który ma miejsce w regulowanym środowisku, musi być odtwarzalny z wyraźną ścieżką audytu. Innymi słowy, liderzy IT i biznesowi, którzy są w jakiś sposób, kształtem lub formą zaangażowani w projekt data science, muszą: zapewnić poziom spójności danych jeśli chodzi o wyniki ich projektu badawczego. 

Liderzy IT i biznesowi, którzy mogą oczekiwać niezawodnego poziomu spójności, mogą również cieszyć się większą pewnością, gdy przychodzi czas na dokonywanie strategicznych zmian, które umożliwia sztuczna inteligencja. Stawka jest duża, jeśli chodzi o projekty z zakresu analizy danych i wiąże się z nimi wiele inwestycji, więc naukowcy zajmujący się danymi zasługują na infrastrukturę, w której mogą działać z gwarantowanym poziomem odtwarzalności od początku do końca. Ta pełna odtwarzalność przekłada się na spójność danych, których najwyżsi menedżerowie szukają, aby zdecydować, czy projekt związany z nauką danych jest wystarczająco istotny i zgodny z ich celami biznesowymi.

Ci dyrektorzy wyższego szczebla powinni z kolei oczekiwać, że wraz ze wzrostem ich zespołów naukowych zwiększą się również niezbędne zestawy szkoleniowe i wymagania sprzętowe, aby zapewnić spójność wyników ze starszych projektów. Dlatego procesy i systemy, które pomagają zarządzać środowiskiem, są absolutną koniecznością dla rozwoju zespołu data science. Jeśli na przykład analityk danych używa laptopa, podczas gdy inżynier danych korzysta z innej wersji biblioteki działającej na maszynie wirtualnej w chmurze, może on zobaczyć, że jego model danych generuje różne wyniki na różnych maszynach. Podsumowując: kierownictwo powinno zapewnić, że ich współpracownicy danych mają spójny sposób udostępniania dokładnie tych samych środowisk oprogramowania.

Część trzecia: Współpraca

 
Wreszcie dochodzimy do znaczenia bezpiecznej współpracy. W miarę jak firmy przestawiają się na model pracy z domu, organizacje zdają sobie sprawę, że współpraca w zakresie analizy danych jest znacznie trudniejsza niż współpraca osobista. Chociaż niektórymi podstawowymi obowiązkami związanymi z analizą danych można zarządzać za pomocą jednej analizy danych (przygotowanie danych, badania i iteracja modelu danych), większość dyrektorów biznesowych omyłkowo porzuciła współpracę i w konsekwencji utrudniała zdalną produktywność.

Ale jak ułatwić skuteczną i zdalną koordynację między uczestnikami projektu oraz bezpieczeństwo danych projektu? Odpowiedź tkwi w udostępnianych plikach roboczych i danych dotyczących projektu data science które czynią to bardziej opłacalnym do zdalnego rozpowszechniania informacji. A ponieważ rozpowszechnianie danych związanych z projektem staje się prostsze, im prostsze staje się udostępnianie informacji, tym łatwiej jest ułatwić zdalną współpracę danych. Uczestnicy projektu z zakresu nauki o danych mogą wykorzystać narzędzia oparte na chmurze do wzmocnienia bezpieczeństwa ich badań. ale zbyt wielu liderów popełniło błąd, nie zachęcając do współpracy, zmniejszając produktywność.

Wnioski

 
Sam postęp, jaki dokonał się w dziedzinie nauki o danych w ostatnich latach, był bezprecedensowy i, szczerze mówiąc, niesamowity. Postęp nauki o danych umożliwił firmom na całym świecie odpowiadanie na pytania, na które wcześniej było niewiele, jeśli w ogóle, łatwo dostępnych odpowiedzi, bez innowacji, które umożliwiły sztuczna inteligencja i uczenie maszynowe. 

Jednak w miarę jak świat nauki o danych wciąż dojrzewa i rozwija się, nadszedł czas, aby dyrektorzy wyższego szczebla i nadzorowane przez nich zespoły analityków danych odeszli od bardziej doraźnego i reaktywnego sposobu wykonywania pracy. Zasoby, z których mogą korzystać analitycy danych, aby wygenerować kontekst, spójność i lepszą współpracę, takie jak oprogramowanie warsztatowe, mogą być niezbędne do osiągnięcia sukcesu w dziedzinie nauki o danych. Ostatecznie projekty będą wymagać mniejszego wysiłku od naukowców zajmujących się danymi, inżynierów, analityków i badaczy, którzy będą mogli lepiej przyspieszyć ciągły i zadziwiający sukces tej dziedziny.

 
 
Nahlę Davies jest programistą i pisarzem technicznym. Zanim całkowicie poświęciła się pracy nad pisaniem technicznym, udało jej się – między innymi intrygujących rzeczy – zostać głównym programistą w organizacji zajmującej się brandingiem 5,000 Inc., której klientami są Samsung, Time Warner, Netflix i Sony.

Źródło: https://www.kdnuggets.com/2022/01/context-consistency-collaboration-essential-data-science-success.html

Znak czasu:

Więcej z Knuggety