Le contexte, la cohérence et la collaboration sont essentiels au succès de la science des données

Nœud source: 1882940

Le contexte, la cohérence et la collaboration sont essentiels au succès de la science des données
Photo par mohamed_hassan sur Pixabay

 

Les domaines de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML) ne sont plus, à la fin de 2021, des domaines naissants avec un avenir incertain devant eux. L'IA et le ML sont devenus des sphères d'influence massivement influentes sur le monde plus large de la science des données, un fait qui est resté plus vrai que jamais tout au long de cette année.

Alors que l'IA, le ML et, par la suite, la science des données ont continué à se développer, les paramètres qui peuvent faire ou défaire le succès des équipes de science des données ont également continué à se développer. Les opportunités d'obtenir des informations importantes et approfondies dans les domaines de l'IA et du ML reposent sur des équipes de science des données qui sont plus grandes qu'un simple scientifique des données fonctionnant avec un seul ordinateur portable. Il y a tout simplement trop de données qui doivent être obtenues, nettoyées et préparées pour l'analyse - un processus qui consomme une partie importante de la journée de travail moyenne d'un data scientist - pour qu'une seule personne puisse les gérer seule. 

Les projets de science des données modernes s'articulent autour d'informations importantes concernant la préparation des données, les projets de science des données antérieurs et les moyens potentiels de déployer des modèles de données qui doivent être partagés avec plusieurs sciences des données. Par conséquent, il est crucial d'étudier les raisons pour lesquelles les équipes de science des données ont besoin d'un contexte, d'une cohérence et d'une collaboration sécurisée de leurs données pour assurer le succès de la science des données. Examinons rapidement chacune de ces exigences afin de mieux comprendre à quoi pourrait ressembler le succès de la science des données.

Première partie : Contexte

 
Notre examen du futur succès de la science des données commence par le contexte : aucun processus de construction de modèle itératif qui s'appuie sur l'expérimentation "essayer et échouer" peut durer longtemps sans une connaissance institutionnelle documentée, stockée et mise à la disposition des data scientists. Et pourtant, une grande partie des connaissances institutionnelles est régulièrement perdue en raison d'un manque de documentation et de stockage appropriés.

Considérez ce scénario courant : un scientifique de données junior ou citoyen est entraîné dans un projet pour améliorer ses compétences, pour se débattre peu de temps après avec collaboration synchrone et asynchrone à cause d'un manque de contexte. Ces membres de l'équipe ad hoc ont besoin d'un contexte pour en savoir plus sur les données avec lesquelles ils interagissent, les personnes qui ont résolu des problèmes dans le passé et comment les travaux antérieurs ont influencé le paysage actuel du projet.

La nécessité de documenter correctement les projets ainsi que les modèles de données et leurs flux de travail peut facilement distraire une équipe de scientifiques des données, sans parler d'un seul opérant seul. Les dirigeants peuvent envisager la possibilité de embaucher un développeur indépendant consacrer leur temps à la préservation et à la diffusion des connaissances institutionnelles afin d'améliorer les sessions standard d'examen et de rétroaction des projets de science des données modernes. Ces sessions ainsi que les systèmes logiciels, les ateliers et les meilleures pratiques peuvent rationaliser la capture plus efficace du contexte lié au projet qui améliore la découvrabilité des données des scientifiques de données juniors et citoyens à l'avenir.

Le succès de la science des données nécessite la gestion simplifiée des connaissances et son contexte environnant. Sans cela, les scientifiques des données nouveaux, juniors et citoyens risquent d'avoir du mal à s'intégrer et à apporter une contribution significative à leurs projets, ce qui conduit les équipes à recréer des projets plutôt qu'à contribuer aux travaux antérieurs. 

Deuxième partie : Cohérence

 
Les domaines du ML et de l'IA ont contribué à des changements fondamentaux en ce qui concerne les services financiers, les sciences de la santé et de la vie et la fabrication ; ces industries, cependant, sont soumises à des environnements réglementaires importants. Cela signifie qu'un projet d'IA qui se déroule dans un environnement réglementé doit être reproductible avec une piste d'audit claire. En d'autres termes, les responsables informatiques et commerciaux qui sont d'une manière ou d'une autre impliqués dans un projet de science des données doivent assurer un niveau de cohérence des données en ce qui concerne les résultats de leur projet de science des données. 

Les responsables informatiques et commerciaux qui peuvent s'attendre à un niveau de cohérence fiable peuvent également bénéficier d'une plus grande confiance lorsque vient le temps d'effectuer les types de changements stratégiques que l'IA facilite. Il y a beaucoup en jeu lorsqu'il s'agit de projets de science des données et il y a beaucoup d'investissements sur eux, donc les scientifiques des données méritent une infrastructure dans laquelle ils peuvent opérer avec un niveau de reproductibilité garanti du début à la fin. Cette reproductibilité totale se traduit par la cohérence des données que recherchent les cadres dirigeants afin de décider si un projet de science des données est suffisamment significatif et en adéquation avec leurs objectifs commerciaux.

Ces cadres supérieurs devraient, à leur tour, s'attendre à ce que leurs équipes scientifiques se développent, tout comme les ensembles de formation et les exigences matérielles nécessaires pour assurer la cohérence des résultats des projets plus anciens. Par conséquent, les processus et les systèmes qui aident à gérer un environnement sont une nécessité absolue pour l'expansion d'une équipe de science des données. Si, par exemple, un scientifique des données utilise un ordinateur portable alors qu'un ingénieur des données exécute une version différente d'une bibliothèque s'exécutant sur une machine virtuelle cloud, ce scientifique des données peut voir son modèle de données produire des résultats différents d'une machine à l'autre. L'essentiel : les dirigeants doivent s'assurer que leurs collaborateurs de données disposent d'une manière cohérente de partager exactement les mêmes environnements logiciels.

Troisième partie : Collaboration

 
Enfin, nous arrivons à l'importance d'une collaboration sécurisée. Alors que les entreprises continuent de déplacer leurs opérations vers un modèle de travail à domicile, les organisations se rendent compte que la collaboration en science des données est beaucoup plus difficile que la collaboration en personne. Bien que certaines tâches fondamentales de la science des données soient gérables à l'aide d'une seule science des données (préparation des données, recherche et itération du modèle de données), la majorité des dirigeants d'entreprise ont laissé par erreur la collaboration de côté et ont par la suite entravé la productivité à distance.

Mais comment faciliter la coordination efficace et à distance entre les acteurs du projet ainsi que la sécurité des données du projet ? La réponse réside dans les fichiers de travail partageables et les données relatives à un projet de science des données qui le rendent plus viable diffuser des informations à distance. Et comme la diffusion des données liées au projet devient plus simple, plus il devient simple de partager des informations, plus il est facile de faciliter la collaboration de données à distance. Les participants à un projet de science des données peuvent tirer parti d'outils basés sur le cloud pour renforcer la sécurité de leurs recherches. mais trop de dirigeants ont commis l'erreur de ne pas encourager la collaboration, réduisant ainsi la productivité.

Conclusion

 
Les progrès considérables qui se sont déroulés dans le domaine de la science des données ces dernières années ont été sans précédent et franchement étonnants. La progression de la science des données a permis aux entreprises du monde entier de répondre à des questions qui avaient auparavant peu ou pas de réponses facilement disponibles sans les innovations rendues possibles par l'IA et le ML. 

Cependant, alors que le monde de la science des données continue de mûrir et de se développer, il est temps pour les cadres supérieurs et les équipes de science des données qu'ils supervisent de s'éloigner d'une manière plus ponctuelle et réactive de faire le travail. Les ressources que les scientifiques des données peuvent utiliser pour générer du contexte, de la cohérence et une plus grande collaboration, comme les ateliers logiciels, sont probablement essentielles au succès de la science des données. En fin de compte, les projets exigeront moins d'efforts de la part des spécialistes des données, des ingénieurs, des analystes et des chercheurs, qui seront mieux à même d'accélérer le succès continu et étonnant du domaine.

 
 
Nahla Davies est un développeur de logiciels et un rédacteur technique. Avant de consacrer son travail à temps plein à la rédaction technique, elle a réussi, entre autres choses intrigantes, à servir de programmeuse principale dans une organisation de marque expérientielle Inc. 5,000 XNUMX dont les clients incluent Samsung, Time Warner, Netflix et Sony.

Source : https://www.kdnuggets.com/2022/01/context-consistency-collaboration-essential-data-science-success.html

Horodatage:

Plus de KDnuggetsGenericName