El contexto, la consistencia y la colaboración son esenciales para el éxito de la ciencia de datos

Reeditado por Platón

seguidores: 0

El contexto, la consistencia y la colaboración son esenciales para el éxito de la ciencia de datos

Los campos de la inteligencia artificial (IA) y el aprendizaje automático (ML) son, al final de 2021, ya no campos incipientes con un futuro incierto por delante. AI y ML han crecido hasta convertirse en esferas de influencia masivamente influyentes en el mundo más amplio de la ciencia de datos, un hecho que se ha mantenido más cierto que nunca a lo largo de este año.

Sin embargo, a medida que AI, ML y, posteriormente, la ciencia de datos han seguido expandiéndose, también lo han hecho los parámetros que pueden hacer o deshacer el éxito de los equipos de ciencia de datos. Las oportunidades para obtener conocimientos significativos y profundos de los campos de IA y ML se basan en equipos de ciencia de datos que son más grandes que simplemente un científico de datos que opera con una sola computadora portátil. Simplemente hay demasiados datos que deben obtenerse, limpiarse y prepararse para el análisis, un proceso que consume una parte significativa de la jornada laboral promedio de un científico de datos, para que una persona los maneje sola.

Los proyectos de ciencia de datos modernos giran en torno a información importante sobre la preparación de datos, proyectos de ciencia de datos anteriores y posibles formas de implementar modelos de datos que deben compartirse con múltiples ciencias de datos. Por lo tanto, es crucial investigar las razones por las que los equipos de ciencia de datos requieren contexto, consistencia y colaboración segura de sus datos para garantizar el éxito de la ciencia de datos. Examinemos rápidamente cada uno de estos requisitos para que podamos comprender mejor cómo puede ser el éxito de la ciencia de datos en el futuro.

Primera parte: Contexto

Nuestro examen del éxito futuro de la ciencia de datos comienza con el contexto: ningún proceso de creación iterativa de modelos que se basa en la experimentación de probar y fallar puede durar mucho tiempo sin el conocimiento institucional que se documenta, almacena y pone a disposición de los científicos de datos. Y, sin embargo, una gran cantidad de conocimiento institucional se pierde regularmente debido a la falta de documentación y almacenamiento adecuados.

Considere este escenario común: un científico de datos junior o ciudadano se involucra en un proyecto para mejorar sus habilidades, solo para luchar poco después con colaboración sincrónica y asincrónica por falta de contexto. Estos miembros del equipo ad-hoc necesitan contexto para saber más sobre los datos con los que están interactuando, las personas que han abordado problemas en el pasado y cómo el trabajo anterior influyó en el panorama del proyecto actual.

La necesidad de documentar correctamente los proyectos, así como los modelos de datos y sus flujos de trabajo, puede distraer fácilmente a un equipo de científicos de datos, y mucho menos a uno solo que opera solo. Los líderes pueden considerar la opción de contratar a un desarrollador autónomo contribuir con su tiempo a la preservación y difusión del conocimiento institucional para mejorar la revisión estándar y las sesiones de retroalimentación de los proyectos modernos de ciencia de datos. Estas sesiones, así como los sistemas de software, los bancos de trabajo y las mejores prácticas pueden agilizar la captura más efectiva del contexto relacionado con el proyecto que mejora la capacidad de descubrimiento de datos de los científicos de datos jóvenes y ciudadanos en el futuro.

El éxito de la ciencia de datos requiere la gestión simplificada del conocimiento y su contexto circundante. Sin él, es probable que los científicos de datos nuevos, jóvenes y ciudadanos tengan dificultades con la incorporación y la contribución significativa a sus proyectos, lo que a su vez lleva a los equipos a recrear proyectos en lugar de contribuir al trabajo anterior.

Segunda parte: consistencia

Los campos de ML e IA han contribuido a cambios fundamentales en lo que respecta a los servicios financieros, las ciencias de la vida y la salud, y la fabricación; estas industrias, sin embargo, están sujetas a importantes entornos regulatorios. Esto significa que un proyecto de IA que se lleva a cabo en un entorno regulado debe ser reproducible con un registro de auditoría claro. En otras palabras, los líderes empresariales y de TI que están involucrados de alguna manera o forma en un proyecto de ciencia de datos deben asegurar un nivel de consistencia de los datos cuando se trata de los resultados de su proyecto de ciencia de datos.

Los líderes empresariales y de TI que pueden esperar un nivel confiable de consistencia también pueden disfrutar de más confianza cuando llega el momento de realizar los tipos de cambios estratégicos que facilita la IA. Hay mucho en juego cuando se trata de proyectos de ciencia de datos y hay mucha inversión en juego, por lo que los científicos de datos merecen una infraestructura en la que puedan operar con un nivel garantizado de reproducibilidad. de principio a fin. Esta reproducibilidad total se traduce en la consistencia de los datos que buscan los altos ejecutivos para decidir si un proyecto de ciencia de datos es lo suficientemente significativo y está alineado con sus objetivos comerciales.

Estos altos ejecutivos deberían, a su vez, esperar que a medida que sus equipos científicos se expandan, también lo harán los conjuntos de capacitación necesarios y los requisitos de hardware para garantizar la coherencia en los resultados de proyectos anteriores. Por lo tanto, los procesos y sistemas que ayudan a administrar un entorno son una necesidad absoluta para la expansión de un equipo de ciencia de datos. Si, por ejemplo, un científico de datos usa una computadora portátil mientras un ingeniero de datos ejecuta una versión diferente de una biblioteca que se ejecuta en una máquina virtual en la nube, ese científico de datos puede ver que su modelo de datos produce resultados diferentes de una máquina a la siguiente. El resultado final: los ejecutivos deben asegurarse de que sus colaboradores de datos tengan una forma consistente de compartir exactamente los mismos entornos de software.

Tercera parte: colaboración

Finalmente, llegamos a la importancia de una colaboración segura. A medida que las empresas continúan cambiando sus operaciones a un modelo de trabajo desde casa, las organizaciones se dan cuenta de que la colaboración en ciencia de datos es mucho más difícil que la colaboración en persona. Aunque algunas tareas básicas de la ciencia de datos son manejables con la ayuda de una sola ciencia de datos (preparación de datos, investigación e iteración del modelo de datos), la mayoría de los ejecutivos de negocios han dejado de lado por error la colaboración y, posteriormente, han obstaculizado la productividad remota.

Pero, ¿cómo se facilita la coordinación efectiva y remota entre los participantes del proyecto, así como la seguridad de los datos del proyecto? La respuesta está en los archivos de trabajo compartibles y los datos pertenecientes a un proyecto de ciencia de datos. que lo hacen mas viable para difundir información a distancia. Y a medida que la difusión de datos relacionados con el proyecto se vuelve más simple, cuanto más simple se vuelve compartir información, más fácil es facilitar la colaboración remota de datos. Los participantes de un proyecto de ciencia de datos pueden aprovechar las herramientas basadas en la nube para fortalecer la seguridad detrás de su investigación. pero demasiados líderes han cometido el error de no fomentar la colaboración, reduciendo la productividad.

Conclusión

El gran progreso que se ha desarrollado en el ámbito de la ciencia de datos en los últimos años no tiene precedentes y es francamente sorprendente. La progresión de la ciencia de datos ha hecho posible que las empresas de todo el mundo aborden preguntas que antes tenían pocas respuestas fácilmente disponibles, si es que tenían alguna, sin las innovaciones que han hecho posibles la IA y el ML.

Sin embargo, a medida que el mundo de la ciencia de datos continúa madurando y creciendo, es hora de que los altos ejecutivos y los equipos de ciencia de datos que supervisan abandonen una forma más ad hoc y reactiva de hacer el trabajo. Es probable que los recursos que los científicos de datos pueden usar para generar contexto, consistencia y una mayor colaboración, como bancos de trabajo de software, sean esenciales para el éxito de la ciencia de datos. En última instancia, los proyectos requerirán menos esfuerzo de los científicos, ingenieros, analistas e investigadores de datos, quienes podrán acelerar mejor el éxito continuo y sorprendente del campo.

Nahla Davies es un desarrollador de software y escritor de tecnología. Antes de dedicar su trabajo a tiempo completo a la redacción técnica, se las arregló, entre otras cosas interesantes, para servir como programadora principal en una organización de marca experiencial Inc. 5,000 cuyos clientes incluyen Samsung, Time Warner, Netflix y Sony.

Fuente: https://www.kdnuggets.com/2022/01/context-consistency-collaboration-essential-data-science-success.html

Sello de tiempo: Enero 12, 2022