Contexto, consistência e colaboração são essenciais para o sucesso da ciência de dados

Nó Fonte: 1882940

Contexto, consistência e colaboração são essenciais para o sucesso da ciência de dados
Foto por mohamed_hassan no Pixabay

 

Os campos de inteligência artificial (IA) e aprendizado de máquina (ML) não são mais, no final de 2021, campos nascentes com futuros incertos pela frente. AI e ML cresceram e se tornaram esferas de influência massivamente influentes no mundo mais amplo da ciência de dados, um fato que permaneceu mais verdadeiro do que sempre ao longo deste ano.

À medida que IA, ML e, posteriormente, ciência de dados continuaram a se expandir, o mesmo aconteceu com os parâmetros que podem fazer ou quebrar o sucesso das equipes de ciência de dados. As oportunidades de obter insights significativos e profundos dos campos de IA e ML são baseadas em equipes de ciência de dados que são maiores do que apenas um cientista de dados operando com um único laptop. Há simplesmente muitos dados que precisam ser obtidos, limpos e preparados para análise – um processo que consome uma parte significativa do dia de trabalho médio de um cientista de dados – para qualquer pessoa lidar sozinha. 

Os projetos modernos de ciência de dados giram em torno de informações importantes sobre preparação de dados, projetos anteriores de ciência de dados e possíveis maneiras de implantar modelos de dados que devem ser compartilhados com várias ciências de dados. Portanto, é crucial investigar os motivos pelos quais as equipes de ciência de dados exigem contexto, consistência e colaboração segura de seus dados para garantir o sucesso da ciência de dados. Vamos examinar rapidamente cada um desses requisitos para que possamos entender melhor como pode ser o sucesso da ciência de dados no futuro.

Parte Um: Contexto

 
Nosso exame do sucesso futuro da ciência de dados começa com o contexto: nenhum processo de construção de modelo iterativo que se baseia na experimentação de tentar e falhar pode durar muito tempo sem o conhecimento institucional documentado, armazenado e disponibilizado aos cientistas de dados. E, no entanto, muito conhecimento institucional é regularmente perdido por falta de documentação e armazenamento adequados.

Considere este cenário comum: um cientista de dados júnior ou cidadão é puxado para um projeto para melhorar suas habilidades, apenas para lutar logo depois com colaboração síncrona e assíncrona por falta de contexto. Esses membros da equipe ad-hoc precisam de contexto para saber mais sobre os dados com os quais estão interagindo, as pessoas que abordaram problemas no passado e como o trabalho anterior influenciou o cenário atual do projeto.

A necessidade de documentar adequadamente os projetos, bem como os modelos de dados e seus fluxos de trabalho podem facilmente distrair uma equipe de cientistas de dados, quanto mais um único operando sozinho. Os líderes podem considerar a opção de contratar um desenvolvedor freelance contribuir com seu tempo para a preservação e disseminação do conhecimento institucional para melhorar a revisão padrão e sessões de feedback de projetos modernos de ciência de dados. Essas sessões, bem como sistemas de software, bancadas de trabalho e práticas recomendadas, podem otimizar a captura mais eficaz do contexto relacionado ao projeto que melhora a descoberta de dados de cientistas de dados juniores e cidadãos no futuro.

O sucesso da ciência de dados requer a gestão simplificada do conhecimento e seu contexto envolvente. Sem ele, os cientistas de dados novos, juniores e cidadãos provavelmente terão dificuldades com a integração e a contribuição significativa para seus projetos, o que, por sua vez, leva as equipes a recriar projetos em vez de contribuir para o trabalho anterior. 

Parte Dois: Consistência

 
Os campos de ML e IA contribuíram para mudanças fundamentais quando se trata de serviços financeiros, ciências da saúde e da vida e manufatura; essas indústrias, no entanto, estão sujeitas a ambientes regulatórios significativos. Isso significa que um projeto de IA que ocorre em um ambiente regulamentado deve ser reproduzível com uma trilha de auditoria clara. Em outras palavras, os líderes de TI e de negócios que estão de alguma forma envolvidos com um projeto de ciência de dados precisam garantir um nível de consistência de dados quando se trata dos resultados do projeto de ciência de dados. 

Os líderes de TI e de negócios que podem esperar um nível confiável de consistência também podem ter mais confiança quando chegar a hora de fazer os tipos de mudanças estratégicas que a IA facilita. Há muito em jogo quando se trata de projetos de ciência de dados e há muito investimento neles, então os cientistas de dados merecem uma infraestrutura na qual possam operar com um nível garantido de reprodutibilidade do início ao fim. Essa reprodutibilidade total se traduz na consistência dos dados que os altos executivos procuram para decidir se um projeto de ciência de dados é ou não suficientemente significativo e alinhado com seus objetivos de negócios.

Esses altos executivos devem, por sua vez, esperar que, à medida que suas equipes científicas se expandam, o mesmo acontecerá com os conjuntos de treinamento e requisitos de hardware necessários para garantir a consistência nos resultados de projetos mais antigos. Portanto, processos e sistemas que ajudam a gerenciar um ambiente são uma necessidade absoluta para a expansão de uma equipe de ciência de dados. Se, por exemplo, um cientista de dados estiver usando um laptop enquanto um engenheiro de dados estiver executando uma versão diferente de uma biblioteca em execução em uma VM na nuvem, esse cientista de dados poderá ver seu modelo de dados produzindo resultados diferentes de uma máquina para outra. Conclusão: os executivos devem garantir que seus colaboradores de dados tenham uma maneira consistente de compartilhar exatamente os mesmos ambientes de software.

Parte Três: Colaboração

 
Finalmente, chegamos à importância da colaboração segura. À medida que as empresas continuam mudando suas operações para um modelo de trabalho remoto, as organizações estão percebendo que a colaboração em ciência de dados é muito mais difícil do que a colaboração pessoal. Embora algumas das principais funções da ciência de dados sejam gerenciáveis ​​com a ajuda de uma única ciência de dados (preparação de dados, pesquisa e iteração de modelo de dados), a maioria dos executivos de negócios deixou a colaboração de lado por engano e, posteriormente, prejudicou a produtividade remota.

Mas como facilitar a coordenação eficaz e remota entre os participantes do projeto, bem como a segurança dos dados do projeto? A resposta está em arquivos de trabalho compartilháveis ​​e dados pertencentes a um projeto de ciência de dados que o tornam mais viável divulgar informações remotamente. E à medida que a disseminação de dados relacionados ao projeto se torna mais simples, quanto mais simples se torna compartilhar informações, mais fácil é facilitar a colaboração remota de dados. Os participantes de um projeto de ciência de dados podem aproveitar ferramentas baseadas em nuvem para fortalecer a segurança por trás de suas pesquisas. mas muitos líderes cometeram o erro de não incentivar a colaboração, reduzindo a produtividade.

Conclusão

 
O progresso absoluto que se desenrolou no campo da ciência de dados nos últimos anos foi sem precedentes e francamente surpreendente. A progressão da ciência de dados tornou viável para empresas em todo o mundo abordar questões que anteriormente tinham poucas ou nenhuma resposta prontamente disponível sem as inovações possibilitadas pela IA e ML. 

No entanto, à medida que o mundo da ciência de dados continua a amadurecer e crescer, é hora de os principais executivos e as equipes de ciência de dados que eles supervisionam migrarem de uma maneira mais ad-hoc e reativa de realizar o trabalho. Os recursos que os cientistas de dados podem usar para gerar contexto, consistência e maior colaboração, como workbenchs de software, provavelmente serão essenciais para o sucesso da ciência de dados. Em última análise, os projetos exigirão menos esforço dos cientistas de dados, engenheiros, analistas e pesquisadores, que serão mais capazes de acelerar o sucesso contínuo e surpreendente do campo.

 
 
Nahla Davies é um desenvolvedor de software e escritor de tecnologia. Antes de dedicar seu trabalho em tempo integral à redação técnica, ela conseguiu – entre outras coisas intrigantes – atuar como programadora líder em uma organização de branding experimental da Inc. 5,000, cujos clientes incluem Samsung, Time Warner, Netflix e Sony.

Fonte: https://www.kdnuggets.com/2022/01/context-consistency-collaboration-essential-data-science-success.html

Carimbo de hora:

Mais de KDnuggetsGenericName