Preparação de dados em R usando dplyr, com folha de cola!

Nó Fonte: 1878484

Preparação de dados em R usando dplyr, com folha de cola!

Aproveite as poderosas ferramentas de organização de dados no dplyr do R para limpar e preparar seus dados.


ImagemJá escrevi antes que gostemos ou não, a preparação de dados é uma parte importante de todo projeto de ciência de dados. A preparação de dados consiste em tarefas para preparar dados em um processo repetível para uso em analítica de negócios, incluindo aquisição de dados, armazenamento e manuseio de dados, limpeza de dados e estágios iniciais de engenharia de recursos.

 
Existem pelo menos três ferramentas comuns que as equipes de dados podem usar para fazer essas tarefas de transformação de dados:

  • SQL, que é compatível com muitas plataformas de big data como Spark, é excelente para fazer a filtragem e coleta de dados brutos de fontes brutas, como coleções de arquivos de data lake
  • Python, com a biblioteca Pandas, está crescendo em popularidade e recursos
  • R, usando especificamente o pacote dplyr, oferece um conjunto coeso de funções apoiadas pela enorme coleção de código aberto de outras bibliotecas R.

Sua escolha entre esses três provavelmente dependerá das habilidades disponíveis em sua organização, da infraestrutura e da base de código disponíveis e dos modelos avançados necessários para serem usados. Para este artigo, vamos nos concentrar nas razões para usar R e fornecer uma folha de referência útil.

O dplyr, lançado em 2016, possui algumas características importantes que o tornam uma excelente ferramenta para preparação de dados em R.

  • Conexões de dados para quase qualquer fonte de dados ou formato de arquivo usado na indústria.
  • O dplyr foi construído como um pacote harmonioso, simplificando muitas tarefas que podem ser complicadas ou confusas se você juntar outros pacotes do mundo R.
  • Os scripts são facilmente integrados ao controle de versão e às práticas de Dev Ops
  • Transferência fácil de dados para bibliotecas R poderosas para integração com modelos AI / ML

O guia de “Referência Rápida” a seguir fornecerá uma amostra das abordagens dplyr para cada uma das etapas na preparação de dados. Esta não é uma lista exaustiva de funções ou opções do dplyr, mas sim um ponto de partida.

Figura
Clique para alta resolução

 

Baixe o PDF de Referência Rápida aqui.

Uma década atrás, R era o único jogador da ciência de dados, mas a competição crescente de Python e SQL só o tornou melhor, pois os recursos introduzidos em um ecossistema são rapidamente copiados ou transferidos para outro. A ampla comunidade de usuários do R tem um histórico de trabalho para garantir que suas bibliotecas estejam vivas e evoluindo, garantindo que seu investimento em R seja relevante em mais uma década. Algum dia no futuro, talvez dplyr e o Tidyverse não sejam mais a melhor escolha para preparação de dados. Mas, por enquanto, eles são uma escolha excelente (apesar de alguns elementos de sintaxe estranhos, como o tubo%>%!)

Postagem complementar: Preparação de dados em SQL, com folha de dicas!

 
Bio: Stan Pugsley é um consultor de armazenamento de dados e análise com Eide Bailly Consultoria em Tecnologia com sede em Salt Lake City, UT. Ele também é membro adjunto do corpo docente da Escola de Negócios Eccles da Universidade de Utah. Você pode entrar em contato com o autor por e-mail.

Relacionado:

Fonte: https://www.kdnuggets.com/2021/10/data-preparation-r-dplyr-cheat-sheet.html

Carimbo de hora:

Mais de KDnuggetsGenericName