Preparação de dados em R usando dplyr, com folha de cola!

= post anterior

Próximo post =>

Tags: Folha de fraude, Preparação de dados, R

Aproveite as poderosas ferramentas de organização de dados no dplyr do R para limpar e preparar seus dados.

By Stan Pugsley, Consultor de Data Warehouse e Analytics.

comentários

Já escrevi antes que gostemos ou não, a preparação de dados é uma parte importante de todo projeto de ciência de dados. A preparação de dados consiste em tarefas para preparar dados em um processo repetível para uso em analítica de negócios, incluindo aquisição de dados, armazenamento e manuseio de dados, limpeza de dados e estágios iniciais de engenharia de recursos.

Existem pelo menos três ferramentas comuns que as equipes de dados podem usar para fazer essas tarefas de transformação de dados:

SQL, que é compatível com muitas plataformas de big data como Spark, é excelente para fazer a filtragem e coleta de dados brutos de fontes brutas, como coleções de arquivos de data lake
Python, com a biblioteca Pandas, está crescendo em popularidade e recursos
R, usando especificamente o pacote dplyr, oferece um conjunto coeso de funções apoiadas pela enorme coleção de código aberto de outras bibliotecas R.

Sua escolha entre esses três provavelmente dependerá das habilidades disponíveis em sua organização, da infraestrutura e da base de código disponíveis e dos modelos avançados necessários para serem usados. Para este artigo, vamos nos concentrar nas razões para usar R e fornecer uma folha de referência útil.

O dplyr, lançado em 2016, possui algumas características importantes que o tornam uma excelente ferramenta para preparação de dados em R.

Conexões de dados para quase qualquer fonte de dados ou formato de arquivo usado na indústria.
O dplyr foi construído como um pacote harmonioso, simplificando muitas tarefas que podem ser complicadas ou confusas se você juntar outros pacotes do mundo R.
Os scripts são facilmente integrados ao controle de versão e às práticas de Dev Ops
Transferência fácil de dados para bibliotecas R poderosas para integração com modelos AI / ML

O guia de “Referência Rápida” a seguir fornecerá uma amostra das abordagens dplyr para cada uma das etapas na preparação de dados. Esta não é uma lista exaustiva de funções ou opções do dplyr, mas sim um ponto de partida.

Clique para alta resolução

Baixe o PDF de Referência Rápida aqui.

Uma década atrás, R era o único jogador da ciência de dados, mas a competição crescente de Python e SQL só o tornou melhor, pois os recursos introduzidos em um ecossistema são rapidamente copiados ou transferidos para outro. A ampla comunidade de usuários do R tem um histórico de trabalho para garantir que suas bibliotecas estejam vivas e evoluindo, garantindo que seu investimento em R seja relevante em mais uma década. Algum dia no futuro, talvez dplyr e o Tidyverse não sejam mais a melhor escolha para preparação de dados. Mas, por enquanto, eles são uma escolha excelente (apesar de alguns elementos de sintaxe estranhos, como o tubo%>%!)

Postagem complementar: Preparação de dados em SQL, com folha de dicas!

Bio: Stan Pugsley é um consultor de armazenamento de dados e análise com Eide Bailly Consultoria em Tecnologia com sede em Salt Lake City, UT. Ele também é membro adjunto do corpo docente da Escola de Negócios Eccles da Universidade de Utah. Você pode entrar em contato com o autor por e-mail.

Relacionado:

= post anterior

Próximo post =>

Histórias principais nos últimos 30 dias

Mais populares
Como construir um forte portfólio de ciência de dados como um novato Perguntas da entrevista de SQL para ciência de dados das principais empresas de tecnologia Nove ferramentas que gostaria de ter dominado antes do meu doutorado em aprendizado de máquina Caminho para a Full Stack Data Science Oito comandos Git indispensáveis para cientistas de dados

mais Compartilhados
Como encontrar pontos fracos em seus modelos de aprendizado de máquina Caminho para a Full Stack Data Science 38 cursos gratuitos no Coursera for Data Science Como ser um cientista de dados sem um diploma em STEM 20 projetos de aprendizado de máquina que farão você ser contratado