Republicado por Platão

seguidores: 0

Análise de dados usando Scala

Tags: Ciência dados, Machine Learning, Scala, Faísca, FIO

É muito importante escolher a ferramenta certa para análise de dados. Nos fóruns Kaggle, onde são realizadas competições internacionais de Ciência de Dados, as pessoas costumam perguntar qual ferramenta é melhor. R e Python estão no topo da lista. Neste artigo, vamos falar sobre uma pilha alternativa de tecnologias de análise de dados, com base no Scala.

comentários

By Roman Zykov, Fundador / cientista de dados @ TopDataLab

É muito importante escolher a ferramenta certa para análise de dados. No Kaggle. com fóruns, onde são realizadas competições internacionais de ciência de dados, as pessoas costumam perguntar qual ferramenta é melhor. R e Python estão no topo da lista. Neste artigo, vamos falar sobre uma pilha alternativa de tecnologias de análise de dados, com base na linguagem de programação Scala e Faísca plataforma de computação distribuída.

Como surgiu isso? Na Retail Rocket, fazemos muito aprendizado de máquina em conjuntos de dados muito grandes. Costumávamos usar um monte de IPython + Pyhs2 (driver de hive para Python) + Pandas + Sklearn para desenvolver protótipos. No final do verão de 2014, tomamos uma decisão fundamental de mudar para o Spark, pois os experimentos mostraram que obteremos de 3 a 4 vezes a melhoria de desempenho no mesmo parque de servidores.

Outra vantagem é que podemos usar uma linguagem de programação para modelagem e código que será executado em servidores de produção. Isso foi um grande benefício para nós, já que antes usávamos 4 linguagens simultaneamente: Hive, Pig, Java, Python. É um problema para uma pequena equipe de engenheiros.

O Spark também oferece suporte para trabalhar com Python / Scala / Java por meio de APIs. Decidimos escolher Scala porque é a linguagem em que o Spark foi escrito, o que significa que podemos analisar seu código-fonte e corrigir bugs, se necessário. É também a JVM na qual o Hadoop é executado.

Devo dizer que a escolha não foi fácil, pois ninguém da equipe conhecia o Scala na época.
É sabido que, para aprender a se comunicar bem em um idioma, você precisa mergulhar no idioma e usá-lo o máximo possível. Portanto, abandonamos a pilha Python em favor do Scala para modelagem e análise rápida de dados.

A primeira etapa foi encontrar um substituto para os notebooks IPython. As opções eram as seguintes:

Zeppelin - um bloco de notas semelhante ao IPython para Spark;
ISpark;
Notebook Spark;
Notebook Spark IPython da IBM.
Apache Tminério

Até agora, a escolha tem sido o ISpark porque é simples - é IPython para Scala / Spark. Tem sido relativamente fácil adicionar gráficos HighCharts e R. E não tivemos nenhum problema em conectá-lo ao cluster Yarn.

Tarefa

Vamos tentar responder à pergunta: o valor médio de compra (AOV) em sua loja online depende de parâmetros estáticos do cliente, que incluem liquidação, tipo de navegador (móvel / desktop), sistema operacional e versão do navegador? Você pode fazer isso com Informação mútua.

Usamos muito a entropia para nossos algoritmos de recomendação e análise: a fórmula clássica de Shannon, a divergência de Kullback-Leibler, informação mútua. Até enviamos um artigo sobre este assunto. Há uma seção separada, embora pequena, dedicada a essas medidas no famoso livro de Murphy sobre aprendizado de máquina.

Vamos analisá-lo em dados reais do Retail Rocket. Antes, copiei a amostra do nosso cluster para o meu computador como um arquivo csv.

Data

Aqui usamos ISpark e Spark em modo local, o que significa que todos os cálculos são realizados localmente e são distribuídos entre os núcleos do processador. Tudo é descrito em comentários ao código. O mais importante é que na saída temos RDD (estrutura de dados Spark), que é uma coleção de classes de caso do tipo Row, que é definida no código. Isso permitirá que você consulte os campos por meio de “.”, Por exemplo _.categoryId.

= post anterior

Histórias principais nos últimos 30 dias

Mais populares
Você lê arquivos do Excel com Python? Existe um Caminho 1000x Mais Rápido Automatize o Microsoft Excel e o Word usando Python Cientistas de dados sem habilidades em engenharia de dados enfrentarão a dura verdade Como criar aplicativos da web impressionantes para seus projetos de ciência de dados Um portfólio de ciência de dados que lhe proporcionará o emprego

mais Compartilhados
Livro aberto do Compêndio de Máquina e Aprendizado Profundo Cientistas de dados sem habilidades em engenharia de dados enfrentarão a dura verdade Teste de hipótese explicado Folha de referências à ciência de dados 2.0 8 ideias de projetos de aprendizado profundo para iniciantes

Fonte: https://www.kdnuggets.com/2021/09/data-analysis-scala.html

Carimbo de hora: 24 de Setembro de 2021

Carimbo de hora: 4 de abril, 2023

15 snippets Python para otimizar seu pipeline de ciência de dados

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 1055895

Carimbo de hora: 25 Agosto , 2021

Pós GPT-4: respondendo às perguntas mais frequentes sobre IA

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 2058600

Carimbo de hora: 13 de abril, 2023

Tutorial YOLOv5 PyTorch

Grupo de origem:

KDnuggetsGenericName

Nó Fonte: 1786404

Carimbo de hora: 15 Dezembro, 2022

Análise de dados usando Scala

Republicado por Platão

Análise de dados usando Scala

Tarefa

Data

Informação mútua

Conclusão

Referências

Mais de KDnuggetsGenericName

Coleção definitiva de 50 cursos gratuitos para dominar a ciência de dados – KDnuggets

Como consultar o seu Dataframe Pandas

Da ficção à realidade: ChatGPT e o sonho de ficção científica da verdadeira conversa sobre IA – KDnuggets

IA na vida real

Usando NotebookLM do Google para ciência de dados: um guia abrangente – KDnuggets

5 maneiras pelas quais a IA está impactando a educação STEM em 2023

Pós GPT-4: respondendo às perguntas mais frequentes sobre IA

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta