Limpeza de dados com folha de dicas do Python

Limpeza de dados com folha de dicas do Python

Nó Fonte: 1970822

A limpeza de dados é uma etapa muito importante e crítica em seu projeto de ciência de dados. O sucesso do modelo de máquina depende de como você pré-processa os dados. Se você subestimar e pular o pré-processamento do seu conjunto de dados, o modelo não terá um bom desempenho e você perderá muito tempo procurando entender por que ele não funciona tão bem quanto você esperaria. 

Ultimamente, comecei a criar cábulas para agilizar minhas atividades de ciência de dados, em especial um resumo com noções básicas de limpeza de dados. Nesta postagem e cábula, vou mostrar cinco aspectos diferentes que caracterizam as etapas de pré-processamento do seu projeto de ciência de dados.

 
Limpeza de dados com folha de dicas do Python

Limpeza de dados com folha de dicas do Python
 

Nesta folha de dicas, vamos desde a detecção e tratamento de dados ausentes, lidando com duplicatas e encontrando soluções para duplicatas, detecção de valores discrepantes, codificação de rótulos e codificação one-hot de recursos categóricos, até transformações, como normalização MinMax e normalização padrão. Além disso, este guia explora os métodos fornecidos por três das bibliotecas Python mais populares, Pandas, Scikit-Learn e Seaborn para exibir gráficos. 

Aprender esses truques do Python ajudará você a extrair o máximo de informações possível do conjunto de dados e, conseqüentemente, o modelo de aprendizado de máquina será capaz de ter um desempenho melhor aprendendo com uma entrada limpa e pré-processada. 
 

Carimbo de hora:

Mais de KDnuggetsGenericName