Hoja de referencia de limpieza de datos con Python

Hoja de referencia de limpieza de datos con Python

Nodo de origen: 1970822

La limpieza de datos es un paso muy importante y crítico en su proyecto de ciencia de datos. El éxito del modelo de máquina depende de cómo preproceses los datos. Si subestima y omite el preprocesamiento de su conjunto de datos, el modelo no funcionará bien y perderá mucho tiempo buscando comprender por qué no funciona tan bien como esperaba. 

Últimamente, comencé a crear hojas de trucos para acelerar mis actividades de ciencia de datos, en particular, un resumen con los conceptos básicos de limpieza de datos. En esta publicación y chuleta, voy a mostrar cinco aspectos diferentes que caracterizan los pasos de preprocesamiento en su proyecto de ciencia de datos.

 
Hoja de referencia de limpieza de datos con Python

Hoja de referencia de limpieza de datos con Python
 

En esta hoja de trucos, pasamos de detectar y manejar datos faltantes, lidiar con duplicados y encontrar soluciones a duplicados, detección de valores atípicos, codificación de etiquetas y codificación one-hot-encoding de características categóricas, a transformaciones, como la normalización MinMax y la normalización estándar. Además, esta guía aprovecha los métodos proporcionados por tres de las bibliotecas de Python más populares, Pandas, Scikit-Learn y Seaborn, para mostrar gráficos. 

Aprender estos trucos de Python lo ayudará a extraer la mayor cantidad de información posible del conjunto de datos y, en consecuencia, el modelo de aprendizaje automático podrá funcionar mejor al aprender de una entrada limpia y preprocesada. 
 

Sello de tiempo:

Mas de nuggets