Очистка данных с помощью Python Cheat Sheet

Очистка данных с помощью Python Cheat Sheet

Исходный узел: 1970822

Очистка данных — очень важный и важный шаг в вашем проекте по науке о данных. Успех машинной модели зависит от того, как вы предварительно обработаете данные. Если вы недооцените и пропустите предварительную обработку вашего набора данных, модель не будет работать должным образом, и вы потеряете много времени на поиски того, почему она работает не так, как вы ожидаете. 

В последнее время я начал создавать шпаргалки, чтобы ускорить свою деятельность по науке о данных, в частности сводку с основами очистки данных. В этом посте и чит-лист, я собираюсь показать пять различных аспектов, которые характеризуют этапы предварительной обработки в вашем проекте по науке о данных.

 
Очистка данных с помощью Python Cheat Sheet

Очистка данных с помощью Python Cheat Sheet
 

В этой шпаргалке, мы переходим от обнаружения и обработки отсутствующих данных, работы с дубликатами и поиска решений для дубликатов, обнаружения выбросов, кодирования меток и горячего кодирования категориальных признаков к преобразованиям, таким как нормализация MinMax и стандартная нормализация. Более того, в этом руководстве для отображения графиков используются методы, предоставляемые тремя самыми популярными библиотеками Python: Pandas, Scikit-Learn и Seaborn. 

Изучение этих приемов Python поможет вам извлечь как можно больше информации из набора данных, и, следовательно, модель машинного обучения сможет работать лучше, обучаясь на чистом и предварительно обработанном входе. 
 

Отметка времени:

Больше от КДнаггетс