Czyszczenie danych za pomocą ściągawki w języku Python

Czyszczenie danych za pomocą ściągawki w języku Python

Węzeł źródłowy: 1970822

Czyszczenie danych to bardzo ważny i krytyczny krok w projekcie nauki o danych. Sukces modelu maszyny zależy od sposobu wstępnego przetwarzania danych. Jeśli nie docenisz i pominiesz wstępne przetwarzanie zestawu danych, model nie będzie działał dobrze i stracisz dużo czasu na szukanie zrozumienia, dlaczego nie działa tak dobrze, jak można by się spodziewać. 

Ostatnio zacząłem tworzyć ściągawki, aby przyspieszyć moje działania związane z data science, w szczególności podsumowanie z podstawami czyszczenia danych. W tym poście i Ściągawka, pokażę pięć różnych aspektów, które charakteryzują etapy przetwarzania wstępnego w Twoim projekcie naukowym o danych.

 
Czyszczenie danych za pomocą ściągawki w języku Python

Czyszczenie danych za pomocą ściągawki w języku Python
 

W tej ściągawce, przechodzimy od wykrywania i obsługi brakujących danych, radzenia sobie z duplikatami i znajdowania rozwiązań dla duplikatów, wykrywania wartości odstających, kodowania etykiet i szybkiego kodowania cech kategorycznych, do transformacji, takich jak normalizacja MinMax i normalizacja standardowa. Co więcej, w tym przewodniku wykorzystano metody udostępniane przez trzy najpopularniejsze biblioteki Pythona, Pandas, Scikit-Learn i Seaborn do wyświetlania wykresów. 

Nauczenie się tych sztuczek Pythona pomoże ci wydobyć jak najwięcej informacji ze zbioru danych, a co za tym idzie, model uczenia maszynowego będzie mógł działać lepiej, ucząc się na czystych i wstępnie przetworzonych danych wejściowych. 
 

Znak czasu:

Więcej z Knuggety