Curățarea datelor cu Cheat Sheet Python

Curățarea datelor cu Cheat Sheet Python

Nodul sursă: 1970822

Curățarea datelor este un pas foarte important și critic în proiectul dvs. de știință a datelor. Succesul modelului de mașină depinde de modul în care preprocesați datele. Dacă subestimați și omiteți preprocesarea setului de date, modelul nu va funcționa bine și veți pierde mult timp căutând pentru a înțelege de ce nu funcționează așa de bine pe cât v-ați aștepta. 

În ultimul timp, am început să creez cheat sheets pentru a-mi accelera activitățile de știință a datelor, în special un rezumat cu elementele de bază ale curățării datelor. În această postare și foaie de ieftin, voi arăta cinci aspecte diferite care caracterizează etapele de preprocesare din proiectul dumneavoastră de știință a datelor.

 
Curățarea datelor cu Cheat Sheet Python

Curățarea datelor cu Cheat Sheet Python
 

În această foaie de cheat, trecem de la detectarea și gestionarea datelor lipsă, tratarea duplicatelor și găsirea de soluții la duplicate, detectarea valorii aberante, codificarea etichetelor și codificarea one-hot-coding a caracteristicilor categoriale, la transformări, cum ar fi normalizarea MinMax și normalizarea standard. Mai mult, acest ghid exploatează metodele oferite de trei dintre cele mai populare biblioteci Python, Pandas, Scikit-Learn și Seaborn pentru afișarea parcelelor. 

Învățarea acestor trucuri Python vă va ajuta să extrageți cât mai multe informații din setul de date și, în consecință, modelul de învățare automată va putea funcționa mai bine învățând dintr-o intrare curată și preprocesată. 
 

Timestamp-ul:

Mai mult de la KDnuggets