Datarensning med Python Cheat Sheet

Datarensning med Python Cheat Sheet

Kildeknude: 1970822

Datarensning er et meget vigtigt og kritisk trin i dit datavidenskabelige projekt. Maskinmodellens succes afhænger af, hvordan du forbehandler dataene. Hvis du undervurderer og springer over forbehandlingen af ​​dit datasæt, vil modellen ikke fungere godt, og du vil miste en masse tid på at søge for at forstå, hvorfor den ikke fungerer så godt, som du ville forvente. 

På det seneste begyndte jeg at lave snydeark for at fremskynde mine datavidenskabelige aktiviteter, især et resumé med det grundlæggende i datarensning. I dette indlæg og snyde ark, vil jeg vise fem forskellige aspekter, der karakteriserer forbehandlingstrinnene i dit datavidenskabsprojekt.

 
Datarensning med Python Cheat Sheet

Datarensning med Python Cheat Sheet
 

I dette snydeark, går vi fra at detektere og håndtere manglende data, håndtere dubletter og finde løsninger på dubletter, outlier-detektion, etiketkodning og one-hot-encoding af kategoriske funktioner, til transformationer, såsom MinMax-normalisering og standardnormalisering. Desuden udnytter denne guide metoderne fra tre af de mest populære Python-biblioteker, Pandas, Scikit-Learn og Seaborn til at vise plots. 

At lære disse python-tricks vil hjælpe dig med at udtrække mere information som muligt fra datasættet, og som følge heraf vil maskinlæringsmodellen være i stand til at præstere bedre ved at lære fra et rent og forbehandlet input. 
 

Tidsstempel:

Mere fra KDnuggets