Čiščenje podatkov s Python Cheat Sheet

Čiščenje podatkov s Python Cheat Sheet

Izvorno vozlišče: 1970822

Čiščenje podatkov je zelo pomemben in kritičen korak v vašem projektu podatkovne znanosti. Uspeh strojnega modela je odvisen od tega, kako predhodno obdelate podatke. Če podcenite in preskočite predhodno obdelavo nabora podatkov, model ne bo deloval dobro in izgubili boste veliko časa z iskanjem, da bi razumeli, zakaj ne deluje tako dobro, kot bi pričakovali. 

Pred kratkim sem začel ustvarjati goljufije, da bi pospešil svoje dejavnosti na področju znanosti o podatkih, zlasti povzetek z osnovami čiščenja podatkov. V tej objavi in goljufija stanja, bom pokazal pet različnih vidikov, ki so značilni za korake predprocesiranja v vašem projektu podatkovne znanosti.

 
Čiščenje podatkov s Python Cheat Sheet

Čiščenje podatkov s Python Cheat Sheet
 

V tem goljufanju, prehajamo od odkrivanja in ravnanja z manjkajočimi podatki, ukvarjanja z dvojniki in iskanja rešitev za dvojnike, odkrivanja odstopanj, kodiranja oznak in enkratnega kodiranja kategoričnih funkcij do transformacij, kot sta normalizacija MinMax in standardna normalizacija. Poleg tega ta vodnik izkorišča metode, ki jih ponujajo tri najbolj priljubljene knjižnice Python, Pandas, Scikit-Learn in Seaborn za prikaz risb. 

Učenje teh trikov python vam bo pomagalo pridobiti čim več informacij iz nabora podatkov in posledično bo model strojnega učenja lahko deloval bolje z učenjem iz čistega in predhodno obdelanega vnosa. 
 

Časovni žig:

Več od KDnuggets