Datarensing med Python Cheat Sheet

Datarensing med Python Cheat Sheet

Kilde node: 1970822

Datarensing er et veldig viktig og kritisk trinn i ditt datavitenskapelige prosjekt. Suksessen til maskinmodellen avhenger av hvordan du forhåndsbehandler dataene. Hvis du undervurderer og hopper over forbehandlingen av datasettet ditt, vil modellen ikke fungere godt, og du vil miste mye tid på å søke for å forstå hvorfor den ikke fungerer så bra som du forventer. 

I det siste begynte jeg å lage jukseark for å få fart på mine datavitenskapelige aktiviteter, spesielt et sammendrag med det grunnleggende om datarensing. I dette innlegget og jukse ark, skal jeg vise fem forskjellige aspekter som kjennetegner forbehandlingstrinnene i ditt datavitenskapelige prosjekt.

 
Datarensing med Python Cheat Sheet

Datarensing med Python Cheat Sheet
 

I dette juksearket, går vi fra å oppdage og håndtere manglende data, håndtere duplikater og finne løsninger på duplikater, uteliggerdeteksjon, etikettkoding og one-hot-encoding av kategoriske funksjoner, til transformasjoner, som MinMax-normalisering og standardnormalisering. Dessuten utnytter denne guiden metodene som tilbys av tre av de mest populære Python-bibliotekene, Pandas, Scikit-Learn og Seaborn for å vise plott. 

Å lære disse python-triksene vil hjelpe deg med å trekke ut mer informasjon som mulig fra datasettet, og følgelig vil maskinlæringsmodellen kunne yte bedre ved å lære fra en ren og forhåndsbehandlet input. 
 

Tidstempel:

Mer fra KDnuggets