Andmete puhastamine Python Cheat Sheetiga

Andmete puhastamine Python Cheat Sheetiga

Allikasõlm: 1970822

Andmete puhastamine on teie andmeteaduse projekti väga oluline ja kriitiline samm. Masina mudeli edu sõltub sellest, kuidas te andmeid eeltöötlete. Kui te alahinnate ja jätate oma andmestiku eeltöötluse vahele, ei tööta mudel hästi ja te kaotate palju aega otsimisel, et mõista, miks see ei tööta nii hästi, kui eeldaksite. 

Viimasel ajal hakkasin koostama petulehti, et kiirendada oma andmeteaduse tegevust, eelkõige kokkuvõtet andmete puhastamise põhitõdedega. Selles postituses ja spikker, näitan viit erinevat aspekti, mis iseloomustavad teie andmeteaduse projekti eeltöötlusetappe.

 
Andmete puhastamine Python Cheat Sheetiga

Andmete puhastamine Python Cheat Sheetiga
 

Selles petulehes, alustame puuduvate andmete tuvastamisest ja käsitlemisest, duplikaatidega tegelemisest ja lahenduste otsimisest kuni duplikaatideni, kõrvalekallete tuvastamisest, siltide kodeerimisest ja kategooriliste funktsioonide ühekordse kodeerimisega, teisendusteni, nagu MinMaxi normaliseerimine ja standardne normaliseerimine. Lisaks kasutab see juhend süžeede kuvamiseks kolme populaarseima Pythoni teegi Pandas, Scikit-Learn ja Seaborn pakutavaid meetodeid. 

Nende Pythoni nippide õppimine aitab teil andmestikust võimalikult rohkem teavet hankida ja sellest tulenevalt suudab masinõppemudel puhtast ja eeltöödeldud sisendist õppides paremini toimida. 
 

Ajatempel:

Veel alates KDnuggets