Tietojen puhdistus Python Cheat Sheet -sovelluksella

Tietojen puhdistus Python Cheat Sheet -sovelluksella

Lähdesolmu: 1970822

Tietojen puhdistaminen on erittäin tärkeä ja kriittinen vaihe datatieteen projektissasi. Konemallin menestys riippuu siitä, kuinka esikäsittelet tiedot. Jos aliarvioit ja ohitat tietojoukon esikäsittelyn, malli ei toimi hyvin ja menetät paljon aikaa etsiessäsi ymmärtääksesi, miksi se ei toimi niin hyvin kuin odotit. 

Viime aikoina aloin luomaan huijauslehtiä nopeuttaakseni datatieteen toimintaani, erityisesti yhteenvetoa tietojen puhdistamisen perusteista. Tässä postauksessa ja lunttilappua, Aion näyttää viisi erilaista näkökohtaa, jotka luonnehtivat datatieteen projektisi esikäsittelyvaiheita.

 
Tietojen puhdistus Python Cheat Sheet -sovelluksella

Tietojen puhdistus Python Cheat Sheet -sovelluksella
 

Tässä huijauslomakkeessa, siirrymme puuttuvien tietojen havaitsemisesta ja käsittelystä, kaksoiskappaleiden käsittelystä ja ratkaisujen etsimisestä kaksoiskappaleisiin, poikkeavien ominaisuuksien havaitsemiseen, etikettien koodaukseen ja kategoristen ominaisuuksien yksitoimiseen koodaukseen, muunnoksiin, kuten MinMax-normalisointi ja standardinormalisointi. Lisäksi tämä opas hyödyntää kolmen suosituimman Python-kirjaston, Pandasin, Scikit-Learnin ja Seabornin, tarjoamia menetelmiä juonteiden näyttämiseen. 

Näiden python-temppujen oppiminen auttaa sinua poimimaan tietojoukosta mahdollisimman paljon tietoa, ja näin ollen koneoppimismalli pystyy toimimaan paremmin oppimalla puhtaasta ja esikäsitellystä syötteestä. 
 

Aikaleima:

Lisää aiheesta KDnuggets