Gegevens opschonen met Python Cheat Sheet

Gegevens opschonen met Python Cheat Sheet

Bronknooppunt: 1970822

Het opschonen van gegevens is een zeer belangrijke en kritieke stap in uw data science-project. Het succes van het machinemodel hangt af van hoe u de gegevens voorbewerkt. Als u de voorbewerking van uw dataset onderschat en overslaat, zal het model niet goed presteren en verliest u veel tijd met zoeken om te begrijpen waarom het niet zo goed werkt als u zou verwachten. 

De laatste tijd ben ik begonnen met het maken van spiekbriefjes om mijn activiteiten op het gebied van datawetenschap te versnellen, met name een samenvatting met de basisprincipes van het opschonen van gegevens. In dit bericht en cheat sheet, ga ik vijf verschillende aspecten laten zien die kenmerkend zijn voor de voorverwerkingsstappen in uw data science-project.

 
Gegevens opschonen met Python Cheat Sheet

Gegevens opschonen met Python Cheat Sheet
 

In dit spiekbriefje, gaan we van het detecteren en verwerken van ontbrekende gegevens, omgaan met duplicaten en het vinden van oplossingen tot duplicaten, detectie van uitschieters, labelcodering en one-hot-codering van categorische kenmerken, tot transformaties, zoals MinMax-normalisatie en standaardnormalisatie. Bovendien maakt deze gids gebruik van de methoden van drie van de meest populaire Python-bibliotheken, Panda's, Scikit-Learn en Seaborn voor het weergeven van plots. 

Door deze python-trucs te leren, kunt u meer informatie uit de dataset halen en bijgevolg zal het machine learning-model beter kunnen presteren door te leren van een schone en voorverwerkte invoer. 
 

Tijdstempel:

Meer van KDnuggets