Hva er datakvalitet i maskinlæring?

Publisert av Platon

Følgere: 0

f ML-modeller. Den vil også fordype seg i ETL-piphe-teknikkene som brukes for datarensing, forbehandling og funksjonsutvikling. Ved slutten av denne artikkelen vil du ha en solid forståelse av viktigheten av datakvalitet i ML og teknikkene som brukes for å sikre data av høy kvalitet. Dette vil bidra til å implementere disse teknikkene i virkelige prosjekter og forbedre ytelsen til deres ML-modeller.

Læringsmål

Forstå det grunnleggende om maskinlæring og dens ulike applikasjoner.
Erkjenner viktigheten av datakvalitet for suksessen til maskinlæringsmodeller.
Bli kjent med ETL-rørledningen og dens rolle i å sikre datakvalitet.
Lære flere teknikker for datarensing, inkludert håndtering av manglende og dupliserte data, uteliggere og støy, og kategoriske variabler.
Forstå viktigheten av dataforbehandling og funksjonsteknikk for å forbedre kvaliteten på data som brukes i ML-modeller.
Praktisk erfaring med å implementere en hel ETL-pipeline ved hjelp av kode, inkludert datautvinning, transformasjon og lasting.
Bli kjent med datainjeksjon og hvordan det kan påvirke ytelsen til ML-modeller.
Forstå konseptet og viktigheten av funksjonsteknikk i maskinlæring.

Denne artikkelen ble publisert som en del av Data Science Blogathon.

Innholdsfortegnelse

Introduksjon
Hva er maskinlæring?
Hvorfor er data kritisk i maskinlæring?
Innsamling av data gjennom ETL Pipeline?
Hva er datainjeksjon?
Viktigheten av datarensing
Hva er dataforbehandling?
Et dykk inn i funksjonsteknikk
Komplett kode for ETL-pipeline
konklusjonen

Hva er maskinlæring?

Maskinlæring er en form for kunstig intelligens som gjør det mulig for datamaskiner å lære og forbedre seg basert på erfaring uten eksplisitt programmering. Det spiller en avgjørende rolle i å lage spådommer, identifisere mønstre i data og ta beslutninger uten menneskelig innblanding. Dette resulterer i et mer nøyaktig og effektivt system.

datakvalitet

Maskinlæring er en viktig del av livene våre og brukes i applikasjoner som spenner fra virtuelle assistenter til selvkjørende biler, helsevesen, finans, transport og e-handel.

Data, spesielt maskinlæring, er en av de kritiske komponentene i enhver modell. Det avhenger alltid av kvaliteten på dataene du mater modellen din. La oss undersøke hvorfor data er så viktig for maskinlæring.

Hvorfor er data kritisk i maskinlæring?

Vi er omgitt av mye informasjon hver dag. Tekniske giganter som Amazon, Facebook og Google samler inn enorme mengder data daglig. Men hvorfor samler de inn data? Du har rett hvis du har sett at Amazon og Google støtter produktene du leter etter.

Til slutt spiller data fra maskinlæringsteknikker en viktig rolle i implementeringen av denne modellen. Kort sagt, data er drivstoffet som driver maskinlæring, og tilgjengeligheten av data av høy kvalitet er avgjørende for å lage nøyaktige og pålitelige modeller. Mange datatyper brukes i maskinlæring, inkludert kategoriske, numeriske, tidsserier og tekstdata. Data samles inn gjennom en ETL-pipeline. Hva er en ETL-rørledning?

Innsamling av data gjennom ETL Pipeline

Dataforberedelse for maskinlæring blir ofte referert til som en ETL-rørledning for utvinning, transformasjon og lasting.

Utvinning: Det første trinnet i ETL-pipelinen er å trekke ut data fra ulike kilder. Det kan inkludere å trekke ut data fra databaser, APIer eller vanlige filer som CSV eller Excel. Data kan være strukturert eller ustrukturert.

Her er et eksempel på hvordan vi trekker ut data fra en CSV-fil.

Python-kode:

import pandas as pd
#read csv file
df = pd.read_csv("data.csv")
#extract specific data
name = df["name"]
age = df["age"]
address = df["address"]
#print extracted data
print("Name:", name)
print("Age:", age)
print("Address:", address)

Transformation: Det er prosessen med å transformere dataene for å gjøre dem egnet for bruk i maskinlæringsmodeller. Dette kan inkludere å rense dataene for å fjerne feil eller inkonsekvenser, standardisere dataene og konvertere dataene til et format som modellen kan bruke. Dette trinnet inkluderer også funksjonsteknikk, der rådataene transformeres til et sett med funksjoner som skal brukes som input for modellen.
Dette er en enkel kode for å konvertere data fra json til DataFrame.

import json
import pandas as pd
#load json file
with open("data.json", "r") as json_file:
data = json.load(json_file)
#convert json data to a DataFrame
df = pd.DataFrame(data)
#write to csv
df.to_csv("data.csv", index=False)

Laste: Det siste trinnet er å laste opp eller laste de konverterte dataene til destinasjonen. Det kan være en database, et datalager eller et filsystem. De resulterende dataene er klare for videre bruk, for eksempel opplæring eller testing av maskinlæringsmodeller.

Her er en enkel kode som viser hvordan vi laster inn data ved hjelp av pandaene:

import pandas as pd
df = pd.read_csv('data.csv')

Etter å ha samlet inn dataene, bruker vi vanligvis datainjeksjonen hvis vi finner noen manglende verdier.

Hva er datainjeksjon?

Å legge til nye data til en eksisterende dataserver kan gjøres av ulike grunner for å oppdatere databasen med nye data og for å legge til flere forskjellige data for å forbedre ytelsen til maskinlæringsmodeller. Eller feilretting av det originale datasettet gjøres vanligvis ved automatisering med noen nyttige verktøy.

rengjøring av data

Det er tre typer.

Batch-innsetting: Data settes inn i bulk, det er vanligvis på et fast tidspunkt
Sanntidsinjeksjon: Data injiseres umiddelbart når de genereres.
Strøminjeksjon: Data injiseres i en kontinuerlig strøm. Det brukes ofte i sanntid.

Her er et kodeeksempel på hvordan vi injiserer data ved å bruke append-funksjonen ved å bruke pandas-biblioteket.

Det neste trinnet i datapipelinen er datarensing.

import pandas as pd # Create an empty DataFrame
df = pd.DataFrame() # Add some data to the DataFrame
df = df.append({'Name': 'John', 'Age': 30, 'Country': 'US'}, ignore_index=True)
df = df.append({'Name': 'Jane', 'Age': 25, 'Country': 'UK'}, ignore_index=True) # Print the DataFrame
print(df)

Viktigheten av datarensing

Datarengjøring er fjerning eller retting av feil i data. Dette kan inkludere fjerning av manglende verdier og duplikater og administrasjon av uteliggere. Rensing av data er en iterativ prosess, og ny innsikt kan kreve at du går tilbake og gjør endringer. I Python brukes pandas-biblioteket ofte til å rense data.

Det er viktige grunner til å rense data.

Datakvalitet: Datakvalitet er avgjørende for nøyaktig og pålitelig analyse. Mer presis og konsistent informasjon kan føre til faktiske resultater og bedre beslutningstaking.
Ytelse av maskinlæring: Skitne data kan påvirke ytelsen til maskinlæringsmodeller negativt. Rensing av dataene dine forbedrer nøyaktigheten og påliteligheten til modellen din.
Datalagring og gjenfinning: Rene data er lettere å lagre og hente og reduserer risikoen for feil og inkonsekvenser i datalagring og gjenfinning.
Datastyring: Datarensing er avgjørende for å sikre dataintegritet og samsvar med dataregulerende retningslinjer og forskrifter.
Datalagring: Tørking av data hjelper med å lagre data for langsiktig bruk og analyse.

Her er kode som viser hvordan du kan slippe manglende verdier og fjerne duplikater ved å bruke pandas-biblioteket:

df = df.dropna()
df = df.drop_duplicates() # Fill missing values
df = df.fillna(value=-1)

Her er et annet eksempel på hvordan vi renser dataene ved å bruke ulike teknikker

import pandas as pd # Create a sample DataFrame
data = {'Name': ['John', 'Jane', 'Mike', 'Sarah', 'NaN'], 'Age': [30, 25, 35, 32, None], 'Country': ['US', 'UK', 'Canada', 'Australia', 'NaN']}
df = pd.DataFrame(data) # Drop missing values
df = df.dropna() # Remove duplicates
df = df.drop_duplicates() # Handle outliers
df = df[df['Age'] < 40] # Print the cleaned DataFrame
print(df)

Den tredje fasen av datapipeline er dataforbehandling,

Det er også godt å forstå dataene og funksjonene tydelig før du bruker noen rengjøringsmetoder og å teste modellens ytelse etter å ha renset dataene.

Hva er dataforbehandling?

Databehandling er å forberede data for bruk i maskinlæringsmodeller. Dette er et viktig trinn i maskinlæring fordi det sikrer at dataene er i et format som modellen kan bruke, og at eventuelle feil eller inkonsekvenser blir løst.

r tablå og excel-integrasjon

Databehandling involverer vanligvis en kombinasjon av datarensing, datatransformasjon og datastandardisering. De spesifikke trinnene i databehandling avhenger av typen data og maskinlæringsmodellen du bruker. Men her er noen generelle trinn:

Dataopprydding: Fjern feil, inkonsekvenser og avvik fra databasen.
Datatransformasjon: Datatransformasjon til en form som kan brukes av maskinlæringsmodeller, for eksempel å endre kategoriske variabler til numeriske variabler.
Data normalisering: Skaler data i et spesifikt område mellom 0 og 1, noe som bidrar til å forbedre ytelsen til enkelte maskinlæringsmodeller.
Legg til data: Legg til endringer eller manipulasjoner til eksisterende datapunkter for å lage nye.
Funksjonsvalg eller utvinning: Identifiser og velg de essensielle funksjonene fra dataene dine som skal brukes som input til maskinlæringsmodellen.
Outlier-deteksjon: Identifiser og fjern datapunkter som avviker betydelig fra store datamengder. Outliers kan endre analytiske resultater og påvirke ytelsen til maskinlæringsmodeller negativt.
Oppdag duplikater: Identifiser og fjern dupliserte datapunkter. Dupliserte data kan føre til unøyaktige eller upålitelige resultater og øke størrelsen på datasettet ditt, noe som gjør det vanskelig å behandle og analysere.
Identifiser trender: Finn mønstre og trender i dataene dine som du kan bruke til å informere om fremtidige spådommer eller bedre forstå innholdet til dataene dine.

Databehandling er viktig i maskinlæring fordi det sikrer at dataene er i en form modellen kan bruke og at eventuelle feil eller inkonsekvenser fjernes. Dette forbedrer modellens ytelse og nøyaktighet av prediksjonen.

Her er noen enkel kode som viser hvordan du bruker LabelEncoder-klassen for å skalere kategoriske variabler til numeriske verdier og MinMaxScaler-klassen for å skalere numeriske variabler.

import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler, OneHotEncoder, LabelEncoder # Create a sample DataFrame
data = {'Name': ['John', 'Jane', 'Mike', 'Sarah'], 'Age': [30, 25, 35, 32], 'Country': ['US', 'UK', 'Canada', 'Australia'], 'Gender':['M','F','M','F']}
df = pd.DataFrame(data) # Convert categorical variables to numerical
encoder = LabelEncoder()
df["Gender"] = encoder.fit_transform(df["Gender"]) # One hot encoding
onehot_encoder = OneHotEncoder()
country_encoded = onehot_encoder.fit_transform(df[['Country']])
df = pd.concat([df, pd.DataFrame(country_encoded.toarray())], axis=1)
df = df.drop(['Country'], axis=1) # Scale numerical variables
scaler = MinMaxScaler()
df[['Age']] = scaler.fit_transform(df[['Age']]) # Print the preprocessed DataFrame
print(df)

Den siste fasen av datapipeline er funksjonsteknikk,

Et dykk inn i funksjonsteknikk

Funksjonsteknikk transformerer rådata til funksjoner som kan brukes som input for maskinlæringsmodeller. Dette innebærer å identifisere og trekke ut de mest kritiske dataene fra råmaterialet og konvertere det til et format modellen kan bruke. Funksjonsteknikk er viktig i maskinlæring fordi det kan påvirke modellens ytelse betydelig.

Ulike teknikker som kan brukes til funksjonsteknikk er:

Trekk Utvinning: Trekk ut relevant informasjon fra rådata. Identifiser for eksempel de viktigste funksjonene eller kombiner eksisterende funksjoner for å lage nye funksjoner.
Attributtendring: Endre attributttypen, for eksempel å endre en kategorisk variabel til en numerisk variabel eller zoome dataene for å passe innenfor et spesifikt område.
Funksjonsvalg: Bestem de grunnleggende funksjonene til dataene dine som skal brukes som input til maskinlæringsmodellen.
Dimensjonsreduksjon: Reduser antall funksjoner i databasen ved å fjerne overflødige eller irrelevante funksjoner.
Legg til data: Legg til endringer eller manipulasjoner til eksisterende datapunkter for å lage nye.

Funksjonsteknikk krever en god forståelse av dataene dine, problemet som skal løses og maskinlæringsalgoritmene som skal brukes. Denne prosessen er iterativ og eksperimentell og kan kreve flere iterasjoner for å finne det optimale funksjonssettet som forbedrer ytelsen til modellen vår.

Komplett kode for hele ETL-rørledningen

Her er et eksempel på en komplett ETL-pipeline som bruker pandaene og scikit-learn-bibliotekene:

import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler, OneHotEncoder, LabelEncoder # Extract data from CSV file
df = pd.read_csv('data.csv') # Data cleaning
df = df.dropna()
df = df.drop_duplicates() # Data transformation
encoder = LabelEncoder()
df["Gender"] = encoder.fit_transform(df["Gender"]) onehot_encoder = OneHotEncoder()
country_encoded = onehot_encoder.fit_transform(df[['Country']])
df = pd.concat([df, pd.DataFrame(country_encoded.toarray())], axis=1)
df = df.drop(['Country'], axis=1) scaler = MinMaxScaler()
df[['Age']] = scaler.fit_transform(df[['Age']]) # Load data into a new CSV file
df.to_csv('cleaned_data.csv', index=False)

Dataene hentes først fra en CSV-fil ved å bruke dette eksemplets pandas read_csv()-funksjon. Datarensing gjøres deretter ved å fjerne manglende verdier og duplikater. Dette gjøres ved å bruke LabelEncoder for å endre kategoriske variabler til numeriske, OneHotEncoder for å skalere kategoriske variabler til tall, og MinMaxScaler for å skalere numeriske variabler. Til slutt blir de slettede dataene lest inn i en ny CSV-fil ved hjelp av pandas to_csv()-funksjonen.

Merk at dette eksemplet er en veldig forenklet versjon av ETL-rørledningen. I et reelt scenario kan rørledningen være mer kompleks og involvere mer prosessering og outsourcing, kostnadsberegning osv. kan inkludere metoder som f.eks. I tillegg er datasporbarhet også viktig. Det vil si at den sporer opprinnelsen til dataene, endringene, og hvor de er, hjelper deg ikke bare med å forstå kvaliteten på dataene dine, men hjelper deg også med å feilsøke og gjennomgå pipelinen. Det er også viktig å tydelig forstå dataene og funksjonene før du bruker etterbehandlingsmetoder og sjekker modellens ytelse etter forbehandling. Informasjon.

konklusjonen

Datakvaliteten er avgjørende for suksessen til maskinlæringsmodeller. Ved å ta seg av hvert trinn i prosessen, fra datainnsamling til rengjøring, behandling og validering, kan du sikre at dataene dine er av høyeste kvalitet. Dette vil tillate modellen din å lage mer nøyaktige spådommer, noe som fører til bedre resultater og vellykkede maskinlæringsprosjekter.

Nå vil du vite viktigheten av datakvalitet i maskinlæring. Her er noen av de viktigste tipsene fra artikkelen min:

Nøkkelfunksjoner

Forstå virkningen av dårlig datakvalitet på maskinlæringsmodeller og de resulterende resultatene.
Erkjenner viktigheten av datakvalitet for suksessen til maskinlæringsmodeller.
Å gjøre meg kjent med ETL-pipeline og dens rolle i å sikre datakvalitet.
Tilegne seg ferdigheter for datarensing, forhåndsbehandling og funksjonsteknikker for å forbedre kvaliteten på data som brukes i ML-modeller.
Forstå konseptet og viktigheten av funksjonsteknikk i maskinlæring.
Lære teknikker for å velge, lage og transformere funksjoner for å forbedre ytelsen til ML-modeller.

Takk for at du leste! Vil du dele noe som ikke er nevnt ovenfor? tanker? Kommenter gjerne nedenfor.

Mediene vist i denne artikkelen eies ikke av Analytics Vidhya og brukes etter forfatterens skjønn.