Du kan nå omskolere maskinlæringsmodeller (ML) og automatisere batchprediksjonsarbeidsflyter med oppdaterte datasett i Amazon SageMaker Canvas, og dermed gjøre det lettere å hele tiden lære og forbedre modellens ytelse og kjøreeffektivitet. Effektiviteten til en ML-modell avhenger av kvaliteten og relevansen til dataene den er trent på. Etter hvert som tiden går, kan de underliggende mønstrene, trendene og distribusjonene i dataene endre seg. Ved å oppdatere datasettet sikrer du at modellen lærer av de nyeste og representative dataene, og forbedrer dermed evnen til å lage nøyaktige spådommer. Canvas støtter nå oppdatering av datasett automatisk og manuelt, slik at du kan bruke den nyeste versjonen av tabell-, bilde- og dokumentdatasettet for opplæring av ML-modeller.
Etter at modellen er trent, kan det være lurt å kjøre spådommer på den. Å kjøre batch-prediksjoner på en ML-modell gjør det mulig å behandle flere datapunkter samtidig i stedet for å lage spådommer én etter én. Automatisering av denne prosessen gir effektivitet, skalerbarhet og rettidig beslutningstaking. Etter at spådommene er generert, kan de videre analyseres, aggregeres eller visualiseres for å få innsikt, identifisere mønstre eller ta informerte beslutninger basert på de forutsagte resultatene. Canvas støtter nå å sette opp en automatisert batchprediksjonskonfigurasjon og knytte et datasett til det. Når det tilknyttede datasettet oppdateres, enten manuelt eller i henhold til en tidsplan, vil en batchprediksjonsarbeidsflyt utløses automatisk på den tilsvarende modellen. Resultatene av spådommene kan sees inline eller lastes ned for senere gjennomgang.
I dette innlegget viser vi hvordan du kan omskolere ML-modeller og automatisere batch-prediksjoner ved å bruke oppdaterte datasett i Canvas.
Oversikt over løsning
For vår brukssituasjon spiller vi rollen som en forretningsanalytiker for et e-handelsselskap. Produktteamet vårt vil at vi skal bestemme de mest kritiske beregningene som påvirker en kjøpers kjøpsbeslutning. For dette trener vi en ML-modell i Canvas med et kundenettsted online sesjonsdatasett fra selskapet. Vi evaluerer modellens ytelse og, om nødvendig, omskoler modellen med tilleggsdata for å se om den forbedrer ytelsen til den eksisterende modellen eller ikke. For å gjøre det bruker vi funksjonen for automatisk oppdatering av datasett i Canvas og omskoler vår eksisterende ML-modell med den nyeste versjonen av opplæringsdatasettet. Deretter konfigurerer vi automatiske batchprediksjonsarbeidsflyter – når det tilsvarende prediksjonsdatasettet oppdateres, utløser det automatisk batchprediksjonsjobben på modellen og gjør resultatene tilgjengelige for oss å se.
Arbeidsflyttrinnene er som følger:
- Last opp de nedlastede kundenettstedets online øktdata til Amazon enkel lagringstjeneste (Amazon S3) og lag et nytt treningsdatasett Canvas. For den fullstendige listen over støttede datakilder, se Importere data i Amazon SageMaker Canvas.
- Bygg ML-modeller og analyser ytelsesberegningene deres. Se fremgangsmåten for hvordan bygge en tilpasset ML-modell i Canvas og evaluere en modells ytelse.
- Sett opp automatisk oppdatering på det eksisterende treningsdatasettet og last opp nye data til Amazon S3-posisjonen som støtter dette datasettet. Etter fullføring skal den opprette en ny datasettversjon.
- Bruk den nyeste versjonen av datasettet for å omskolere ML-modellen og analysere ytelsen.
- Sett opp automatiske batch-prediksjoner på modellversjonen med bedre resultater og se prediksjonsresultatene.
Du kan utføre disse trinnene i Canvas uten å skrive en eneste linje med kode.
Oversikt over data
Datasettet består av funksjonsvektorer som tilhører 12,330 1 økter. Datasettet ble laget slik at hver økt skulle tilhøre en annen bruker i en XNUMX-års periode for å unngå tendenser til en bestemt kampanje, spesiell dag, brukerprofil eller periode. Følgende tabell skisserer dataskjemaet.
Kolonnenavn | Data-type | Beskrivelse |
Administrative |
Numerisk | Antall sider besøkt av brukeren for brukerkontoadministrasjonsrelaterte aktiviteter. |
Administrative_Duration |
Numerisk | Hvor mye tid brukt i denne kategorien av sider. |
Informational |
Numerisk | Antall sider av denne typen (informasjon) som brukeren har besøkt. |
Informational_Duration |
Numerisk | Hvor mye tid brukt i denne kategorien av sider. |
ProductRelated |
Numerisk | Antall sider av denne typen (produktrelatert) som brukeren har besøkt. |
ProductRelated_Duration |
Numerisk | Hvor mye tid brukt i denne kategorien av sider. |
BounceRates |
Numerisk | Prosentandel av besøkende som går inn på nettstedet gjennom den siden og avslutter uten å utløse noen ekstra oppgaver. |
ExitRates |
Numerisk | Gjennomsnittlig utgangsfrekvens for sidene som er besøkt av brukeren. Dette er prosentandelen av personer som forlot nettstedet ditt fra den siden. |
Page Values |
Numerisk | Gjennomsnittlig sideverdi for sidene som er besøkt av brukeren. Dette er gjennomsnittsverdien for en side som en bruker besøkte før han landet på målsiden eller fullførte en netthandelstransaksjon (eller begge deler). |
SpecialDay |
Binary | «Spesialdag»-funksjonen angir hvor nært nettstedet besøkstidspunktet er til en bestemt spesiell dag (som morsdag eller valentinsdag) der øktene er mer sannsynlig å bli avsluttet med en transaksjon. |
Month |
Kategorisk | Måneden for besøket. |
OperatingSystems |
Kategorisk | Operativsystemer til den besøkende. |
Browser |
Kategorisk | Nettleser som brukes av brukeren. |
Region |
Kategorisk | Geografisk region som økten er startet fra av den besøkende. |
TrafficType |
Kategorisk | Trafikkkilde som brukeren har kommet inn på nettstedet gjennom. |
VisitorType |
Kategorisk | Om kunden er en ny bruker, returnerende bruker eller annet. |
Weekend |
Binary | Hvis kunden besøkte nettsiden i helgen. |
Revenue |
Binary | Hvis et kjøp ble gjort. |
Inntekter er målkolonnen, som vil hjelpe oss å forutsi om en kjøper vil kjøpe et produkt eller ikke.
Det første trinnet er å last ned datasettet som vi skal bruke. Merk at dette datasettet er med tillatelse fra UCI Machine Learning Repository.
Forutsetninger
For denne gjennomgangen, fullfør følgende forutsetningstrinn:
- Del den nedlastede CSV-en som inneholder 20,000 XNUMX rader i flere mindre biter.
Dette er slik at vi kan vise frem funksjonaliteten for datasettoppdatering. Sørg for at alle CSV-filene har de samme overskriftene, ellers kan du støte på feil i skjemaet mens du oppretter et opplæringsdatasett i Canvas.
- Lag en S3-bøtte og last opp
online_shoppers_intentions1-3.csv
til S3-bøtta.
- Sett til side 1,500 rader fra den nedlastede CSV-en for å kjøre batch-forutsigelser etter at ML-modellen er opplært.
- Fjern
Revenue
kolonne fra disse filene slik at når du kjører batchprediksjon på ML-modellen, er det verdien modellen din vil forutsi.
Sørg for alle predict*.csv
filer har de samme overskriftene, ellers kan du støte på feil med skjemamismatch mens du oppretter et prediksjonsdatasett (inferens) i Canvas.
- Utfør de nødvendige trinnene for å sette opp et SageMaker-domene og Canvas-app.
Lag et datasett
For å opprette et datasett i Canvas, fullfør følgende trinn:
- Velg i Canvas datasett i navigasjonsruten.
- Velg Opprett Og velg tabell.
- Gi datasettet ditt et navn. For dette innlegget kaller vi treningsdatasettet vårt
OnlineShoppersIntentions
. - Velg Opprett.
- Velg datakilden din (for dette innlegget er datakilden vår Amazon S3).
Merk at når dette skrives, støttes datasettoppdateringsfunksjonaliteten kun for Amazon S3 og lokalt opplastede datakilder.
- Velg den tilsvarende bøtten og last opp CSV-filene for datasettet.
Du kan nå lage et datasett med flere filer.
- Forhåndsvis alle filene i datasettet og velg Lag datasett.
Vi har nå versjon 1 av OnlineShoppersIntentions
datasett med tre filer opprettet.
- Velg datasettet for å se detaljene.
De Data fanen viser en forhåndsvisning av datasettet.
- Velg Datasettdetaljer for å vise filene som datasettet inneholder.
De Datasettfiler ruten viser tilgjengelige filer.
- Velg Versjonshistorikk for å se alle versjonene for dette datasettet.
Vi kan se at vår første datasettversjon har tre filer. Enhver påfølgende versjon vil inkludere alle filene fra tidligere versjoner og vil gi en kumulativ oversikt over dataene.
Tren en ML-modell med versjon 1 av datasettet
La oss trene en ML-modell med versjon 1 av datasettet vårt.
- Velg i Canvas Mine modeller i navigasjonsruten.
- Velg Ny modell.
- Skriv inn et modellnavn (f.eks.
OnlineShoppersIntentionsModel
), velg problemtypen og velg Opprett. - Velg datasettet. For dette innlegget velger vi
OnlineShoppersIntentions
datasett.
Som standard vil Canvas hente den nyeste datasettversjonen for trening.
- På Bygge fanen, velg målkolonnen du vil forutsi. For dette innlegget velger vi kolonnen Inntekter.
- Velg Rask bygging.
Modellopplæringen vil ta 2–5 minutter å fullføre. I vårt tilfelle gir den trente modellen oss en score på 89 %.
Sett opp automatiske datasettoppdateringer
La oss oppdatere på datasettet vårt ved å bruke funksjonen for automatisk oppdatering og få inn mer data og se om modellytelsen forbedres med den nye versjonen av datasettet. Datasett kan også oppdateres manuelt.
- På datasett side, velg
OnlineShoppersIntentions
datasett og velg Oppdater datasett. - Du kan enten velge Manuell oppdatering, som er et engangsoppdateringsalternativ, eller Automatisk oppdatering, som lar deg automatisk oppdatere datasettet etter en tidsplan. For dette innlegget viser vi frem funksjonen for automatisk oppdatering.
Du blir omdirigert til Automatisk oppdatering fanen for det tilsvarende datasettet. Det kan vi se Aktiver automatisk oppdatering er for øyeblikket deaktivert.
- Veksle Aktiver automatisk oppdatering til på og spesifisere datakilden (i skrivende stund støttes Amazon S3-datakilder for automatiske oppdateringer).
- Velg en frekvens og angi et starttidspunkt.
- Lagre konfigurasjonsinnstillingene.
En automatisk oppdateringsdatasettkonfigurasjon er opprettet. Den kan redigeres når som helst. Når en tilsvarende datasettoppdateringsjobb utløses på den angitte tidsplanen, vil jobben vises i Jobbhistorie seksjon.
- La oss deretter laste opp
online_shoppers_intentions4.csv
,online_shoppers_intentions5.csv
ogonline_shoppers_intentions6.csv
filer til vår S3-bøtte.
Vi kan se filene våre i dataset-update-demo
S3 bøtte.
Oppdateringsjobben for datasettet vil bli utløst ved den angitte tidsplanen og opprette en ny versjon av datasettet.
Når jobben er fullført, vil datasettversjon 2 ha alle filene fra versjon 1 og tilleggsfilene behandlet av datasettoppdateringsjobben. I vårt tilfelle har versjon 1 tre filer og oppdateringsjobben plukket opp tre ekstra filer, så den endelige datasettversjonen har seks filer.
Vi kan se den nye versjonen som ble opprettet på Versjonshistorikk fanen.
De Data fanen inneholder en forhåndsvisning av datasettet og gir en liste over alle filene i den nyeste versjonen av datasettet.
Omskolere ML-modellen med et oppdatert datasett
La oss omskolere vår ML-modell med den nyeste versjonen av datasettet.
- På Mine modeller side, velg din modell.
- Velg Legg til versjon.
- Velg den nyeste datasettversjonen (v2 i vårt tilfelle) og velg Velg datasett.
- Behold målkolonnen og byggekonfigurasjonen lik den forrige modellversjonen.
Når opplæringen er fullført, la oss evaluere modellens ytelse. Følgende skjermbilde viser at tilleggsdata og omskolering av ML-modellen vår har bidratt til å forbedre modellytelsen vår.
Lag et prediksjonsdatasett
Med en ML-modell opplært, la oss lage et datasett for spådommer og kjøre batch-prediksjoner på det.
- På datasett side, opprette et tabelldatasett.
- Skriv inn et navn og velg Opprett.
- Last opp én fil med 3 rader for å forutsi i vår S500-bøtte.
Deretter setter vi opp automatiske oppdateringer på prediksjonsdatasettet.
- Veksle Aktiver automatisk oppdatering til på og spesifiser datakilden.
- Velg frekvens og angi et starttidspunkt.
- Lagre konfigurasjonen.
Automatiser batchprediksjonsarbeidsflyten på et automatisk oppdatert prediksjonsdatasett
I dette trinnet konfigurerer vi våre automatiske batchprediksjonsarbeidsflyter.
- På Mine modeller siden, naviger til versjon 2 av modellen din.
- På forutsi kategorien, velg Batch prediksjon og Automatisk.
- Velg Velg datasett for å spesifisere datasettet for å generere spådommer på.
- Velg
predict
datasett som vi laget tidligere og velger Velg datasett. - Velg Sett opp.
Vi har nå en automatisk batchprediksjonsarbeidsflyt. Dette utløses når Predict
datasettet oppdateres automatisk.
La oss nå laste opp flere CSV-filer til predict
S3 mappe.
Denne operasjonen vil utløse en automatisk oppdatering av predict
datasett.
Dette vil i sin tur utløse den automatiske arbeidsflyten for batchprediksjon og generere spådommer som vi kan se.
Vi kan se alle automatiseringer på automations side.
Takket være den automatiske datasettoppdateringen og automatiske batchprediksjonsarbeidsflytene, kan vi bruke den nyeste versjonen av tabell-, bilde- og dokumentdatasettet for opplæring av ML-modeller, og bygge batchprediksjonsarbeidsflyter som utløses automatisk ved hver datasettoppdatering.
Rydd opp
Logg ut av Canvas for å unngå fremtidige kostnader. Canvas fakturerer deg for varigheten av økten, og vi anbefaler å logge ut av Canvas når du ikke bruker det. Referere til Logger ut av Amazon SageMaker Canvas for mer informasjon.
konklusjonen
I dette innlegget diskuterte vi hvordan vi kan bruke den nye datasettoppdateringsfunksjonen til å bygge nye datasettversjoner og trene våre ML-modeller med de nyeste dataene i Canvas. Vi viste også hvordan vi effektivt kan automatisere prosessen med å kjøre batch-prediksjoner på oppdaterte data.
For å starte din lavkode/ingen kode ML-reise, se Amazon SageMaker Canvas utviklerveiledning.
En spesiell takk til alle som bidro til lanseringen.
Om forfatterne
Janisha Anand er senior produktsjef i SageMaker No/Low-Code ML-teamet, som inkluderer SageMaker Canvas og SageMaker Autopilot. Hun liker kaffe, holder seg aktiv og tilbringer tid med familien.
Prashanth er programvareutviklingsingeniør hos Amazon SageMaker og jobber hovedsakelig med SageMaker lavkode- og no-code-produkter.
Esha Dutta er programvareutviklingsingeniør hos Amazon SageMaker. Hun fokuserer på å bygge ML-verktøy og produkter for kunder. Utenom jobben liker hun friluftsliv, yoga og fotturer.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- EVM Finans. Unified Interface for desentralisert økonomi. Tilgang her.
- Quantum Media Group. IR/PR forsterket. Tilgang her.
- PlatoAiStream. Web3 Data Intelligence. Kunnskap forsterket. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/retrain-ml-models-and-automate-batch-predictions-in-amazon-sagemaker-canvas-using-updated-datasets/
- : har
- :er
- :ikke
- $OPP
- 000
- 1
- 10
- 100
- 116
- 12
- 20
- 500
- 7
- 8
- 9
- a
- evne
- Logg inn
- nøyaktig
- aktiv
- Aktiviteter
- legge
- Ytterligere
- Etter
- Alle
- tillater
- også
- Amazon
- Amazon SageMaker
- Amazon SageMaker Canvas
- Amazon Web Services
- an
- analytiker
- analysere
- og
- noen
- vises
- ER
- AS
- assosiert
- At
- auto
- automatisere
- Automatisert
- Automatisk
- automatisk
- Automatisere
- autopilot
- tilgjengelig
- gjennomsnittlig
- unngå
- AWS
- backing
- basert
- BE
- vært
- før du
- Bedre
- Sedler
- både
- bringe
- bygge
- Bygning
- virksomhet
- by
- ring
- Kampanje
- CAN
- lerret
- saken
- Kategori
- endring
- avgifter
- Velg
- kode
- Kaffe
- Kolonne
- Selskapet
- fullføre
- fullført
- ferdigstillelse
- Konfigurasjon
- består
- stadig
- inneholder
- bidratt
- Tilsvarende
- skape
- opprettet
- Opprette
- kritisk
- Gjeldende
- I dag
- skikk
- kunde
- Kunder
- dato
- datapunkter
- datasett
- dag
- avgjørelse
- Beslutningstaking
- avgjørelser
- Misligholde
- avhenger
- detaljer
- Bestem
- Utvikler
- Utvikling
- forskjellig
- deaktivert
- diskutert
- Distribusjoner
- do
- dokument
- domene
- stasjonen
- varighet
- hver enkelt
- Tidligere
- enklere
- e-handel
- effektivitet
- effektivitet
- effektivt
- enten
- muliggjør
- muliggjør
- ingeniør
- sikre
- Enter
- kom inn
- feil
- Eter (ETH)
- evaluere
- Hver
- alle
- eksempel
- eksisterende
- Utgang
- familie
- Trekk
- filet
- Filer
- slutt~~POS=TRUNC
- avsluttet
- Først
- fokuserer
- etter
- følger
- Til
- dannet
- Frekvens
- fra
- fullt
- funksjonalitet
- videre
- framtid
- Gevinst
- generere
- generert
- få
- gir
- mål
- Ha
- overskrifter
- hjelpe
- hjulpet
- her
- vandreturer
- historie
- Hvordan
- Hvordan
- HTML
- http
- HTTPS
- ICS
- identifisere
- if
- bilde
- forbedre
- forbedrer
- bedre
- in
- inkludere
- inkluderer
- indikerer
- påvirke
- Informativ
- informert
- innsikt
- i stedet
- inn
- IT
- DET ER
- Jobb
- reise
- jpg
- landing
- seinere
- siste
- lansere
- LÆRE
- læring
- venstre
- Sannsynlig
- linje
- Liste
- lister
- lokalt
- plassering
- logg
- logging
- maskin
- maskinlæring
- laget
- hovedsakelig
- gjøre
- GJØR AT
- Making
- leder
- manuelt
- Kan..
- Metrics
- minutter
- ML
- modell
- modeller
- mer
- mest
- flere
- navn
- Naviger
- Navigasjon
- nødvendig
- nødvendig
- Ny
- note
- nå
- of
- on
- ONE
- på nett
- bare
- drift
- Alternativ
- or
- Annen
- ellers
- vår
- ut
- utfall
- utendørs
- skisserer
- utenfor
- side
- brød
- del
- mønstre
- Ansatte
- prosent
- utføre
- ytelse
- utfører
- perioden
- plukke
- plukket
- plato
- Platon Data Intelligence
- PlatonData
- Spille
- poeng
- Post
- forutsi
- spådd
- forutsi
- prediksjon
- Spådommer
- Forhåndsvisning
- forrige
- Problem
- prosess
- behandlet
- prosessering
- Produkt
- Produktsjef
- Produkter
- Profil
- gi
- gir
- Kjøp
- kvalitet
- Sats
- nylig
- anbefaler
- region
- i slekt
- relevans
- Repository
- representant
- Resultater
- omskolering
- retur
- inntekter
- anmeldelse
- Kjør
- rennende
- sagemaker
- samme
- skalerbarhet
- planlegge
- Resultat
- se
- senior
- Tjenester
- Session
- sesjoner
- sett
- innstilling
- innstillinger
- hun
- bør
- Vis
- presentere
- viste
- Viser
- lignende
- Enkelt
- samtidig
- enkelt
- nettstedet
- SIX
- mindre
- So
- Software
- programvareutvikling
- kilde
- Kilder
- spesiell
- spesifikk
- spesifisert
- utgifter
- brukt
- Begynn
- startet
- Start
- Trinn
- Steps
- lagring
- senere
- slik
- Støttes
- Støtter
- Systemer
- bord
- Ta
- Target
- oppgaver
- lag
- Takk
- Det
- De
- deres
- deretter
- derved
- Disse
- de
- denne
- tre
- Gjennom
- tid
- til
- verktøy
- Tog
- trent
- Kurs
- Transaksjonen
- Trender
- utløse
- utløst
- utløsende
- SVING
- typen
- underliggende
- Oppdater
- oppdatert
- oppdateringer
- oppdatering
- lastet opp
- upon
- us
- bruke
- bruk sak
- brukt
- Bruker
- ved hjelp av
- verdi
- versjon
- Se
- sett
- Besøk
- besøkte
- Visitor
- besøkende
- walkthrough
- ønsker
- ønsker
- var
- we
- web
- webtjenester
- Nettsted
- helg
- VI VIL
- når
- om
- hvilken
- mens
- HVEM
- vil
- med
- uten
- Arbeid
- arbeidsflyt
- arbeidsflyt
- virker
- ville
- skriving
- yoga
- du
- Din
- zephyrnet