Valmistele aikasarjatiedot Amazon SageMaker Data Wranglerilla

Lähdesolmu: 1190184

Aikasarjatiedot ovat laajalti läsnä elämässämme. Osakkeiden hinnat, asuntojen hinnat, säätiedot ja ajan mittaan kerätyt myyntitiedot ovat vain muutamia esimerkkejä. Kun yritykset etsivät yhä useammin uusia tapoja saada merkityksellisiä oivalluksia aikasarjatiedoista, kyky visualisoida dataa ja toteuttaa haluttuja muunnoksia ovat tärkeitä vaiheita. Aikasarjatiedoilla on kuitenkin ainutlaatuisia ominaisuuksia ja vivahteita muihin taulukkotietoihin verrattuna, ja ne vaativat erityisiä huomioita. Esimerkiksi vakiotaulukko- tai poikkileikkaustiedot kerätään tiettynä ajankohtana. Sitä vastoin aikasarjatiedot kerätään toistuvasti ajan mittaan, ja jokainen peräkkäinen datapiste riippuu sen aiemmista arvoista.

Koska useimmat aikasarja-analyysit perustuvat tietoihin, jotka on kerätty peräkkäisten havaintojen joukosta, puuttuvat tiedot ja luontainen harvalukuisuus voivat heikentää ennusteiden tarkkuutta ja aiheuttaa harhaa. Lisäksi useimmat aikasarja-analyysimenetelmät perustuvat yhtäläiseen datapisteiden väliseen etäisyyteen, toisin sanoen jaksoittaisuuteen. Siksi kyky korjata datavälin epäsäännöllisyydet on kriittinen edellytys. Lopuksi aikasarjaanalyysi vaatii usein lisäominaisuuksien luomista, jotka voivat auttaa selittämään syöttötietojen ja tulevaisuuden ennusteiden välisen luontaisen suhteen. Kaikki nämä tekijät erottavat aikasarjaprojektit perinteisistä koneoppimisskenaarioista (ML) ja vaativat erillistä lähestymistapaa sen analysointiin.

Tämä viesti opastaa käyttöä Amazon SageMaker Data Wrangler soveltaa aikasarjamuunnoksia ja valmistella tietojoukkosi aikasarjojen käyttötapauksia varten.

Data Wranglerin käyttötapaukset

Data Wrangler tarjoaa koodittoman/matalakoodiratkaisun aikasarja-analyysiin, jossa on ominaisuuksia, jotka mahdollistavat tietojen nopeamman puhdistamisen, muuntamisen ja valmistelun. Sen avulla datatieteilijät voivat myös valmistella aikasarjatietoja ennustemallinsa syöttömuotovaatimusten mukaisesti. Seuraavassa on muutamia tapoja, joilla voit käyttää näitä ominaisuuksia:

  • Kuvaava analyysi– Yleensä datatiedeprojektin ensimmäinen vaihe on datan ymmärtäminen. Kun piirrämme aikasarjatietoja, saamme korkean tason yleiskatsauksen sen kuvioista, kuten trendistä, kausivaihteluista, syklistä ja satunnaisista vaihteluista. Se auttaa meitä päättämään oikean ennustemenetelmän näiden mallien tarkkaan esittämiseen. Piirustus voi myös auttaa tunnistamaan poikkeamat ja ehkäisemään epärealistisia ja epätarkkoja ennusteita. Data Wranglerin mukana tulee a kausivaihtelun ja trendin hajoamisen visualisointi aikasarjan komponenttien esittämiseen ja an outlier havaitsemisen visualisointi poikkeamien tunnistamiseksi.
  • Selittävä analyysi– Monimuuttujaisissa aikasarjoissa kyky tutkia, tunnistaa ja mallintaa kahden tai useamman aikasarjan välinen suhde on olennainen mielekkäiden ennusteiden saamiseksi. The Ryhmän mukaan transform in Data Wrangler luo useita aikasarjoja ryhmittelemällä tiedot tiettyihin soluihin. Lisäksi Data Wranglerin aikasarjamuunnokset mahdollistavat tarvittaessa lisätunnussarakkeiden määrittämisen ryhmitettäviksi, mikä mahdollistaa monimutkaisen aikasarjaanalyysin.
  • Tietojen valmistelu ja ominaisuussuunnittelu– Aikasarjatiedot ovat harvoin aikasarjamallien edellyttämässä muodossa. Raakatietojen muuntaminen aikasarjakohtaisiksi ominaisuuksiksi vaatii usein tietojen valmistelua. Haluat ehkä vahvistaa, että aikasarjatiedot ovat säännöllisesti tai tasavälein ennen analyysiä. Käyttötapausten ennustamista varten saatat haluta sisällyttää myös muita aikasarjaominaisuuksia, kuten autokorrelaatiota ja tilastollisia ominaisuuksia. Data Wranglerin avulla voit nopeasti luoda aikasarjaominaisuuksia, kuten viivesarakkeita useille viivejaksoille, ottaa dataa uudelleen useisiin aikatarkkoihin ja poimia automaattisesti aikasarjan tilastollisia ominaisuuksia muutamia ominaisuuksia mainitaksesi.

Ratkaisun yleiskatsaus

Tässä postauksessa käsitellään tarkemmin sitä, kuinka datatieteilijät ja analyytikot voivat käyttää Data Wrangleria aikasarjatietojen visualisointiin ja valmisteluun. Käytämme bitcoinin kryptovaluuttatietojoukkoa salaustietojen lataus bitcoin-kaupan yksityiskohdilla näiden ominaisuuksien esittelemiseksi. Puhdistamme, validoimme ja muunnamme raakatietojoukon aikasarjaominaisuuksilla ja luomme myös bitcoin-määrän hintaennusteita käyttämällä muunnettua tietojoukkoa syötteenä.

Otos bitcoin-kaupan tiedoista on ajalta 1.–19, ja siinä on 2021 464,116 datapistettä. Tietojoukon attribuutit sisältävät hintatietueen aikaleiman, avaushinnan tai ensimmäisen hinnan, jolla kolikko vaihdettiin tiettynä päivänä, korkeimman hinnan, jolla kolikko vaihdettiin sinä päivänä, viimeisen hinnan, jolla kolikko vaihdettiin päivä, vaihdettu määrä kryptovaluutan arvona päivänä BTC:ssä ja vastaava USD-valuutta.

Edellytykset

Lataa Bitstamp_BTCUSD_2021_minute.csv Tiedosto salaustietojen lataus ja lataa se osoitteeseen Amazonin yksinkertainen tallennuspalvelu (Amazon S3).

Tuo bitcoin-tietojoukko Data Wrangleriin

Aloita Data Wrangleriin käsittelyprosessi suorittamalla seuraavat vaiheet:

  1. On SageMaker Studio konsoli filee valikosta, valitse Uusi, valitse sitten Data Wrangler Flow.
  2. Nimeä kulku uudelleen haluamallasi tavalla.
  3. varten Tuo päivämäärät, valitse Amazon S3.
  4. Lataa Bitstamp_BTCUSD_2021_minute.csv tiedosto S3-ämpäristäsi.

Voit nyt esikatsella tietojoukkoasi.

  1. In Lisätiedot ruutu, valitse Lisäasetukset ja poista valinta Ota otanta käyttöön.

Tämä on suhteellisen pieni tietojoukko, joten emme tarvitse otantaa.

  1. Valita Tuo.

Vuokaavion luominen onnistui ja olet valmis lisäämään muunnosvaiheita.

Lisää muunnoksia

Voit lisätä datamuunnoksia valitsemalla plusmerkin vieressä Tietotyypit Ja valitse Muokkaa tietotyyppejä.

Varmista, että Data Wrangler päätteli automaattisesti oikeat tietotyypit tietosarakkeille.

Meidän tapauksessamme päätellyt tietotyypit ovat oikein. Oletetaan kuitenkin, että yksi tietotyyppi on virheellinen. Voit muokata niitä helposti käyttöliittymän kautta, kuten seuraavassa kuvakaappauksessa näkyy.

muokata ja tarkastella tietotyyppejä

Aloitetaan analyysi ja aloitetaan muunnosten lisääminen.

Tietojen puhdistus

Suoritamme ensin useita tietojen puhdistusmuunnoksia.

Pudota sarake

Aloitetaan pudottamalla unix sarake, koska käytämme date sarake hakemistona.

  1. Valita Takaisin tietovirtaan.
  2. Valitse vieressä oleva plusmerkki Tietotyypit Ja valitse Lisää muunnos.
  3. Valita + Lisää vaihe vuonna LÄHETYKSET ruudussa.
  4. Valita Hallitse sarakkeita.
  5. varten Muuttaa, valitse Pudota sarake.
  6. varten Sarake pudotettavaksi, valitse unix.
  7. Valita preview.
  8. Valita Lisää vaiheen tallentamiseksi.

Kahva puuttuu

Puuttuvat tiedot on tunnettu ongelma reaalimaailman tietojoukoissa. Siksi on paras käytäntö tarkistaa puuttuvien tai nolla-arvojen olemassaolo ja käsitellä niitä asianmukaisesti. Tietojoukkomme ei sisällä puuttuvia arvoja. Mutta jos olisi, käyttäisimme Kahva puuttuu aikasarjamuutos niiden korjaamiseksi. Yleisesti käytettyjä puuttuvien tietojen käsittelystrategioita ovat puuttuvien arvojen rivien pudottaminen tai puuttuvien arvojen täyttäminen kohtuullisilla arvioilla. Koska aikasarjatiedot perustuvat tietopisteiden sarjaan ajan kuluessa, puuttuvien arvojen täyttäminen on suositeltava tapa. Puuttuvien arvojen täyttämisprosessia kutsutaan nimellä syyksi lukeminen. Kahva puuttuu aikasarjamuunnos antaa sinun valita useista imputointistrategioista.

  1. Valita + Lisää vaihe vuonna LÄHETYKSET ruudussa.
  2. Valitse Aikasarja muuttaa.
  3. varten Muuttaa, Valitse Kahva puuttuu.
  4. varten Aikasarjan syöttötyyppi, valitse Pylvään varrella.
  5. varten Menetelmä arvojen laskemiseksi, valitse Täyttö eteenpäin.

- Täyttö eteenpäin menetelmä korvaa puuttuvat arvot puuttuvia arvoja edeltävillä ei-puuttuvilla arvoilla.

käsittele puuttuvan aikasarjan muunnos

Täyttö taaksepäin, Vakioarvo, Yleisin arvo ja Interpoloida ovat muita imputointistrategioita, jotka ovat saatavilla Data Wranglerissa. Interpolointitekniikat luottavat viereisiin arvoihin puuttuvien arvojen täyttämiseksi. Aikasarjatiedot osoittavat usein korrelaatiota naapuriarvojen välillä, mikä tekee interpoloinnista tehokkaan täyttöstrategian. Katso lisätietoja funktioista, joita voit käyttää interpoloinnin soveltamiseen pandas.DataFrame.interpolate.

Vahvista aikaleima

Aikasarjaanalyysissä aikaleimasarake toimii indeksisarakkeena, jonka ympärillä analyysi pyörii. Siksi on tärkeää varmistaa, että aikaleima-sarake ei sisällä virheellisiä tai väärin muotoiltuja aikaleima-arvoja. Koska käytämme date sarake aikaleimasarakkeena ja hakemistona, tarkistetaan, että sen arvot on muotoiltu oikein.

  1. Valita + Lisää vaihe vuonna LÄHETYKSET ruudussa.
  2. Valitse Aikasarja muuttaa.
  3. varten Muuttaa, valita Vahvista aikaleimat.

- Vahvista aikaleimat muunnos antaa sinun tarkistaa, ettei tietojoukkosi aikaleimasarakkeessa ole arvoja, joissa on virheellinen aikaleima tai puuttuvat arvot.

  1. varten Aikaleima-sarake, valitse data.
  2. varten Käytäntö pudotusvalikosta, valitse Ilmoita.

- Ilmoita käytäntöasetus luo Boolen sarakkeen, joka osoittaa, onko aikaleimasarakkeen arvo kelvollinen päivämäärä/aikamuoto. Muita vaihtoehtoja varten Käytäntö sisältää:

  • Virhe – Antaa virheen, jos aikaleimasarake puuttuu tai on virheellinen
  • Pudota – Pudottaa rivin, jos aikaleimasarake puuttuu tai se on virheellinen
  1. Valita preview.

Uusi Boolen sarake nimeltä date_is_valid luotiin, kanssa true arvot osoittavat oikean muodon ja ei-nolla-merkinnät. Tietojoukkomme ei sisällä virheellisiä aikaleima-arvoja date sarakkeessa. Mutta jos näin kävi, voit käyttää uutta Boolen saraketta näiden arvojen tunnistamiseen ja korjaamiseen.

Vahvista aikaleiman aikasarjamuunnos

  1. Valita Lisää tämän vaiheen tallentamiseksi.

Aikasarjan visualisointi

Kun olemme puhdistaneet ja vahvistaneet tietojoukon, voimme visualisoida tiedot paremmin ymmärtääksemme sen eri komponentteja.

resample

Koska olemme kiinnostuneita päivittäisistä ennusteista, muutetaan tietojen tiheys päivittäisiksi.

- resample muunnos muuttaa aikasarjan havaintojen tiheyden tiettyyn tarkkuuteen, ja mukana tulee sekä ylös- että alasnäytteenottovaihtoehtoja. Ylösnäytteenotto lisää havaintojen tiheyttä (esimerkiksi päivittäisestä tuntikohtaiseksi), kun taas alasnäytteenotto vähentää havaintojen tiheyttä (esimerkiksi tunneista päivittäiseksi).

Koska tietojoukkomme on pienikokoinen, käytetään alasnäytteenottovaihtoehtoa.

  1. Valita + Lisää vaihe.
  2. Valitse Aikasarja muuttaa.
  3. varten Muuttaa, valitse resample.
  4. varten Aikaleima, valitse data.
  5. varten Taajuusyksikkö, valitse Kalenteri päivä.
  6. varten Taajuusmäärä, kirjoita 1.
  7. varten Numeeristen arvojen aggregointimenetelmä, valitse tarkoittaa.
  8. Valita preview.

Tietojoukkomme tiheys on muuttunut minuutista päivittäiseksi.

  1. Valita Lisää tämän vaiheen tallentamiseksi.

Kausi-trendin hajoaminen

Uudelleennäytteenoton jälkeen voimme visualisoida muunnetun sarjan ja siihen liittyvät STL-komponentit (Seasonal and Trend decomposition using LOESS) käyttämällä Seasonal-Trend-hajoaminen visualisointi. Tämä jakaa alkuperäiset aikasarjat erillisiin trendeihin, kausivaihteluihin ja jäännöskomponentteihin, mikä antaa meille hyvän käsityksen kunkin mallin käyttäytymisestä. Voimme käyttää tietoja myös ennusteongelmien mallintamiseen.

Data Wrangler käyttää LOESSia, joka on vankka ja monipuolinen tilastollinen menetelmä trendien ja kausikomponenttien mallintamiseen. Sen taustalla oleva toteutus käyttää polynomiregressiota arvioimaan aikasarjan komponenteissa (kausiluonteisuus, trendi ja jäännös) esiintyviä epälineaarisia suhteita.

  1. Valita Takaisin tietovirtaan.
  2. Valitse plusmerkki vierestä Askeleet on Tietovirta.
  3. Valita Lisää analyysi.
  4. In Luo analyysi ruutu, varten Analyysin tyyppi, valita Aikasarja.
  5. varten Visualisointi, valitse Kausi-trendin hajoaminen.
  6. varten Analyysin nimi, kirjoita nimi.
  7. varten Aikaleima-sarake, valitse data.
  8. varten Arvosarake, valitse Volyymi USD.
  9. Valita preview.

Analyysin avulla voimme visualisoida syötetyt aikasarjat ja hajautetut kausivaihtelut, trendit ja jäännös.

  1. Valita Säästä analyysin tallentamiseksi.

Kanssa kausittaisen trendin hajoamisen visualisointi, voimme luoda neljä mallia, kuten edellisessä kuvakaappauksessa näkyy:

  • Alkuperäinen – Alkuperäinen aikasarja otettu uudelleen päivittäiseen tarkkuuteen.
  • Trend – Polynominen trendi, jonka yleinen negatiivinen trendimalli vuodelle 2021 viittaa laskuun Volume USD arvoa.
  • Kausi – Kerrannaisvaikutus, jota edustavat vaihtelevat värähtelykuviot. Näemme kausivaihtelun vähenemisen, jolle on ominaista heilahtelujen amplitudin pieneneminen.
  • jäljelle jäävä – Jäljellä oleva jäännöskohina tai satunnainen kohina. Jäännössarja on tuloksena saatu sarja, kun trendi- ja kausikomponentit on poistettu. Tarkemmin tarkasteltuna havaitsemme piikkejä tammi-maaliskuussa ja huhti-kesäkuussa, mikä viittaa tällaisten tapahtumien mallintamiseen historiallisten tietojen avulla.

Nämä visualisoinnit antavat datatieteilijöille ja analyytikoille arvokkaita vihjeitä olemassa oleviin malleihin ja voivat auttaa sinua valitsemaan mallinnusstrategian. On kuitenkin aina hyvä käytäntö vahvistaa STL-hajoamisen tulos kuvailevan analyysin ja toimialueasiantuntemuksen avulla kerätyillä tiedoilla.

Yhteenvetona voidaan todeta, että havaitsemme laskevan trendin, joka on yhdenmukainen alkuperäisen sarjavisualisoinnin kanssa, mikä lisää luottamusta trendien visualisoinnin välittämän tiedon sisällyttämiseen loppupään päätöksentekoon. Sitä vastoin kausiluonteisuuden visualisointi auttaa tiedottamaan kausiluonteisuuden olemassaolosta ja sen poistamisen tarpeesta käyttämällä erilaisia ​​tekniikoita, kuten erotusta, se ei tarjoa haluttua yksityiskohtaista tietoa erilaisista esiintyvistä kausiluonteisista malleista, mikä vaatii syvempää analysointia.

Ominaisuuksien suunnittelu

Kun olemme ymmärtäneet tietojoukossamme olevat mallit, voimme alkaa suunnitella uusia ominaisuuksia, joilla pyritään lisäämään ennustemallien tarkkuutta.

Esitä päivämäärä-aika

Aloitetaan ominaisuuden suunnitteluprosessi yksinkertaisemmilla päivämäärä- ja aikaominaisuuksilla. Päivämäärä/aika-ominaisuudet luodaan timestamp sarakkeessa ja tarjota datatieteilijöille optimaalinen tapa aloittaa ominaisuuden suunnitteluprosessi. Aloitamme kanssa Esitä päivämäärä-aika aikasarjamuunnos lisätäksesi kuukauden, kuukauden, päivän, vuoden, viikon ja vuosineljänneksen ominaisuudet tietojoukkoomme. Koska tarjoamme päivämäärä- ja aikakomponentit erillisinä ominaisuuksina, sallimme ML-algoritmien havaita signaalit ja kuviot ennustetarkkuuden parantamiseksi.

  1. Valita + Lisää vaihe.
  2. Valitse Aikasarja muuttaa.
  3. varten Muuttaa, valita Esitä päivämäärä-aika.
  4. varten Syötesarake, valitse data.
  5. varten Tulosarake, tulla sisään date (tämä vaihe on valinnainen).
  6. varten Tulostustilassa, valitse järjestysluku.
  7. varten Tulostusmuoto, valitse Pylväät.
  8. Jos haluat poimia päivämäärän/ajan ominaisuudet, valitse Kuukausi, Päivä, Vuoden viikko, Vuoden päiväja Neljännes.
  9. Valita preview.

Tietojoukko sisältää nyt uusia sarakkeita nimeltä date_month, date_day, date_week_of_year, date_day_of_yearja date_quarter. Näistä uusista ominaisuuksista haetut tiedot voivat auttaa datatieteilijöitä saamaan lisänäkemyksiä tiedoista ja syöttöominaisuuksien ja tulosteiden välisestä suhteesta.

sisältää päivämäärän ja aikasarjan muunnos

  1. Valita Lisää tämän vaiheen tallentamiseksi.

Koodaa kategorinen

Päivämäärä/aika-ominaisuudet eivät rajoitu kokonaislukuarvoihin. Voit myös harkita tiettyjä poimittuja päivämäärä/aika -ominaisuuksia kategorisina muuttujina ja esittää ne yksitoimisina koodattuina ominaisuuksina, jolloin jokainen sarake sisältää binääriarvoja. Äskettäin luotu date_quarter sarake sisältää arvot välillä 0-3, ja se voidaan koodata neljällä binäärisarakkeella. Luodaan neljä uutta binaariominaisuutta, joista jokainen edustaa vuoden vastaavaa neljännestä.

  1. Valita + Lisää vaihe.
  2. Valitse Koodaa kategorinen muuttaa.
  3. varten Muuttaa, valitse Yksi kuuma koodaus.
  4. varten Syöttösarake, valitse päivämäärä_neljännes.
  5. varten Tulostustyyli, valitse Pylväät.
  6. Valita preview.
  7. Valita Lisää lisätä askel.

Viive-ominaisuus

Luodaan seuraavaksi viiveominaisuudet kohdesarakkeelle Volume USD. Aikasarjaanalyysin viiveominaisuudet ovat aikaisempien aikaleimojen arvoja, joiden katsotaan auttavan tulevien arvojen päättämisessä. Ne auttavat myös tunnistamaan autokorrelaation (tunnetaan myös nimellä sarjakorrelaatio) jäännössarjan kuvioita kvantifioimalla havainnon suhde aikaisempien aikavaiheiden havaintoihin. Autokorrelaatio on samanlainen kuin tavallinen korrelaatio, mutta sarjan arvojen ja sen aikaisempien arvojen välillä. Se muodostaa perustan ARIMA-sarjan autoregressiivisille ennustemalleille.

Data Wranglerin kanssa Viive-ominaisuus muunnos, voit helposti luoda viiveominaisuuksia n jakson välein. Lisäksi haluamme usein luoda useita viiveominaisuuksia eri viiveillä ja antaa mallin päättää merkityksellisimmät ominaisuudet. Tällaista skenaariota varten Viiveominaisuudet muunnos auttaa luomaan useita viivesarakkeita määritetyn ikkunakoon yli.

  1. Valita Takaisin tietovirtaan.
  2. Valitse plusmerkki vierestä Askeleet on Tietovirta.
  3. Valita + Lisää vaihe.
  4. Valita Aikasarja muuttaa.
  5. varten Muuttaa, valitse Viiveominaisuudet.
  6. varten Luo viiveominaisuudet tälle sarakkeelle, valitse Volyymi USD.
  7. varten Aikaleima-sarake, valitse data.
  8. varten Joukkue, tulla sisään 7.
  9. Koska olemme kiinnostuneita seuraamaan enintään seitsemän edellistä viivearvoa, valitaan Sisällytä koko viiveikkuna.
  10. Luo uusi sarake kullekin viivearvolle valitsemalla Tasoita ulostulo.
  11. Valita preview.

Lisätään seitsemän uutta saraketta, joiden pääte on lag_number avainsana kohdesarakkeeseen Volume USD.

Viive ominaisuuden aikasarjamuunnos

  1. Valita Lisää vaiheen tallentamiseksi.

Pyörivän ikkunan ominaisuudet

Voimme myös laskea merkityksellisiä tilastollisia yhteenvetoja eri arvoalueilta ja sisällyttää ne syöttöominaisuuksiksi. Poimitaanpa yleisiä tilastollisia aikasarjoja.

Data Wrangler toteuttaa automaattisen aikasarjaominaisuuksien poimintaominaisuudet avoimen lähdekoodin avulla tsfresh paketti. Aikasarjan ominaisuuspoiminnan muunnoksilla voit automatisoida ominaisuuden poimintaprosessin. Tämä eliminoi ajan ja vaivan, joka muuten kuluu signaalinkäsittelykirjastojen manuaaliseen toteuttamiseen. Tätä viestiä varten poimimme ominaisuuksia käyttämällä Pyörivän ikkunan ominaisuudet muuttaa. Tämä menetelmä laskee tilastolliset ominaisuudet ikkunan koon määrittelemien havaintojen joukosta.

  1. Valita + Lisää vaihe.
  2. Valitse Aikasarja muuttaa.
  3. varten Muuttaa, valitse Pyörivän ikkunan ominaisuudet.
  4. varten Luo rullaavan ikkunan ominaisuuksia tälle sarakkeelle, valitse Volyymi USD.
  5. varten Aikaleima-sarake, valitse data.
  6. varten Ikkunan koko, tulla sisään 7.

Ikkunan koon määrittäminen 7 laskee ominaisuudet yhdistämällä nykyisen aikaleiman arvon ja edellisen seitsemän aikaleiman arvot.

  1. valita litistää luodaksesi uuden sarakkeen jokaiselle laskennalliselle ominaisuudelle.
  2. Valitse strategiasi Minimaalinen osajoukko.

Tämä strategia poimii kahdeksan ominaisuutta, jotka ovat hyödyllisiä loppupään analyyseissä. Muita strategioita ovat mm Tehokas osajoukko, Muokattu osajoukkoja Kaikki ominaisuudet. Katso täydellinen luettelo poistettavissa olevista ominaisuuksista kohdasta Yleiskatsaus poimituista ominaisuuksista.

  1. Valita preview.

Näemme kahdeksan uutta saraketta, joissa on määritetty ikkunan koko 7 heidän nimissään, liitettynä tietoaineistoomme.

  1. Valita Lisää vaiheen tallentamiseksi.

Vie tietojoukko

Olemme muuntaneet aikasarjatietojoukon ja olemme valmiita käyttämään muunnettua tietojoukkoa ennustealgoritmin syötteenä. Viimeinen vaihe on viedä muunnettu tietojoukko Amazon S3:een. Data Wranglerissa voit valita Vie vaihe luoda automaattisesti Jupyter-muistikirjan Amazon SageMaker Processing -koodilla muunnetun tietojoukon käsittelemiseksi ja viemiseksi S3-säihöön. Koska tietojoukossamme on kuitenkin hieman yli 300 tietuetta, hyödynnämme Vie tietoja vaihtoehto Lisää muunnos näkymää viedäksesi muunnetun tietojoukon suoraan Amazon S3:een Data Wranglerista.

  1. Valita Vie tietoja.

  1. varten S3 sijainti, valitse selain ja valitse S3-kauhasi.
  2. Valita Vie tietoja.

Nyt kun olemme onnistuneesti muuntaneet bitcoin-tietojoukon, voimme käyttää sitä Amazonin sääennuste luoda bitcoin-ennusteita.

Puhdistaa

Jos olet lopettanut tämän käyttötapauksen, puhdista luomasi resurssit välttääksesi lisäkuluja. Data Wranglerissa voit sammuttaa taustalla olevan ilmentymän, kun se on valmis. Viitata Sammuta Data Wrangler dokumentaatiota saadaksesi lisätietoja. Vaihtoehtoisesti voit jatkaa Osa 2 tästä sarjasta käyttääksesi tätä tietojoukkoa ennustamiseen.

Yhteenveto

Tämä viesti osoitti, kuinka Data Wrangleria käytetään yksinkertaistamaan ja nopeuttamaan aikasarjaanalyysiä sen sisäänrakennettujen aikasarjaominaisuuksien avulla. Tutkimme, kuinka datatieteilijät voivat helposti ja vuorovaikutteisesti puhdistaa, muotoilla, validoida ja muuntaa aikasarjatietoja haluttuun muotoon mielekästä analysointia varten. Tutkimme myös, kuinka voit rikastuttaa aikasarja-analyysiäsi lisäämällä kattavan joukon tilastollisia ominaisuuksia Data Wranglerin avulla. Lisätietoja aikasarjamuunnoksista Data Wranglerissa on kohdassa Muuta tietoja.


kirjailijasta

Roop Bains on AWS:n ratkaisuarkkitehti, joka keskittyy AI/ML:ään. Hän on intohimoinen auttamaan asiakkaita innovoimaan ja saavuttamaan liiketoimintatavoitteensa tekoälyn ja koneoppimisen avulla. Vapaa-ajallaan Roop pitää lukemisesta ja patikoinnista.

Nikita Ivkin on soveltuva tutkija, Amazon SageMaker Data Wrangler.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen