Amazon SageMaker Data Wrangler vähentää koneoppimisen (ML) tietojen kokoamiseen ja valmisteluun kuluvaa aikaa viikoista minuutteihin. Data Wranglerin avulla voit valita ja hakea tietoja vain muutamalla napsautuksella, muuttaa tietoja nopeasti yli 300 sisäänrakennetulla datamuunnoksella ja ymmärtää tietojasi sisäänrakennetuilla visualisoinneilla ilman koodin kirjoittamista.
Lisäksi voit luoda mukautettuja muunnoksia ainutlaatuinen tarpeidesi mukaan. Mukautettujen muunnosten avulla voit kirjoittaa mukautettuja muunnoksia joko PySparkilla, Pandalla tai SQL:llä.
Data Wrangler tukee nyt mukautettua Pandas käyttäjän määrittämä toiminto (UDF) muunnos, joka pystyy käsittelemään suuria tietojoukkoja tehokkaasti. Voit valita kahdesta mukautetusta Panda UDF -tilasta: Pandas ja Python. Molemmat tilat tarjoavat tehokkaan ratkaisun tietojoukkojen käsittelyyn, ja valitsemasi tila riippuu mieltymyksistäsi.
Tässä viestissä näytämme, kuinka uutta Pandasin UDF-muunnosta käytetään kummassakin tilassa.
Ratkaisun yleiskatsaus
Tätä kirjoitettaessa voit tuoda tietojoukkoja Data Wrangleriin osoitteesta Amazonin yksinkertainen tallennuspalvelu (Amazon S3), Amazon Athena, Amazonin punainen siirto, Databricks ja Snowflake. Käytämme tätä viestiä varten Amazon S3:a vuoden 2014 tallentamiseen Amazon arvioi tietojoukon.
Tiedoilla on sarake nimeltä reviewText
sisältää käyttäjien luomaa tekstiä. Teksti sisältää myös useita lopeta sanat, jotka ovat yleisiä sanoja, jotka eivät tarjoa paljon tietoa, kuten "a", "an" ja "the". Lopetussanojen poistaminen on yleinen esikäsittelyvaihe luonnollisen kielen käsittelyn (NLP) putkissa. Voimme luoda mukautetun toiminnon pysäytyssanan poistamiseksi arvosteluista.
Luo mukautettu Pandas UDF -muunnos
Käydään läpi kahden Data Wranglerin mukautetun Pandas UDF -muunnoksen luominen Pandas- ja Python-tilojen avulla.
- Lataa Digital Music -arvostelujen tietojoukko ja lataa se Amazon S3:een.
- avoin Amazon SageMaker Studio ja luo uusi Data Wrangler -kulku.
- Alle Tuo päivämäärät, valitse Amazon S3 ja navigoi tietojoukon sijaintiin.
- varten Tiedostotyyppi, valitse jsonl.
Tietojen esikatselu tulee näyttää taulukossa.
- Valita Tuo edetä.
- Kun tietosi on tuotu, valitse plusmerkki vieressä Tietotyypit Ja valitse Lisää muunnos.
- Valita Mukautettu muunnos.
- avattavassa valikossa, Python (käyttäjän määrittämä funktio).
Nyt luomme mukautetun muunnoksen lopetussanojen poistamiseksi.
- Määritä syöttösarake, tulossarake, palautustyyppi ja tila.
Seuraava esimerkki käyttää Pandas-tilaa. Tämä tarkoittaa, että funktion tulee hyväksyä ja palauttaa samanpituinen Pandas-sarja. Voit ajatella Pandas-sarjaa taulukon sarakkeena tai sarakkeen osana. Tämä on tehokkain Pandan UDF-tila, koska Pandat voivat vektorisoida operaatioita arvoerien kesken, toisin kuin yksi kerrallaan. The pd.Series
tyyppivinkkejä tarvitaan Pandas-tilassa.
Jos haluat käyttää mieluummin puhdasta Pythonia Pandas API:n sijaan, Python-tilassa voit määrittää puhtaan Python-funktion, joka hyväksyy yhden argumentin ja palauttaa yhden arvon. Seuraava esimerkki vastaa edellistä Pandas-koodia lähdön suhteen. Tyyppivihjeitä ei vaadita Python-tilassa.
- Valita Lisää lisätäksesi mukautetun muunnos.
Yhteenveto
Data Wranglerissa on yli 300 sisäänrakennettua muunnosa, ja voit myös lisätä mukautettuja muunnoksia tarpeidesi mukaan. Tässä viestissä osoitimme, kuinka käsitellä tietojoukkoja Data Wranglerin uudella mukautetulla Pandas UDF -muunnoksella käyttämällä sekä Pandas- että Python-tiloja. Voit käyttää kumpaa tahansa tilaa mieltymystesi mukaan. Lisätietoja Data Wranglerista on kohdassa Luo ja käytä Data Wrangler -kulkua.
Tietoja Tekijät
Ben Harris on ohjelmistoinsinööri, jolla on kokemusta skaalautuvien tietoputkien ja koneoppimisratkaisujen suunnittelusta, käyttöönotosta ja ylläpidosta useilla eri aloilla. Ben on rakentanut järjestelmiä muun muassa tiedon keräämiseen ja merkitsemiseen, kuvien ja tekstien luokitteluun, sekvenssistä sekvenssiin mallintamiseen, upottamiseen ja klusterointiin.
Haider Naqvi on ratkaisuarkkitehti AWS:ssä. Hänellä on laaja kokemus ohjelmistokehityksestä ja yritysarkkitehtuurista. Hän keskittyy siihen, että asiakkaat voivat saavuttaa liiketoimintatuloksia AWS:n avulla. Hänen kotipaikkansa on New Yorkista.
Vishal Srivastava on AWS:n tekninen asiakaspäällikkö. Ohjelmistokehityksen ja analytiikan taustalla hän työskentelee ensisijaisesti finanssipalvelusektorin ja digitaalisten yritysasiakkaiden parissa ja tukee heidän pilvimatkaansa. Vapaa-ajallaan hän rakastaa matkustamista perheensä kanssa.
- Coinsmart. Euroopan paras Bitcoin- ja kryptopörssi.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. VAPAA PÄÄSY.
- CryptoHawk. Altcoinin tutka. Ilmainen kokeilu.
- Lähde: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- Meistä
- Tili
- poikki
- Amazon
- keskuudessa
- Analytics
- api
- arkkitehtuuri
- saatavissa
- AWS
- tausta
- sisäänrakennettu
- liiketoiminta
- Valita
- luokittelu
- pilvi
- koodi
- kokoelma
- Sarake
- Yhteinen
- sisältää
- luoda
- Luominen
- asiakassuhde
- Asiakkaat
- tiedot
- osoittaa
- osoittivat
- riippuu
- levityspinnalta
- suunnittelu
- Kehitys
- digitaalinen
- verkkotunnuksia
- tehokas
- tehokkaasti
- mahdollistaa
- insinööri
- yritys
- esimerkki
- experience
- laaja
- perhe
- taloudellinen
- rahoituspalvelut
- virtaus
- keskittyy
- jälkeen
- Ilmainen
- toiminto
- Miten
- Miten
- HTTPS
- kuva
- tiedot
- panos
- IT
- Liitosten
- merkinnät
- Kieli
- suuri
- OPPIA
- oppiminen
- sijainti
- kone
- koneoppiminen
- johtaja
- ottelu
- ML
- lisää
- eniten
- Musiikki
- Luonnollinen
- New York
- Operations
- Valmistella
- preview
- prosessi
- käsittely
- toimittaa
- nopea
- nopeasti
- tarvitaan
- vaatimukset
- palata
- Tuotto
- Arvostelut
- skaalautuva
- sektori
- Sarjat
- Palvelut
- Yksinkertainen
- Tuotteemme
- ohjelmistokehitys
- Software Engineer
- ratkaisu
- Ratkaisumme
- tilat
- Levytila
- verkkokaupasta
- Tukee
- järjestelmät
- Tekninen
- Kautta
- aika
- symbolinen
- tokens
- Muuttaa
- matkustaa
- ymmärtää
- unique
- käyttää
- arvo
- lajike
- ilman
- sanoja
- toimii
- kirjoittaminen