Tarrateksti Aspektipohjaiseen tunneanalyysiin SageMaker Ground Truthia käyttämällä

Julkaissut Platon

seuraajia: 0

Amazon Machine Learning Solutions Lab (MLSL) loi äskettäin työkalun tekstin merkitsemiseen nimettyjen entiteettien tunnistuksen (NER) ja suhdetunnisteiden avulla. Amazon SageMaker Ground Totuus. Annotaattorit käyttävät tätä työkalua nimeämään tekstiä nimetyillä entiteeteillä ja linkittämään niiden suhteita ja rakentamaan näin tietojoukon uusimpien NLP-koneoppimismallien opettamiseen. Mikä tärkeintä, tämä on nyt julkisesti kaikkien AWS-asiakkaiden saatavilla.

Asiakkaan käyttötapaus: Booking.com

Booking.com on yksi maailman johtavista online-matkailualustoista. Ymmärtää, mitä asiakkaat sanovat yrityksen yli 28 miljoonasta kiinteistöluettelosta alustalla, on välttämätöntä huippuluokan asiakaskokemuksen ylläpitämiseksi. Aikaisemmin Booking.com saattoi käyttää vain perinteistä mielipideanalyysiä asiakkaiden luomien arvostelujen laajamittaiseen tulkintaan. Booking.com pyrki äskettäin parantamaan näiden tulkintojen tarkkuutta ja pyysi MLSL:ltä apua räätälöidyn annotoidun tietojoukon luomisessa aspektipohjaisen tunneanalyysimallin kouluttamiseksi.

Perinteinen tunneanalyysi on prosessi, jossa teksti luokitellaan positiiviseksi, negatiiviseksi tai neutraaliksi ainutlaatuinen tunne. Tämä auttaa ymmärtämään laajasti, ovatko käyttäjät tyytyväisiä vai tyytymättömiä tiettyyn kokemukseen. Esimerkiksi perinteisessä tunneanalyysissä seuraava teksti voidaan luokitella "neutraaliksi":

Vierailumme hotellissa oli mukavaa. Henkilökunta oli ystävällistä ja huoneet olivat siistejä, mutta sänkymme olivat melko epämukavia.

Aspektihin perustuva tunneanalyysi tarjoaa monipuolisemman sisällön ymmärtämisen. Booking.comin tapauksessa sen sijaan, että otettaisiin asiakasarvostelu kokonaisuutena ja luokiteltaisiin se kategorisesti, se voi ottaa mielipiteitä arvostelun sisältä ja liittää sen tiettyihin näkökohtiin. Esimerkiksi asiakasarvostelut tietystä hotellista saattavat ylistää moitteetonta uima-allasta ja kuntosalia, mutta antaa kriittistä palautetta ravintolasta ja loungesta.

Lauseesta, joka perinteisessä tunneanalyysissä olisi luokiteltu "neutraaliksi", tulee aspektipohjaisella mielipideanalyysillä:

Vierailumme hotellissa oli mukavaa. Henkilökunta oli ystävällistä ja huoneet olivat siistejä, mutta sänkymme olivat melko epämukavia.

Hotelli: Positiivinen
Henkilökunta: Positiivinen
Huone: Positiivinen
Sängyt: Negatiivinen

Booking.com pyrki rakentamaan mukautetun näkökohtaan perustuvan mielipideanalyysimallin, joka kertoisi heille, mitkä tietyt vieraskokemuksen osat (yli 50 näkökohdan luettelosta) olivat positiivinen, negatiivinentai neutraali.

Ennen kuin Booking.com pystyi rakentamaan harjoitustietojoukon tälle mallille, he tarvitsivat tavan merkitä se. MLSL:n merkintätyökalu tarjosi kaivattua mukautettua ratkaisua. Ihmisten arviointi suoritettiin suurelle hotelliarvostelukokoelmalle. Tämän jälkeen annotaattorit täydensivät nimettyjen entiteettien kommentteja tunteiden ja vieraiden kokemuksien tekstijaksoista ja lauseista ennen kuin linkittivät sopivat jaksot yhteen.

Uuden näkökohtapohjaisen mallin avulla Booking.com voi personoida sekä majoitusta että arvosteluja asiakkailleen. Kunkin majoituksen positiivisten ja kielteisten puolien korostaminen antaa asiakkaille mahdollisuuden valita itselleen sopivan vaihtoehdon. Lisäksi eri asiakkaat välittävät majoituksen eri puolista, ja uusi malli avaa mahdollisuuden näyttää kullekin oleellisimmat arvostelut.

Pakkausmerkintöjä koskevat vaatimukset

Vaikka Ground Truth tarjoaa sisäänrakennetun NER-tekstimerkintäominaisuuden, se ei tarjoa mahdollisuutta linkittää entiteettejä toisiinsa. Tätä silmällä pitäen Booking.com ja MLSL kehittivät seuraavat korkean tason vaatimukset uudelle nimetyn kokonaisuuden tunnistustekstin merkintätyökalulle, joka:

Hyväksyy syötteeksi: teksti, kokonaisuuden tunnisteet, suhteen etiketitja luokitusmerkinnät.
Hyväksyy valinnaisesti syötteenä valmiiksi merkityt tiedot edeltävällä tunnisteella ja suhdemerkinnöillä.
Esittää annotaattorin joko kommentoimattomana tai valmiiksi merkityllä tekstillä.
Mahdollistaa annotaattorien korostaa ja merkitä mielivaltaista tekstiä entiteettitunnisteella.
Antaa annotaattorit luoda suhteita kahden entiteettimerkinnän välille.
Mahdollistaa annotaattorien helposti selata suuria määriä entiteettitunnisteita.
Tukee kokonaisuuksien tunnisteiden ryhmittelyä luokkiin.
Salli päällekkäiset suhteet, mikä tarkoittaa, että sama huomautettu tekstisegmentti voi liittyä useampaan kuin yhteen muuhun huomautettuun tekstisegmenttiin.
Sallii päällekkäiset entiteettitunnisteen merkinnät, mikä tarkoittaa, että kaksi merkintää voi olla päällekkäin saman tekstiosan. Esimerkiksi tekstissä "Seattle Space Needle" voi olla sekä merkinnät "Seattle" → "paikat" että "Seattle Space Needle" → "nähtävyydet".
Tulostusmuoto on yhteensopiva syöttömuodon kanssa, ja se voidaan syöttää takaisin seuraaviin merkintätehtäviin.
Tukee UTF-8-koodattua tekstiä, joka sisältää emojia ja muita monitavuisia merkkejä.
Tukee vasemmalta oikealle kirjoitettuja kieliä.

Esimerkki Annotaatiosta

Harkitse seuraavaa asiakirjaa:

Rakastimme tämän hotellin sijaintia! Kattolounge antoi meille täydellisen näkymän avaruusneulaan. Se on myös lyhyen ajomatkan päässä haukipaikalta ja rantapaikalta.
Ruokaa oli saatavilla vain huonepalvelun kautta, mikä oli pieni pettymys, mutta järkevää tässä pandemian jälkeisessä maailmassa.
Kaiken kaikkiaan kohtuuhintainen kokemus.

Tämän asiakirjan lataaminen uuteen NER-merkintään tuo työntekijälle seuraavan käyttöliittymän:

Työntekijälle esitettiin huomautukseton asiakirja

Tässä tapauksessa työntekijän tehtävänä on:

Merkitse kiinteistöön liittyvät kokonaisuudet (sijainti, hinta, ruoka jne.)
Tunnustele tunteeseen liittyvät entiteetit (positiivinen, negatiivinen tai neutraali)
Linkitä kiinteistöihin liittyvät nimetyt entiteetit tunteisiin liittyviin avainsanoihin taltioidaksesi vierailijakokemuksen tarkasti

Työntekijä suorittaa huomautuksia

Merkintöjen nopeus oli tärkeä seikka työkalussa. Intuitiivisten pikanäppäinten ja hiiren eleiden avulla annotaattorit voivat ohjata käyttöliittymää ja:

Lisää ja poista nimettyjen entiteettien merkintöjä
Lisää suhteita nimettyjen entiteettien välille
Siirry asiakirjan alkuun ja loppuun
Lähetä asiakirja

Lisäksi on olemassa tuki päällekkäisille tarroille. Esimerkiksi, Seattle Space Needle: tässä lauseessa, Seattle on merkitty sekä sijaintina itsessään että osana vetovoiman nimeä.

Valmis huomautus tarjoaa täydellisemmän, vivahteikkaamman analyysin tiedoista:

Valmis asiakirja

Suhteita voidaan konfiguroida useilla tasoilla entiteettiluokista muihin entiteettiluokkiin (esimerkiksi "ruoasta" "sentimenttiin") tai yksittäisten entiteettityyppien välillä. Suhteet ovat suunnattuja, joten annotaattorit voivat linkittää näkökohdan, kuten ruoan, tunteeseen, mutta eivät päinvastoin (ellei se ole erikseen otettu käyttöön). Kun piirrät suhteita, merkintätyökalu päättelee automaattisesti suhteen tunnisteen ja suunnan.

NER-merkintätyökalun määrittäminen

Tässä osiossa käsittelemme NER-merkintätyökalun mukauttamista asiakaskohtaisiin käyttötapauksiin. Tämä sisältää konfiguroinnin:

Syötettävä teksti, johon merkitään
Kokonaisuuden tunnisteet
Suhdetarrat
Luokittelutarrat
Esimerkityt tiedot
Työntekijän ohjeet

Käsittelemme syöttö- ja tulostusasiakirjamuotojen erityispiirteet sekä annamme esimerkkejä kustakin.

Syötä asiakirjan muoto

NER-merkintätyökalu odottaa seuraavan JSON-muotoisen syöttöasiakirjan (kentät, joissa on kysymysmerkki nimen vieressä, ovat valinnaisia).

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; classificationLabels?: string[]; relationshipLabels?: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; entityAnnotations?: { id: string; start: number; end: number; text: string; label: string; labelCategory?: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta?: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; };
}

Lyhyesti sanottuna syöttömuodolla on seuraavat ominaisuudet:

Myöskään entityLabels or classificationLabels (tai molemmat) on tehtävä huomautuksia.
If entityLabels annetaan sitten relationshipLabels voidaan lisätä.
Suhteet voidaan sallia eri entiteetti-/luokkatunnisteiden tai näiden yhdistelmän välillä.
Suhteen "lähde" on entiteetti, jolla suunnattu nuoli alkaa, kun taas "kohde" on minne se suuntaa.

Kenttä	Tyyppi	Kuvaus
teksti	jono	Edellytetään. Syötä teksti huomautusta varten.
tokenRows	merkkijono[][]	Valinnainen. Mukautettu syöttötekstin tokenointi. Joukko merkkijonoja. Ylimmän tason taulukko edustaa jokaista tekstiriviä (rivinvaihdot), ja toisen tason taulukko edustaa kunkin rivin tunnuksia. Kaikki syötetyn tekstin merkit/riimut on otettava huomioon tokenRowsissa, mukaan lukien mahdolliset välilyönnit.
asiakirjatunnus	jono	Valinnainen. Valinnainen arvo asiakkaille, jotta he voivat seurata asiakirjaa, johon merkitään.
entityLabels	esine[]	Pakollinen, jos classificationLabels on tyhjä. Joukko entiteettien tunnisteita.
entityLabels[].name	jono	Edellytetään. Entiteettitunnisteen näyttönimi.
entityLabels[].category	jono	Valinnainen. Entiteettitunnisteluokan nimi.
entityLabels[].shortName	jono	Valinnainen. Näytä tämä teksti merkityillä kokonaisuuksilla koko nimen sijaan.
entityLabels[].shortCategory	jono	Valinnainen. Näytä tämä teksti entiteetin huomautuksen valintaluettelossa luokan nimen neljän ensimmäisen kirjaimen sijaan.
entityLabels.color	jono	Valinnainen. Hex-värikoodi "#"-etuliitteellä. Jos se on tyhjä, se määrittää automaattisesti värin entiteettitunnisteelle.
suhdeLabels	esine[]	Valinnainen. Joukko suhdetarroja.
suhdeLabels[].nimi	jono	Edellytetään. Suhdetunnisteen näyttönimi.
relationLabels[].allowedRelationships	esine[]	Valinnainen. Joukko arvoja, jotka rajoittavat sitä, minkä tyyppisille lähde- ja kohdeentiteetin tunnisteille tämä suhde voidaan määrittää. Jokainen taulukon kohde on "TAI" yhdistetty.
relationLabels[].allowedRelationships[].sourceEntityLabelCategories	merkkijono[]	Pakollinen asettamaan joko sourceEntityLabelCategories tai sourceEntityLabels (tai molemmat). Luettelo tämän suhteen oikeuslähteen tunnisteluokkatyypeistä.
relationLabels[].allowedRelationships[].targetEntityLabelCategories	merkkijono[]	Pakollinen asettamaan joko targetEntityLabelCategories tai targetEntityLabels (tai molemmat). Luettelo tämän suhteen juridisista kohdekokonaisuuksien tunnisteluokkatyypeistä.
relationLabels[].allowedRelationships[].sourceEntityLabels	merkkijono[]	Pakollinen asettamaan joko sourceEntityLabelCategories tai sourceEntityLabels (tai molemmat). Luettelo tämän suhteen juridisista lähdekokonaisuuksien tunnistetyypeistä.
relationLabels[].allowedRelationships[].sourceEntityLabels	merkkijono[]	Pakollinen asettamaan joko targetEntityLabelCategories tai targetEntityLabels (tai molemmat). Luettelo tämän suhteen juridisista kohdekokonaisuuksien tunnistetyypeistä.
luokitusEtiketit	merkkijono[]	Pakollinen, jos entityLabels on tyhjä. Luettelo asiakirjatason luokitustarroista.
entityAnnotations	esine[]	Valinnainen. Joukko entiteettimerkintöjä syöttötekstin esimerkintään.
entityAnnotations[].id	jono	Edellytetään. Tämän entiteettimerkinnän yksilöllinen tunniste. Käytetään viittaamaan tähän entiteettiin suhteessa Annotations.
entityAnnotations[].start	numero	Edellytetään. Aloita tämän entiteettimerkinnän riimupoikkeama.
entityAnnotations[].end	numero	Edellytetään. Tämän entiteettimerkinnän runon offset.
entityAnnotations[].text	jono	Edellytetään. Tekstisisältö alku- ja loppuriimupoikkeaman välillä.
entityAnnotations[].label	jono	Edellytetään. Liittyvän entiteetin tunnisteen nimi (entityLabelsin nimistä).
entityAnnotations[].labelCategory	jono	Valinnainen.Associated entity label -luokka (entityLabels-luokista).
suhdeAnnotations	esine[]	Valinnainen. Joukko suhdemerkintöjä.
relationAnnotations[].sourceEntityAnnotationId	jono	Edellytetään. Tämän suhteen lähdeentiteetin merkinnän tunnus.
relationAnnotations[].targetEntityAnnotationId	jono	Edellytetään. Kohdekokonaisuuden merkintätunnus tälle suhteelle.
suhdeAnnotations[].label	jono	Edellytetään. Liittyy suhdetunnisteen nimi.
luokitteluAnnotations	merkkijono[]	Valinnainen. Joukko luokituksia asiakirjan esihuomautukseen.
meta	objekti	Valinnainen. Lisäkonfiguraatioparametrit.
meta.ohjeet	jono	Valinnainen. Merkintämerkinnän ohjeet Markdown-muodossa.
meta.disableSubmitConfirmation	boolean	Valinnainen. Aseta arvoksi tosi, jos haluat poistaa lähetysvahvistusmodaalin käytöstä.
meta.multiClassification	boolean	Valinnainen. Aseta arvoksi tosi ottaaksesi usean tunnisteen tilan käyttöön luokitusLabelsissa.

Tässä on muutama esimerkkiasiakirja, jotta saat paremman käsityksen tästä syöttömuodosta

Tätä mallia noudattavat asiakirjat toimitetaan Ground Truthille yksittäisinä rivikohtina syöttöluettelossa.

Tulostusasiakirjan muoto

Tulostusmuoto on suunniteltu antamaan palautetta helposti uuteen merkintätehtävään. Tulostositteen valinnaiset kentät asetetaan, jos ne on asetettu myös syöttöasiakirjassa. Ainoa ero tulo- ja tulostusmuotojen välillä on meta esine.

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; relationshipLabels: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; classificationLabels?: string[]; entityAnnotations?: { id: string; start: number; end: number; text: string; labelCategory?: string; label: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; runes: string[]; rejected: boolean; rejectedReason: string; }
}

Kenttä	Tyyppi	Kuvaus
meta.hylätty	boolean	Arvo on tosi, jos annotaattori hylkäsi tämän asiakirjan.
meta.rejectedReason	jono	Annotaattorin syy asiakirjan hylkäämiseen.
meta.runes	merkkijono[]	Joukko riimuja, jotka kattavat kaikki syöttötekstin merkit. Käytetään entiteetin merkinnän alku- ja loppusiirtymien laskemiseen.

Tässä on esimerkkitulostusasiakirja, johon on merkitty huomautukset:

Runes huomautus:

"Riimu" on tässä yhteydessä yksittäinen korostettava merkki tekstissä, mukaan lukien monitavuiset merkit, kuten emoji.

Koska eri ohjelmointikielet edustavat monitavuisia merkkejä eri tavalla, "Riimut"-toiminnon käyttäminen jokaisen korostettavan merkin määrittelemiseen yhdeksi atomielementiksi tarkoittaa, että meillä on yksiselitteinen tapa kuvata mitä tahansa tekstivalintaa.
Esimerkiksi Python käsittelee Ruotsin lippua neljänä merkkinä:

Mutta JavaScript käsittelee samaa emojia kahtena hahmona

Epäselvyyden poistamiseksi käsittelemme Ruotsin lippua (ja kaikkia muita emoji- ja monitavuisia merkkejä) yhtenä atomielementtinä.

Offset: riimun sijainti suhteessa syöttötekstiin (alkaen indeksistä 0)

NER-merkintöjen tekeminen Ground Truthilla

Täysin hallittavana datamerkintäpalveluna Ground Truth rakentaa koulutustietojoukkoja ML:lle. Tässä käyttötapauksessa käytämme Ground Truthia tekstiasiakirjojen kokoelman lähettämiseen työntekijöiden joukolle huomautuksia varten. Lopuksi tarkistamme laadun.

Ground Truth voidaan määrittää rakentamaan tietojen merkintätyö käyttämällä uutta NER-työkalua mukautettuna mallina.

Erityisesti teemme:

Luo työntekijöistä yksityinen merkintätyövoima suorittamaan merkintätehtävän
Luo Ground Truth -syötteen luettelo asiakirjoista, jotka haluamme merkitä, ja lataa se sitten Amazonin yksinkertainen tallennuspalvelu (Amazon S3)
Luo esimerkintätehtävä ja jälkimerkintätehtävä Lambda-funktiot
Luo Ground Truth -merkintätyö mukautetun NER-mallin avulla
Merkitse asiakirjoja
Tarkastele tuloksia

NER-työkalun resurssit

Täydellinen luettelo viitatuista resursseista ja esimerkkiasiakirjoista löytyy seuraavasta kaaviosta:

Työvoiman luomisen merkintä

Ground Truth käyttää SageMaker-merkintätyövoimaa työntekijöiden hallintaan ja tehtävien jakamiseen. Luo yksityinen työvoima, työntekijätiimi nimeltä ner-worker-team, ja liitä itsesi tiimiin kohdassa olevien ohjeiden mukaisesti. Luo yksityinen työvoima (Amazon SageMaker Console).

Kun olet lisännyt itsesi yksityiseen työvoimaan ja vahvistanut sähköpostiosoitteesi, merkitse työntekijäportaalin URL-osoite AWS-hallintakonsolista:

Navigoida johonkin SageMaker
Navigoida johonkin Ground Truth → Labeling workforces
Valitse Private kieleke
Huomaa URL-osoite Labeling portal sign-in URL

Kirjaudu sisään työntekijäportaaliin nähdäksesi ja aloittaaksesi merkintätehtävät.

Syöttöluettelo

Ground Truth -syötetietojen luettelo on JSON-lines-tiedosto, jossa jokainen rivi sisältää yhden työntekijän tehtävän. Meidän tapauksessamme jokainen rivi sisältää yhden JSON-koodatun syöttöasiakirjan, joka sisältää tekstin, jonka haluamme merkitä, ja NER-merkintäskeeman.

Lataa esimerkkisyöttöluettelo reviews.manifest alkaen https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest

Huomautuksia: jokainen syöttöluettelon rivi tarvitsee ylätason avaimen source or source-ref. Voit oppia lisää osoitteessa Käytä syöttöluettelotiedostoa Amazon SageMaker -kehittäjäoppaassa.

Lataa Input Manifest Amazon S3:een

Lataa tämä syöttöluettelo S3-säilöön AWS-hallintakonsolin avulla tai komentoriviltä ja korvaa siten your-bucket todellisella kauhan nimellä.

aws s3 cp reviews.manifest s3://your-bucket/ner-input/reviews.manifest

Lataa mukautettu työntekijämalli

Lataa NER-työkalun mukautettu työntekijämalli osoitteesta https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html tarkastelemalla lähdettä ja tallentamalla sisältö paikallisesti tai komentoriviltä:

wget https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html

Luo esimerkintätehtävä ja jälkimerkintätehtävä Lambda-funktiot

Lataa esimerkintätehtävän esimerkki Lambda-funktiosta: smgt-ner-pre-labeling-task-lambda.py alkaen https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py

Lataa esimerkintätehtävän esimerkki Lambda-funktiosta: smgt-ner-post-labeling-task-lambda.py alkaen https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py

Luo esimerkintätehtävän Lambda-toiminto AWS-hallintakonsolista:
- Navigoida johonkin Lambda
- valita Create function
- Eritellä Function name as smgt-ner-pre-labeling-task-lambda
- valita Runtime → Python 3.6
- valita Create function
- In Function code → lambda_hanadler.py, liitä sisältö smgt-ner-pre-labeling-task-lambda.py
- valita Deploy
Luo merkinnän jälkeinen Lambda-toiminto AWS-hallintakonsolista:
- Navigoida johonkin Lambda
- valita Create function
- Eritellä Function name as smgt-ner-post-labeling-task-lambda
- valita Runtime → Python 3.6
- Laajentaa Change default execution role
- valita Create a new role from AWS policy templates
- Anna Role name: smgt-ner-post-labeling-task-lambda-role
- valita Create function
- Valitse Permissions kieleke
- Valitse Role name: smgt-ner-post-labeling-task-lambda-role avataksesi IAM-konsolin
- Lisää rooliin kaksi käytäntöä
  - valita Attach policies
  - Kiinnitä AmazonS3FullAccess politiikka
  - valita Add inline policy
  - Valitse JSON kieleke
  - Liitä seuraava upotettu käytäntö:
```
{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/AmazonSageMaker-ExecutionRole-*" }
}
```
- Navigoi takaisin kohtaan smgt-ner-post-labeling-task-lambda Lambdatoimintojen konfigurointisivu
- Valitse Configuration kieleke
- In Function code → lambda_hanadler.py, liitä sisältö smgt-ner-post-labeling-task-lambda.py
- valita Deploy

Luo Ground Truth -merkintätyö

AWS-hallintakonsolista:

Siirry Amazon SageMaker palvelu
Navigoida johonkin Ground Truth → Labeling Jobs.
valita Create labeling job
Määritä a Job Name
valita Manual Data Setup
Määritä syöttötietojoukon sijainti, johon latasit syöttöluettelon aiemmin (esim3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl)
Määritä lähtötietojoukon sijainti osoittamaan eri kansioon samassa ryhmässä (esim. s3://your-bucket/ner-output/)
Määritä IAM Role valitsemalla Create new role
- Salli tämän roolin käyttää mitä tahansa S3-säilöä valitsemalla S3 buckets you specify → Any S3 bucket politiikkaa luotaessa
- Avaa uudessa AWS Management Console -ikkunassa IAM konsoli ja valitse Roles
- Hae juuri luomasi roolin nimeä (esim. AmazonSageMaker-ExecutionRole-20210301T154158)
- Valitse roolin nimi avataksesi roolin konsolissa
- Liitä seuraavat kolme käytäntöä:
  - Valitse Liitä käytännöt
  - Kiinnitä AWSLambda_FullAccess rooliin
  - valita Trust Relationships → Edit Trust Relationships
  - Muokkaa luottamussuhdetta JSON,
  - korvata YOUR_ACCOUNT_NUMBER numeerisella AWS-tilinumerollasi luettavaksi:
```
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": "sts:AssumeRole" }, { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/smgt-ner-post-labeling-task-lambda-role" }, "Action": "sts:AssumeRole" } ]
}
```
  - Säästä luottamussuhde
Palaa uuteen Ground Truth -työhön edellisessä AWS-hallintakonsoliikkunassa: alla Task Categoryvalitse Custom
valita Next
valita Worker types: Private
Valitse Private team : ner-worker-team joka luotiin edellisessä osiossa
In Custom labeling task setup tekstialue, tyhjennä oletussisältö ja liitä sen sisältöön worker-template.liquid.html aiemmin hankittu tiedosto
Määritä Pre-labeling task Lambda function aiemmin luodulla funktiolla: smgt-ner-pre-labeling
Määritä Post-labeling task Lambda function aiemmin luodulla funktiolla: smgt-ner-post-labeling
valita Create

Merkitse asiakirjoja

Kun Ground Truth -työ on luotu, voimme aloittaa asiakirjojen merkitsemisen. Avaa aiemmin luotu työntekijäportaali työntekijöillemme (Siirry AWS-hallintakonsolissa kohtaan SageMaker , Ground Truth → Labeling workforces, Privateja avaa Labeling portal sign-in URL )

Kirjaudu sisään ja valitse ensimmäinen merkintätehtävä taulukosta ja avaa merkintä valitsemalla "Aloita työskentely". Tee huomautukset ja valitse Lähetä kaikissa kolmessa esimerkkiasiakirjassa.

Tarkastele tuloksia

Kun Ground Truth -annotaattorit suorittavat tehtäviä, tulokset ovat saatavilla S3-lähtökentässä:

s3://your-bucket/path-to-your-ner-job/annotations/worker-response/iteration-1/0/

Kun kaikki merkintätyön tehtävät on suoritettu, yhdistetty tulos on saatavilla hakemistossa output.manifest tiedosto sijaitsee täällä:

s3://your-bucket/path-to-your-ner-job/manifests/output/output.manifest

Tämä tulosluettelo on JSON-rivien tiedosto, jossa on yksi huomautettu tekstiasiakirja riviä kohden aiemmin määritetyssä "Output Document Format" -muodossa. Tämä tiedosto on yhteensopiva "Input Document Format" -tiedoston kanssa, ja se voidaan syöttää suoraan seuraavaan Ground Truth -työhön toista huomautuskierrosta varten. Vaihtoehtoisesti se voidaan jäsentää ja lähettää ML-harjoittelutyöhön. Joitakin skenaarioita, joissa saatamme käyttää toista merkintäkierrosta, ovat:

Merkintäprosessin jakaminen kahteen vaiheeseen, jossa ensimmäinen annotaattori tunnistaa entiteettimerkinnät ja toinen annotaattori piirtää suhteita
Otetaan näyte meistä output.manifest ja sen lähettäminen toiselle, kokeneemmalle kirjoittajalle tarkistettavaksi laadunvalvontatarkistuksena

Mukautetut Ground Truth -merkintämallit

Tässä asiakirjassa kuvattu NER-merkintätyökalu on toteutettu mukautettuna Ground Truth -merkintämallina. AWS-asiakkaat voivat rakentaa omia mukautettuja merkintärajapintojaan käyttämällä täältä löytyviä ohjeita:

Yhteenveto

Yhdessä tekemällä Booking.com ja Amazon MLSL pystyivät kehittämään tehokkaan tekstimerkintätyökalun, joka pystyy luomaan monimutkaisia nimettyjen entiteettien tunnistus- ja suhdemerkintöjä.

Kannustamme AWS-asiakkaita, joilla on NER-tekstimerkintöjen käyttötapaus, kokeilemaan tässä viestissä kuvattua työkalua. Jos haluat apua ML:n käytön nopeuttamiseen tuotteissasi ja palveluissasi, ota yhteyttä Amazon Machine Learning Solutions Lab.

Tietoja Tekijät

Dan Noble on Amazonin ohjelmistokehitysinsinööri, jossa hän auttaa luomaan ilahduttavia käyttökokemuksia. Vapaa-ajallaan hän nauttii lukemisesta, kuntoilusta ja seikkailuista perheensä kanssa.

Pri Nonis on Deep Learning Arkkitehti Amazon ML Solutions Labissa, jossa hän työskentelee asiakkaiden kanssa eri toimialoilla ja auttaa heitä nopeuttamaan pilvisiirtomatkaansa ja ratkaisemaan ML-ongelmiaan uusimpien ratkaisujen ja tekniikoiden avulla.

Niharika Jayanthi on Front End Engineer AWS:ssä, jossa hän kehittää mukautettuja merkintäratkaisuja Amazon SageMaker -asiakkaille. Työn ulkopuolella hän käy mielellään museoissa ja treenaa.

Amit Beka on koneoppimispäällikkö yrityksessä Booking.com, jolla on yli 15 vuoden kokemus ohjelmistokehityksestä ja koneoppimisesta. Häntä kiehtovat ihmiset ja kielet, ja kuinka tietokoneet ovat edelleen ymmällään molemmista.

Lähde: https://aws.amazon.com/blogs/machine-learning/labeling-text-for-aspect-based-sentiment-analysis-using-sagemaker-ground-truth/

Aikaleima: Tammikuu 14, 2022

Aikaleima: Huhtikuu 29, 2021

Eräkuvien käsittely Amazon Rekognition Custom Labels -sovelluksella

Lähde klusteri:

AWS-koneoppimisblogi

Lähdesolmu: 1204425

Aikaleima: Mar 10, 2021

Suorita eräpetosennusteet Amazon Fraud Detectorilla kirjoittamatta koodia tai integroimalla sovellusliittymää

Lähde klusteri:

AWS-koneoppimisblogi

Lähdesolmu: 841531

Aikaleima: Voi 6, 2021

Tunnista urheilun kohokohdat automaattisesti videolta Amazon SageMakerin avulla

Lähde klusteri:

AWS-koneoppimisblogi

Lähdesolmu: 1504256

Aikaleima: Marraskuu 12, 2021

Käynnistä käsittelytyöt muutamalla napsautuksella Amazon SageMaker Data Wrangler -sovelluksella

Lähde klusteri:

AWS-koneoppimisblogi

Lähdesolmu: 1600104

Aikaleima: Helmikuu 2, 2022

AWS DeepRacer -laiteohjelmisto on nyt avoimen lähdekoodin

Lähde klusteri:

AWS-koneoppimisblogi

Lähdesolmu: 833946

Aikaleima: Huhtikuu 27, 2021

Merkitse teksti aspektipohjaista tunneanalyysiä varten SageMaker Ground Truthin avulla

Julkaissut Platon

Asiakkaan käyttötapaus: Booking.com

Pakkausmerkintöjä koskevat vaatimukset

Esimerkki Annotaatiosta

NER-merkintätyökalun määrittäminen

Syötä asiakirjan muoto

Tulostusasiakirjan muoto

Runes huomautus:

NER-merkintöjen tekeminen Ground Truthilla

NER-työkalun resurssit

Työvoiman luomisen merkintä

Syöttöluettelo

Lataa Input Manifest Amazon S3:een

Lataa mukautettu työntekijämalli

Luo esimerkintätehtävä ja jälkimerkintätehtävä Lambda-funktiot

Luo Ground Truth -merkintätyö

Merkitse asiakirjoja

Tarkastele tuloksia

Mukautetut Ground Truth -merkintämallit

Yhteenveto

Tietoja Tekijät

Lisää aiheesta AWS-koneoppimisblogi

Kuinka lähestyä keskustelusuunnittelua Amazon Lexin kanssa: rakentaminen ja testaus (osa 3)

Tarjoa räätälöityjä asiakastukikokemuksia Amazon Connectin, Amazon Lexin ja Salesforcen kanssa

Määritä Amazon Forecast usean vuokralaisen SaaS-sovellukselle

Merkitse tiheän pisteen pilvitiedot SageMaker Ground Truth -sovelluksella

Eräkuvien käsittely Amazon Rekognition Custom Labels -sovelluksella

Suorita eräpetosennusteet Amazon Fraud Detectorilla kirjoittamatta koodia tai integroimalla sovellusliittymää

Tunnista urheilun kohokohdat automaattisesti videolta Amazon SageMakerin avulla

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili