Amazon Machine Learning Solutions Lab (MLSL) loi äskettäin työkalun tekstin merkitsemiseen nimettyjen entiteettien tunnistuksen (NER) ja suhdetunnisteiden avulla. Amazon SageMaker Ground Totuus. Annotaattorit käyttävät tätä työkalua nimeämään tekstiä nimetyillä entiteeteillä ja linkittämään niiden suhteita ja rakentamaan näin tietojoukon uusimpien NLP-koneoppimismallien opettamiseen. Mikä tärkeintä, tämä on nyt julkisesti kaikkien AWS-asiakkaiden saatavilla.
Asiakkaan käyttötapaus: Booking.com
Booking.com on yksi maailman johtavista online-matkailualustoista. Ymmärtää, mitä asiakkaat sanovat yrityksen yli 28 miljoonasta kiinteistöluettelosta alustalla, on välttämätöntä huippuluokan asiakaskokemuksen ylläpitämiseksi. Aikaisemmin Booking.com saattoi käyttää vain perinteistä mielipideanalyysiä asiakkaiden luomien arvostelujen laajamittaiseen tulkintaan. Booking.com pyrki äskettäin parantamaan näiden tulkintojen tarkkuutta ja pyysi MLSL:ltä apua räätälöidyn annotoidun tietojoukon luomisessa aspektipohjaisen tunneanalyysimallin kouluttamiseksi.
Perinteinen tunneanalyysi on prosessi, jossa teksti luokitellaan positiiviseksi, negatiiviseksi tai neutraaliksi ainutlaatuinen tunne. Tämä auttaa ymmärtämään laajasti, ovatko käyttäjät tyytyväisiä vai tyytymättömiä tiettyyn kokemukseen. Esimerkiksi perinteisessä tunneanalyysissä seuraava teksti voidaan luokitella "neutraaliksi":
Vierailumme hotellissa oli mukavaa. Henkilökunta oli ystävällistä ja huoneet olivat siistejä, mutta sänkymme olivat melko epämukavia.
Aspektihin perustuva tunneanalyysi tarjoaa monipuolisemman sisällön ymmärtämisen. Booking.comin tapauksessa sen sijaan, että otettaisiin asiakasarvostelu kokonaisuutena ja luokiteltaisiin se kategorisesti, se voi ottaa mielipiteitä arvostelun sisältä ja liittää sen tiettyihin näkökohtiin. Esimerkiksi asiakasarvostelut tietystä hotellista saattavat ylistää moitteetonta uima-allasta ja kuntosalia, mutta antaa kriittistä palautetta ravintolasta ja loungesta.
Lauseesta, joka perinteisessä tunneanalyysissä olisi luokiteltu "neutraaliksi", tulee aspektipohjaisella mielipideanalyysillä:
Vierailumme hotellissa oli mukavaa. Henkilökunta oli ystävällistä ja huoneet olivat siistejä, mutta sänkymme olivat melko epämukavia.
- Hotelli: Positiivinen
- Henkilökunta: Positiivinen
- Huone: Positiivinen
- Sängyt: Negatiivinen
Booking.com pyrki rakentamaan mukautetun näkökohtaan perustuvan mielipideanalyysimallin, joka kertoisi heille, mitkä tietyt vieraskokemuksen osat (yli 50 näkökohdan luettelosta) olivat positiivinen, negatiivinentai neutraali.
Ennen kuin Booking.com pystyi rakentamaan harjoitustietojoukon tälle mallille, he tarvitsivat tavan merkitä se. MLSL:n merkintätyökalu tarjosi kaivattua mukautettua ratkaisua. Ihmisten arviointi suoritettiin suurelle hotelliarvostelukokoelmalle. Tämän jälkeen annotaattorit täydensivät nimettyjen entiteettien kommentteja tunteiden ja vieraiden kokemuksien tekstijaksoista ja lauseista ennen kuin linkittivät sopivat jaksot yhteen.
Uuden näkökohtapohjaisen mallin avulla Booking.com voi personoida sekä majoitusta että arvosteluja asiakkailleen. Kunkin majoituksen positiivisten ja kielteisten puolien korostaminen antaa asiakkaille mahdollisuuden valita itselleen sopivan vaihtoehdon. Lisäksi eri asiakkaat välittävät majoituksen eri puolista, ja uusi malli avaa mahdollisuuden näyttää kullekin oleellisimmat arvostelut.
Pakkausmerkintöjä koskevat vaatimukset
Vaikka Ground Truth tarjoaa sisäänrakennetun NER-tekstimerkintäominaisuuden, se ei tarjoa mahdollisuutta linkittää entiteettejä toisiinsa. Tätä silmällä pitäen Booking.com ja MLSL kehittivät seuraavat korkean tason vaatimukset uudelle nimetyn kokonaisuuden tunnistustekstin merkintätyökalulle, joka:
- Hyväksyy syötteeksi: teksti, kokonaisuuden tunnisteet, suhteen etiketitja luokitusmerkinnät.
- Hyväksyy valinnaisesti syötteenä valmiiksi merkityt tiedot edeltävällä tunnisteella ja suhdemerkinnöillä.
- Esittää annotaattorin joko kommentoimattomana tai valmiiksi merkityllä tekstillä.
- Mahdollistaa annotaattorien korostaa ja merkitä mielivaltaista tekstiä entiteettitunnisteella.
- Antaa annotaattorit luoda suhteita kahden entiteettimerkinnän välille.
- Mahdollistaa annotaattorien helposti selata suuria määriä entiteettitunnisteita.
- Tukee kokonaisuuksien tunnisteiden ryhmittelyä luokkiin.
- Salli päällekkäiset suhteet, mikä tarkoittaa, että sama huomautettu tekstisegmentti voi liittyä useampaan kuin yhteen muuhun huomautettuun tekstisegmenttiin.
- Sallii päällekkäiset entiteettitunnisteen merkinnät, mikä tarkoittaa, että kaksi merkintää voi olla päällekkäin saman tekstiosan. Esimerkiksi tekstissä "Seattle Space Needle" voi olla sekä merkinnät "Seattle" → "paikat" että "Seattle Space Needle" → "nähtävyydet".
- Tulostusmuoto on yhteensopiva syöttömuodon kanssa, ja se voidaan syöttää takaisin seuraaviin merkintätehtäviin.
- Tukee UTF-8-koodattua tekstiä, joka sisältää emojia ja muita monitavuisia merkkejä.
- Tukee vasemmalta oikealle kirjoitettuja kieliä.
Esimerkki Annotaatiosta
Harkitse seuraavaa asiakirjaa:
Rakastimme tämän hotellin sijaintia! Kattolounge antoi meille täydellisen näkymän avaruusneulaan. Se on myös lyhyen ajomatkan päässä haukipaikalta ja rantapaikalta.
Ruokaa oli saatavilla vain huonepalvelun kautta, mikä oli pieni pettymys, mutta järkevää tässä pandemian jälkeisessä maailmassa.
Kaiken kaikkiaan kohtuuhintainen kokemus.
Tämän asiakirjan lataaminen uuteen NER-merkintään tuo työntekijälle seuraavan käyttöliittymän:
Tässä tapauksessa työntekijän tehtävänä on:
- Merkitse kiinteistöön liittyvät kokonaisuudet (sijainti, hinta, ruoka jne.)
- Tunnustele tunteeseen liittyvät entiteetit (positiivinen, negatiivinen tai neutraali)
- Linkitä kiinteistöihin liittyvät nimetyt entiteetit tunteisiin liittyviin avainsanoihin taltioidaksesi vierailijakokemuksen tarkasti
Merkintöjen nopeus oli tärkeä seikka työkalussa. Intuitiivisten pikanäppäinten ja hiiren eleiden avulla annotaattorit voivat ohjata käyttöliittymää ja:
- Lisää ja poista nimettyjen entiteettien merkintöjä
- Lisää suhteita nimettyjen entiteettien välille
- Siirry asiakirjan alkuun ja loppuun
- Lähetä asiakirja
Lisäksi on olemassa tuki päällekkäisille tarroille. Esimerkiksi, Seattle Space Needle
: tässä lauseessa, Seattle
on merkitty sekä sijaintina itsessään että osana vetovoiman nimeä.
Valmis huomautus tarjoaa täydellisemmän, vivahteikkaamman analyysin tiedoista:
Suhteita voidaan konfiguroida useilla tasoilla entiteettiluokista muihin entiteettiluokkiin (esimerkiksi "ruoasta" "sentimenttiin") tai yksittäisten entiteettityyppien välillä. Suhteet ovat suunnattuja, joten annotaattorit voivat linkittää näkökohdan, kuten ruoan, tunteeseen, mutta eivät päinvastoin (ellei se ole erikseen otettu käyttöön). Kun piirrät suhteita, merkintätyökalu päättelee automaattisesti suhteen tunnisteen ja suunnan.
NER-merkintätyökalun määrittäminen
Tässä osiossa käsittelemme NER-merkintätyökalun mukauttamista asiakaskohtaisiin käyttötapauksiin. Tämä sisältää konfiguroinnin:
- Syötettävä teksti, johon merkitään
- Kokonaisuuden tunnisteet
- Suhdetarrat
- Luokittelutarrat
- Esimerkityt tiedot
- Työntekijän ohjeet
Käsittelemme syöttö- ja tulostusasiakirjamuotojen erityispiirteet sekä annamme esimerkkejä kustakin.
Syötä asiakirjan muoto
NER-merkintätyökalu odottaa seuraavan JSON-muotoisen syöttöasiakirjan (kentät, joissa on kysymysmerkki nimen vieressä, ovat valinnaisia).
Lyhyesti sanottuna syöttömuodolla on seuraavat ominaisuudet:
- Myöskään
entityLabels
orclassificationLabels
(tai molemmat) on tehtävä huomautuksia. - If
entityLabels
annetaan sittenrelationshipLabels
voidaan lisätä. - Suhteet voidaan sallia eri entiteetti-/luokkatunnisteiden tai näiden yhdistelmän välillä.
- Suhteen "lähde" on entiteetti, jolla suunnattu nuoli alkaa, kun taas "kohde" on minne se suuntaa.
Kenttä | Tyyppi | Kuvaus |
teksti | jono | Edellytetään. Syötä teksti huomautusta varten. |
tokenRows | merkkijono[][] | Valinnainen. Mukautettu syöttötekstin tokenointi. Joukko merkkijonoja. Ylimmän tason taulukko edustaa jokaista tekstiriviä (rivinvaihdot), ja toisen tason taulukko edustaa kunkin rivin tunnuksia. Kaikki syötetyn tekstin merkit/riimut on otettava huomioon tokenRowsissa, mukaan lukien mahdolliset välilyönnit. |
asiakirjatunnus | jono | Valinnainen. Valinnainen arvo asiakkaille, jotta he voivat seurata asiakirjaa, johon merkitään. |
entityLabels | esine[] | Pakollinen, jos classificationLabels on tyhjä. Joukko entiteettien tunnisteita. |
entityLabels[].name | jono | Edellytetään. Entiteettitunnisteen näyttönimi. |
entityLabels[].category | jono | Valinnainen. Entiteettitunnisteluokan nimi. |
entityLabels[].shortName | jono | Valinnainen. Näytä tämä teksti merkityillä kokonaisuuksilla koko nimen sijaan. |
entityLabels[].shortCategory | jono | Valinnainen. Näytä tämä teksti entiteetin huomautuksen valintaluettelossa luokan nimen neljän ensimmäisen kirjaimen sijaan. |
entityLabels.color | jono | Valinnainen. Hex-värikoodi "#"-etuliitteellä. Jos se on tyhjä, se määrittää automaattisesti värin entiteettitunnisteelle. |
suhdeLabels | esine[] | Valinnainen. Joukko suhdetarroja. |
suhdeLabels[].nimi | jono | Edellytetään. Suhdetunnisteen näyttönimi. |
relationLabels[].allowedRelationships | esine[] | Valinnainen. Joukko arvoja, jotka rajoittavat sitä, minkä tyyppisille lähde- ja kohdeentiteetin tunnisteille tämä suhde voidaan määrittää. Jokainen taulukon kohde on "TAI" yhdistetty. |
relationLabels[].allowedRelationships[].sourceEntityLabelCategories | merkkijono[] | Pakollinen asettamaan joko sourceEntityLabelCategories tai sourceEntityLabels (tai molemmat). Luettelo tämän suhteen oikeuslähteen tunnisteluokkatyypeistä. |
relationLabels[].allowedRelationships[].targetEntityLabelCategories | merkkijono[] | Pakollinen asettamaan joko targetEntityLabelCategories tai targetEntityLabels (tai molemmat). Luettelo tämän suhteen juridisista kohdekokonaisuuksien tunnisteluokkatyypeistä. |
relationLabels[].allowedRelationships[].sourceEntityLabels | merkkijono[] | Pakollinen asettamaan joko sourceEntityLabelCategories tai sourceEntityLabels (tai molemmat). Luettelo tämän suhteen juridisista lähdekokonaisuuksien tunnistetyypeistä. |
relationLabels[].allowedRelationships[].sourceEntityLabels | merkkijono[] | Pakollinen asettamaan joko targetEntityLabelCategories tai targetEntityLabels (tai molemmat). Luettelo tämän suhteen juridisista kohdekokonaisuuksien tunnistetyypeistä. |
luokitusEtiketit | merkkijono[] | Pakollinen, jos entityLabels on tyhjä. Luettelo asiakirjatason luokitustarroista. |
entityAnnotations | esine[] | Valinnainen. Joukko entiteettimerkintöjä syöttötekstin esimerkintään. |
entityAnnotations[].id | jono | Edellytetään. Tämän entiteettimerkinnän yksilöllinen tunniste. Käytetään viittaamaan tähän entiteettiin suhteessa Annotations. |
entityAnnotations[].start | numero | Edellytetään. Aloita tämän entiteettimerkinnän riimupoikkeama. |
entityAnnotations[].end | numero | Edellytetään. Tämän entiteettimerkinnän runon offset. |
entityAnnotations[].text | jono | Edellytetään. Tekstisisältö alku- ja loppuriimupoikkeaman välillä. |
entityAnnotations[].label | jono | Edellytetään. Liittyvän entiteetin tunnisteen nimi (entityLabelsin nimistä). |
entityAnnotations[].labelCategory | jono | Valinnainen.Associated entity label -luokka (entityLabels-luokista). |
suhdeAnnotations | esine[] | Valinnainen. Joukko suhdemerkintöjä. |
relationAnnotations[].sourceEntityAnnotationId | jono | Edellytetään. Tämän suhteen lähdeentiteetin merkinnän tunnus. |
relationAnnotations[].targetEntityAnnotationId | jono | Edellytetään. Kohdekokonaisuuden merkintätunnus tälle suhteelle. |
suhdeAnnotations[].label | jono | Edellytetään. Liittyy suhdetunnisteen nimi. |
luokitteluAnnotations | merkkijono[] | Valinnainen. Joukko luokituksia asiakirjan esihuomautukseen. |
meta | objekti | Valinnainen. Lisäkonfiguraatioparametrit. |
meta.ohjeet | jono | Valinnainen. Merkintämerkinnän ohjeet Markdown-muodossa. |
meta.disableSubmitConfirmation | boolean | Valinnainen. Aseta arvoksi tosi, jos haluat poistaa lähetysvahvistusmodaalin käytöstä. |
meta.multiClassification | boolean | Valinnainen. Aseta arvoksi tosi ottaaksesi usean tunnisteen tilan käyttöön luokitusLabelsissa. |
Tässä on muutama esimerkkiasiakirja, jotta saat paremman käsityksen tästä syöttömuodosta
Tätä mallia noudattavat asiakirjat toimitetaan Ground Truthille yksittäisinä rivikohtina syöttöluettelossa.
Tulostusasiakirjan muoto
Tulostusmuoto on suunniteltu antamaan palautetta helposti uuteen merkintätehtävään. Tulostositteen valinnaiset kentät asetetaan, jos ne on asetettu myös syöttöasiakirjassa. Ainoa ero tulo- ja tulostusmuotojen välillä on meta
esine.
Kenttä | Tyyppi | Kuvaus |
meta.hylätty | boolean | Arvo on tosi, jos annotaattori hylkäsi tämän asiakirjan. |
meta.rejectedReason | jono | Annotaattorin syy asiakirjan hylkäämiseen. |
meta.runes | merkkijono[] | Joukko riimuja, jotka kattavat kaikki syöttötekstin merkit. Käytetään entiteetin merkinnän alku- ja loppusiirtymien laskemiseen. |
Tässä on esimerkkitulostusasiakirja, johon on merkitty huomautukset:
Runes huomautus:
"Riimu" on tässä yhteydessä yksittäinen korostettava merkki tekstissä, mukaan lukien monitavuiset merkit, kuten emoji.
- Koska eri ohjelmointikielet edustavat monitavuisia merkkejä eri tavalla, "Riimut"-toiminnon käyttäminen jokaisen korostettavan merkin määrittelemiseen yhdeksi atomielementiksi tarkoittaa, että meillä on yksiselitteinen tapa kuvata mitä tahansa tekstivalintaa.
- Esimerkiksi Python käsittelee Ruotsin lippua neljänä merkkinä:
Mutta JavaScript käsittelee samaa emojia kahtena hahmona
Epäselvyyden poistamiseksi käsittelemme Ruotsin lippua (ja kaikkia muita emoji- ja monitavuisia merkkejä) yhtenä atomielementtinä.
- Offset: riimun sijainti suhteessa syöttötekstiin (alkaen indeksistä 0)
NER-merkintöjen tekeminen Ground Truthilla
Täysin hallittavana datamerkintäpalveluna Ground Truth rakentaa koulutustietojoukkoja ML:lle. Tässä käyttötapauksessa käytämme Ground Truthia tekstiasiakirjojen kokoelman lähettämiseen työntekijöiden joukolle huomautuksia varten. Lopuksi tarkistamme laadun.
Ground Truth voidaan määrittää rakentamaan tietojen merkintätyö käyttämällä uutta NER-työkalua mukautettuna mallina.
Erityisesti teemme:
- Luo työntekijöistä yksityinen merkintätyövoima suorittamaan merkintätehtävän
- Luo Ground Truth -syötteen luettelo asiakirjoista, jotka haluamme merkitä, ja lataa se sitten Amazonin yksinkertainen tallennuspalvelu (Amazon S3)
- Luo esimerkintätehtävä ja jälkimerkintätehtävä Lambda-funktiot
- Luo Ground Truth -merkintätyö mukautetun NER-mallin avulla
- Merkitse asiakirjoja
- Tarkastele tuloksia
NER-työkalun resurssit
Täydellinen luettelo viitatuista resursseista ja esimerkkiasiakirjoista löytyy seuraavasta kaaviosta:
Työvoiman luomisen merkintä
Ground Truth käyttää SageMaker-merkintätyövoimaa työntekijöiden hallintaan ja tehtävien jakamiseen. Luo yksityinen työvoima, työntekijätiimi nimeltä ner-worker-team, ja liitä itsesi tiimiin kohdassa olevien ohjeiden mukaisesti. Luo yksityinen työvoima (Amazon SageMaker Console).
Kun olet lisännyt itsesi yksityiseen työvoimaan ja vahvistanut sähköpostiosoitteesi, merkitse työntekijäportaalin URL-osoite AWS-hallintakonsolista:
- Navigoida johonkin
SageMaker
- Navigoida johonkin
Ground Truth → Labeling workforces
- Valitse
Private
kieleke - Huomaa URL-osoite
Labeling portal sign-in URL
Kirjaudu sisään työntekijäportaaliin nähdäksesi ja aloittaaksesi merkintätehtävät.
Syöttöluettelo
Ground Truth -syötetietojen luettelo on JSON-lines-tiedosto, jossa jokainen rivi sisältää yhden työntekijän tehtävän. Meidän tapauksessamme jokainen rivi sisältää yhden JSON-koodatun syöttöasiakirjan, joka sisältää tekstin, jonka haluamme merkitä, ja NER-merkintäskeeman.
Lataa esimerkkisyöttöluettelo reviews.manifest
alkaen https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest
Huomautuksia: jokainen syöttöluettelon rivi tarvitsee ylätason avaimen source
or source-ref
. Voit oppia lisää osoitteessa Käytä syöttöluettelotiedostoa Amazon SageMaker -kehittäjäoppaassa.
Lataa Input Manifest Amazon S3:een
Lataa tämä syöttöluettelo S3-säilöön AWS-hallintakonsolin avulla tai komentoriviltä ja korvaa siten your-bucket
todellisella kauhan nimellä.
Lataa mukautettu työntekijämalli
Lataa NER-työkalun mukautettu työntekijämalli osoitteesta https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html tarkastelemalla lähdettä ja tallentamalla sisältö paikallisesti tai komentoriviltä:
Luo esimerkintätehtävä ja jälkimerkintätehtävä Lambda-funktiot
Lataa esimerkintätehtävän esimerkki Lambda-funktiosta: smgt-ner-pre-labeling-task-lambda.py
alkaen https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py
Lataa esimerkintätehtävän esimerkki Lambda-funktiosta: smgt-ner-post-labeling-task-lambda.py
alkaen https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py
- Luo esimerkintätehtävän Lambda-toiminto AWS-hallintakonsolista:
- Navigoida johonkin
Lambda
- valita
Create function
- Eritellä
Function name
assmgt-ner-pre-labeling-task-lambda
- valita
Runtime
→Python 3.6
- valita
Create function
- In
Function code
→lambda_hanadler.py
, liitä sisältösmgt-ner-pre-labeling-task-lambda.py
- valita
Deploy
- Navigoida johonkin
- Luo merkinnän jälkeinen Lambda-toiminto AWS-hallintakonsolista:
- Navigoida johonkin
Lambda
- valita
Create function
- Eritellä
Function name
assmgt-ner-post-labeling-task-lambda
- valita
Runtime
→Python 3.6
- Laajentaa
Change default execution role
- valita
Create a new role from AWS policy templates
- Anna
Role name
:smgt-ner-post-labeling-task-lambda-role
- valita
Create function
- Valitse
Permissions
kieleke - Valitse
Role name
:smgt-ner-post-labeling-task-lambda-role
avataksesi IAM-konsolin - Lisää rooliin kaksi käytäntöä
- valita
Attach policies
- Kiinnitä
AmazonS3FullAccess
politiikka - valita
Add inline policy
- Valitse
JSON
kieleke - Liitä seuraava upotettu käytäntö:
- valita
- Navigoi takaisin kohtaan
smgt-ner-post-labeling-task-lambda
Lambdatoimintojen konfigurointisivu - Valitse
Configuration
kieleke - In
Function code
→ lambda_hanadler.py
, liitä sisältösmgt-ner-post-labeling-task-lambda.py
- valita
Deploy
- Navigoida johonkin
Luo Ground Truth -merkintätyö
AWS-hallintakonsolista:
- Siirry
Amazon SageMaker
palvelu - Navigoida johonkin
Ground Truth
→Labeling Jobs
. - valita
Create labeling job
- Määritä a
Job Name
- valita
Manual Data Setup
- Määritä syöttötietojoukon sijainti, johon latasit syöttöluettelon aiemmin (esim
3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl
) - Määritä lähtötietojoukon sijainti osoittamaan eri kansioon samassa ryhmässä (esim.
s3://your-bucket/ner-output/
) - Määritä
IAM Role
valitsemallaCreate new role
- Salli tämän roolin käyttää mitä tahansa S3-säilöä valitsemalla
S3 buckets you specify
→Any S3 bucket
politiikkaa luotaessa - Avaa uudessa AWS Management Console -ikkunassa
IAM
konsoli ja valitseRoles
- Hae juuri luomasi roolin nimeä (esim.
AmazonSageMaker-ExecutionRole-20210301T154158
) - Valitse roolin nimi avataksesi roolin konsolissa
- Liitä seuraavat kolme käytäntöä:
- Valitse Liitä käytännöt
- Kiinnitä
AWSLambda_FullAccess
rooliin - valita
Trust Relationships
→Edit Trust Relationships
- Muokkaa luottamussuhdetta JSON,
- korvata
YOUR_ACCOUNT_NUMBER
numeerisella AWS-tilinumerollasi luettavaksi: - Säästä luottamussuhde
- Salli tämän roolin käyttää mitä tahansa S3-säilöä valitsemalla
- Palaa uuteen Ground Truth -työhön edellisessä AWS-hallintakonsoliikkunassa: alla
Task Category
valitseCustom
- valita
Next
- valita
Worker types
:Private
- Valitse
Private team
:ner-worker-team
joka luotiin edellisessä osiossa - In
Custom labeling task setup
tekstialue, tyhjennä oletussisältö ja liitä sen sisältöönworker-template.liquid.html
aiemmin hankittu tiedosto - Määritä
Pre-labeling task Lambda function
aiemmin luodulla funktiolla:smgt-ner-pre-labeling
- Määritä
Post-labeling task Lambda function
aiemmin luodulla funktiolla:smgt-ner-post-labeling
- valita
Create
Merkitse asiakirjoja
Kun Ground Truth -työ on luotu, voimme aloittaa asiakirjojen merkitsemisen. Avaa aiemmin luotu työntekijäportaali työntekijöillemme (Siirry AWS-hallintakonsolissa kohtaan SageMaker
, Ground Truth → Labeling workforces
, Private
ja avaa Labeling portal sign-in URL
)
Kirjaudu sisään ja valitse ensimmäinen merkintätehtävä taulukosta ja avaa merkintä valitsemalla "Aloita työskentely". Tee huomautukset ja valitse Lähetä kaikissa kolmessa esimerkkiasiakirjassa.
Tarkastele tuloksia
Kun Ground Truth -annotaattorit suorittavat tehtäviä, tulokset ovat saatavilla S3-lähtökentässä:
Kun kaikki merkintätyön tehtävät on suoritettu, yhdistetty tulos on saatavilla hakemistossa output.manifest
tiedosto sijaitsee täällä:
Tämä tulosluettelo on JSON-rivien tiedosto, jossa on yksi huomautettu tekstiasiakirja riviä kohden aiemmin määritetyssä "Output Document Format" -muodossa. Tämä tiedosto on yhteensopiva "Input Document Format" -tiedoston kanssa, ja se voidaan syöttää suoraan seuraavaan Ground Truth -työhön toista huomautuskierrosta varten. Vaihtoehtoisesti se voidaan jäsentää ja lähettää ML-harjoittelutyöhön. Joitakin skenaarioita, joissa saatamme käyttää toista merkintäkierrosta, ovat:
- Merkintäprosessin jakaminen kahteen vaiheeseen, jossa ensimmäinen annotaattori tunnistaa entiteettimerkinnät ja toinen annotaattori piirtää suhteita
- Otetaan näyte meistä
output.manifest
ja sen lähettäminen toiselle, kokeneemmalle kirjoittajalle tarkistettavaksi laadunvalvontatarkistuksena
Mukautetut Ground Truth -merkintämallit
Tässä asiakirjassa kuvattu NER-merkintätyökalu on toteutettu mukautettuna Ground Truth -merkintämallina. AWS-asiakkaat voivat rakentaa omia mukautettuja merkintärajapintojaan käyttämällä täältä löytyviä ohjeita:
Yhteenveto
Yhdessä tekemällä Booking.com ja Amazon MLSL pystyivät kehittämään tehokkaan tekstimerkintätyökalun, joka pystyy luomaan monimutkaisia nimettyjen entiteettien tunnistus- ja suhdemerkintöjä.
Kannustamme AWS-asiakkaita, joilla on NER-tekstimerkintöjen käyttötapaus, kokeilemaan tässä viestissä kuvattua työkalua. Jos haluat apua ML:n käytön nopeuttamiseen tuotteissasi ja palveluissasi, ota yhteyttä Amazon Machine Learning Solutions Lab.
Tietoja Tekijät
Dan Noble on Amazonin ohjelmistokehitysinsinööri, jossa hän auttaa luomaan ilahduttavia käyttökokemuksia. Vapaa-ajallaan hän nauttii lukemisesta, kuntoilusta ja seikkailuista perheensä kanssa.
Pri Nonis on Deep Learning Arkkitehti Amazon ML Solutions Labissa, jossa hän työskentelee asiakkaiden kanssa eri toimialoilla ja auttaa heitä nopeuttamaan pilvisiirtomatkaansa ja ratkaisemaan ML-ongelmiaan uusimpien ratkaisujen ja tekniikoiden avulla.
Niharika Jayanthi on Front End Engineer AWS:ssä, jossa hän kehittää mukautettuja merkintäratkaisuja Amazon SageMaker -asiakkaille. Työn ulkopuolella hän käy mielellään museoissa ja treenaa.
Amit Beka on koneoppimispäällikkö yrityksessä Booking.com, jolla on yli 15 vuoden kokemus ohjelmistokehityksestä ja koneoppimisesta. Häntä kiehtovat ihmiset ja kielet, ja kuinka tietokoneet ovat edelleen ymmällään molemmista.
- '
- 100
- 11
- 7
- Meistä
- pääsy
- Tili
- kirjanpito
- poikki
- Toiminta
- Lisäksi
- lisä-
- Kaikki
- Amazon
- Amazonin koneoppiminen
- Amazon Sage Maker
- epäselvyys
- analyysi
- ALUE
- saatavissa
- Saatavilla kaikille
- AWS
- Alku
- ovat
- rakentaa
- Rakentaminen
- joka
- tapauksissa
- luokittelu
- pilvi
- koodi
- kokoelma
- monimutkainen
- tietokoneet
- Konfigurointi
- harkinta
- Console
- pitoisuus
- sisältö
- voisi
- Luominen
- kriittinen
- asiakaskokemus
- Asiakkaat
- tiedot
- syvä oppiminen
- kehittää
- Kehittäjä
- Kehitys
- eri
- asiakirjat
- ei
- helposti
- vaikutus
- Emoji
- kannustaa
- insinööri
- jne.
- esimerkki
- teloitus
- odottaa
- experience
- Elämykset
- perhe
- Fed
- palaute
- Fields
- Vihdoin
- Etunimi
- kunto
- ruoka
- muoto
- löytyi
- koko
- toiminto
- gif
- menee
- vieras
- ohjaavat
- auttaa
- auttaa
- tätä
- Korostaa
- hotelli
- Miten
- Miten
- HTTPS
- IAM
- täytäntöön
- tärkeä
- Mukaan lukien
- indeksi
- henkilökohtainen
- IT
- JavaScript
- Job
- matka
- avain
- merkinnät
- tarrat
- Kieli
- kielet
- suuri
- johtava
- OPPIA
- oppiminen
- juridinen
- Taso
- tasot
- linja
- LINK
- Neste
- Lista
- Ilmoitukset
- paikallisesti
- sijainti
- näköinen
- koneoppiminen
- johto
- Merkitse
- markkinat
- ottelu
- Meta
- mielessä
- ML
- malli
- lisää
- museot
- nimet
- Luonnollinen kieli
- Luonnollinen kielen käsittely
- tarvitaan
- NLP
- numerot
- Tarjoukset
- offset
- verkossa
- avata
- avautuu
- Tilaisuus
- Muut
- Ihmiset
- lausekkeet
- foorumi
- Platforms
- politiikkaa
- politiikka
- pool
- Portal
- Pandemian
- voimakas
- hinta
- Pääasiallinen
- yksityinen
- prosessi
- Tuotteemme
- Ohjelmointi
- ohjelmointikielet
- omaisuus
- toimittaa
- tarjoaa
- Python
- laatu
- kysymys
- Lukeminen
- Ihmissuhteet
- vaatimukset
- resurssi
- Esittelymateriaalit
- Ravintola
- tulokset
- arviot
- Arvostelut
- Huoneet
- sagemaker
- tallentaa
- Asteikko
- tunne
- näkemys
- Palvelut
- setti
- Lyhyt
- Yksinkertainen
- So
- Tuotteemme
- ohjelmistokehitys
- Ratkaisumme
- SOLVE
- Tila
- nopeus
- Alkaa
- Lausunto
- pysyä
- Levytila
- tuki
- Kohde
- Technologies
- Lähde
- aika
- yhdessä
- tokenization
- tokens
- työkalu
- ylin
- huipputaso
- raita
- perinteinen
- koulutus
- matkustaa
- kohdella
- kohtelee
- Luottamus
- us
- Käyttäjät
- arvo
- versio
- Näytä
- Mitä
- sisällä
- Referenssit
- työskenteli
- työntekijöitä
- työvoima
- työskentely
- käydä salilla
- toimii
- maailman-
- maailman
- olisi
- vuotta