Label Text For Aspect-based Sentiment Analysis Using SageMaker Ground Truth

Ponovno objavil Platon

Spremljevalci: 0

Amazon Machine Learning Solutions Lab (MLSL) je nedavno ustvaril orodje za označevanje besedila s prepoznavanjem poimenovanih entitet (NER) in oznakami odnosov z uporabo Amazon SageMaker Ground Truth. Komentatorji uporabljajo to orodje za označevanje besedila z imenovanimi entitetami in povezovanje njihovih odnosov, s čimer gradijo nabor podatkov za usposabljanje najsodobnejših modelov strojnega učenja (ML) za obdelavo naravnega jezika (NLP). Najpomembneje je, da je to zdaj javno dostopno vsem strankam AWS.

Primer uporabe stranke: Booking.com

Booking.com je ena vodilnih svetovnih spletnih potovalnih platform. Razumevanje, kaj stranke pravijo o 28 milijonih+ seznamih nepremičnin podjetja na platformi, je bistvenega pomena za ohranjanje vrhunske uporabniške izkušnje. Prej je Booking.com lahko uporabljal samo tradicionalno analizo razpoloženja za interpretacijo mnenj, ki so jih ustvarile stranke v velikem obsegu. V želji po nadgradnji specifičnosti teh interpretacij se je Booking.com pred kratkim obrnil na MLSL za pomoč pri izdelavi nabora podatkov z opombami po meri za usposabljanje modela analize razpoloženja na podlagi vidikov.

Tradicionalna analiza razpoloženja je postopek razvrščanja dela besedila kot pozitivnega, negativnega ali nevtralnega kot edinstveno čustvo. To deluje tako, da na splošno razumemo, ali so uporabniki z določeno izkušnjo zadovoljni ali nezadovoljni. Na primer, s tradicionalno analizo razpoloženja je lahko naslednje besedilo razvrščeno kot "nevtralno":

Naše bivanje v hotelu je bilo lepo. Osebje je bilo prijazno in sobe čiste, vendar so bile naše postelje precej neudobne.

Analiza razpoloženja na podlagi vidikov ponuja bolj niansirano razumevanje vsebine. V primeru Booking.com, namesto da bi upošteval oceno stranke kot celoto in jo kategorično razvrstil, lahko vzame občutek znotraj ocene in ga dodeli določenim vidikom. Na primer, ocene strank o danem hotelu lahko hvalijo brezhiben bazen in fitnes, dajejo pa kritične povratne informacije o restavraciji in salonu.

Izjava, ki bi jo tradicionalna analiza razpoloženja označila kot »nevtralno«, bo z analizo razpoloženja na podlagi vidika postala:

Naše bivanje v hotelu je bilo lepo. Osebje je bilo prijazno in sobe čiste, vendar so bile naše postelje precej neudobne.

Hotel: Pozitivno
Osebje: pozitivno
Soba: pozitivno
Postelje: negativ

Booking.com je želel zgraditi model analize razpoloženja po meri, ki bi jim povedal, kateri specifični deli izkušnje gosta (s seznama 50+ vidikov) so bili pozitiven, negativnaali nevtralna.

Preden je Booking.com lahko sestavil nabor podatkov za usposabljanje za ta model, je potreboval način, kako ga označiti. Orodje za opombe MLSL je zagotovilo prepotrebno prilagojeno rešitev. Človeški pregled je bil opravljen na veliki zbirki ocen hotelov. Nato so avtorji opomb dokončali opombo imenovane entitete o besedilnih razponih in besednih zvezah čustev in izkušenj gostov, preden so ustrezne razpone povezali skupaj.

Novi model, ki temelji na vidikih, omogoča Booking.com prilagajanje nastanitev in ocen svojim strankam. Poudarjanje pozitivnih in negativnih vidikov posamezne namestitve omogoča strankam, da izberejo popolno ujemanje. Poleg tega različne stranke skrbijo za različne vidike namestitve, novi model pa odpira možnost, da vsakemu prikažejo najbolj relevantne ocene.

Zahteve za označevanje

Čeprav Ground Truth ponuja vgrajeno zmožnost označevanja besedila NER, ne omogoča povezovanja entitet. S tem v mislih sta Booking.com in MLSL izdelala naslednje visoke zahteve za novo orodje za označevanje besedila za prepoznavanje imenovanih subjektov, ki:

Sprejema kot vnos: besedilo, oznake entitet, oznake odnosovin klasifikacijske oznake.
Izbirno sprejme kot vhod vnaprej označene podatke s predhodnimi opombami oznake in odnosa.
Predstavi opombo bodisi z neoznačenim ali vnaprej označenim besedilom.
Označevalcem omogoča, da označijo in označijo poljubno besedilo z oznako entitete.
Označevalcem omogoča ustvarjanje razmerij med dvema opombama entitet.
Anotatorjem omogoča preprosto krmarjenje po velikem številu oznak entitet.
Podpira združevanje oznak entitet v kategorije.
Dovoli prekrivajoče se odnose, kar pomeni, da je isti segment označenega besedila lahko povezan z več kot enim drugim segmentom označenega besedila.
Omogoča prekrivajoče se opombe oznak entitet, kar pomeni, da lahko dve opombi prekrivata isti del besedila. Na primer, besedilo »Seattle Space Needle« ima lahko opombe »Seattle« → »lokacije« in »Seattle Space Needle« → »zanimivosti«.
Izhodni format je združljiv z vhodnim formatom in ga je mogoče vrniti v nadaljnja opravila označevanja.
Podpira kodirano besedilo UTF-8, ki vsebuje emoji in druge večbajtne znake.
Podpira jezike od leve proti desni.

Vzorčna opomba

Razmislite o naslednjem dokumentu:

Všeč nam je bila lokacija tega hotela! Salon na strehi nam je dal popoln pogled na vesoljsko iglo. Prav tako je kratka vožnja stran od tržnice Pike Place in obale.
Hrana je bila na voljo le prek sobne strežbe, kar je bilo malo razočaranje, vendar je v tem svetu po pandemiji smiselno.
Na splošno cenovno ugodna izkušnja.

Nalaganje tega dokumenta v novo opombo NER predstavlja delavca z naslednjim vmesnikom:

Delavec je prejel dokument brez pripomb

V tem primeru je naloga delavca:

Označite entitete, povezane z nepremičnino (lokacija, cena, hrana itd.)
Označite entitete, povezane z razpoloženjem (pozitivno, negativno ali nevtralno)
Povežite poimenovane entitete, povezane z nepremičninami, s ključnimi besedami, povezanimi z razpoloženjem, da natančno zajamete izkušnjo gosta

Delavec, ki izvaja opombe

Hitrost pripisov je bila pomemben vidik orodja. Z uporabo zaporedja intuitivnih bližnjic na tipkovnici in potez miške lahko opombe upravljajo vmesnik in:

Dodajanje in odstranjevanje opomb imenovanih entitet
Dodajte razmerja med poimenovanimi entitetami
Skok na začetek in konec dokumenta
Oddajte dokument

Poleg tega obstaja podpora za prekrivajoče se oznake. na primer Seattle Space Needle: v tem stavku, Seattle je označen kot lokacija sama po sebi in kot del imena atrakcije.

Izpolnjena opomba zagotavlja popolnejšo, niansirano analizo podatkov:

Izpolnjen dokument

Relacije je mogoče konfigurirati na več ravneh, od kategorij entitet do drugih kategorij entitet (na primer od »hrane« do »občutja«) ali med posameznimi tipi entitet. Odnosi so usmerjeni, tako da lahko označevalci povežejo vidik, kot je hrana, z občutkom, ne pa obratno (razen če je izrecno omogočeno). Pri risanju odnosov bo orodje za opombe samodejno izpeljalo oznako odnosa in smer.

Konfiguriranje orodja za opombe NER

V tem razdelku opisujemo, kako prilagoditi orodje za opombe NER za posamezne primere uporabe. To vključuje konfiguracijo:

Vhodno besedilo za opombo
Oznake entitet
Oznake odnosov
Klasifikacijske oznake
Vnaprej označeni podatki
Navodila za delavce

Pokrili bomo posebnosti formatov vhodnih in izhodnih dokumentov ter podali nekaj primerov vsakega.

Oblika vhodnega dokumenta

Orodje za opombe NER pričakuje naslednji vhodni dokument v obliki JSON (polja z vprašajem poleg imena so neobvezna).

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; classificationLabels?: string[]; relationshipLabels?: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; entityAnnotations?: { id: string; start: number; end: number; text: string; label: string; labelCategory?: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta?: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; };
}

Na kratko, vhodni format ima naslednje značilnosti:

Bodisi entityLabels or classificationLabels (ali oboje) je treba dodati opombe.
If entityLabels so dane, potem relationshipLabels lahko dodate.
Relacije so lahko dovoljene med različnimi oznakami entitet/kategorij ali njihovo kombinacijo.
»Vir« razmerja je entiteta, s katero se začne usmerjena puščica, medtem ko je »tarča« to, kamor je usmerjena.

Polje	tip	Opis
besedilo	niz	Obvezno. Vnesite besedilo za opombo.
tokenRows	vrvica[][]	Neobvezno. Tokenizacija vnesenega besedila po meri. Niz nizov nizov. Matrika najvišje ravni predstavlja vsako vrstico besedila (prelomi vrstic), matrika druge ravni pa predstavlja žetone v vsaki vrstici. Vsi znaki/rune v vhodnem besedilu morajo biti upoštevani v tokenRows, vključno s kakršnimi koli presledki.
documentId	niz	Neobvezno. Izbirna vrednost za stranke, da spremljajo dokument, ki je označen.
entityLabels	predmet []	Zahtevano, če je classificationLabels prazno. Niz oznak entitet.
entityLabels[].ime	niz	Obvezno. Prikazno ime oznake entitete.
entityLabels[].category	niz	Neobvezno. Ime kategorije oznake entitete.
entityLabels[].shortName	niz	Neobvezno. Prikažite to besedilo nad označenimi entitetami namesto celotnega imena.
entityLabels[].shortCategory	niz	Neobvezno. Prikažite to besedilo v spustnem meniju za izbiro opombe entitete namesto prvih štirih črk imena kategorije.
entityLabels.color	niz	Neobvezno. Šestnajstiška barvna koda s predpono »#«. Če je prazno, bo samodejno dodelil barvo oznaki subjekta.
razmerjeLabels	predmet []	Neobvezno. Niz oznak odnosov.
relationshipLabels[].ime	niz	Obvezno. Prikazno ime oznake razmerja.
relationshipLabels[].allowedRelationships	predmet []	Neobvezno. Niz vrednosti, ki omejujejo, katerim vrstam oznak izvorne in ciljne entitete je mogoče dodeliti to razmerje. Vsak element v matriki je skupaj označen z »ALI«.
relationshipLabels[].allowedRelationships[].sourceEntityLabelCategories	vrvica[]	Zahtevano za nastavitev sourceEntityLabelCategories ali sourceEntityLabels (ali oboje). Seznam vrst kategorij oznak pravne izvorne entitete za to razmerje.
relationshipLabels[].allowedRelationships[].targetEntityLabelCategories	vrvica[]	Zahtevano za nastavitev targetEntityLabelCategories ali targetEntityLabels (ali oboje). Seznam vrst kategorij oznak pravnih ciljnih subjektov za to razmerje.
relationshipLabels[].allowedRelationships[].sourceEntityLabels	vrvica[]	Zahtevano za nastavitev sourceEntityLabelCategories ali sourceEntityLabels (ali oboje). Seznam vrst oznak pravne izvorne entitete za to razmerje.
relationshipLabels[].allowedRelationships[].sourceEntityLabels	vrvica[]	Zahtevano za nastavitev targetEntityLabelCategories ali targetEntityLabels (ali oboje). Seznam pravnih vrst oznak ciljnih subjektov za to razmerje.
classificationLabels	vrvica[]	Zahtevano, če je entityLabels prazno. Seznam klasifikacijskih oznak na ravni dokumenta.
entityAnnotations	predmet []	Neobvezno. Niz opomb entitet, s katerimi lahko predhodno označite vhodno besedilo.
entityAnnotations[].id	niz	Obvezno. Enolični identifikator za to opombo entitete. Uporablja se za sklicevanje na to entiteto v relationshipAnnotations.
entitetaAnnotations[].start	Številka	Obvezno. Začetni odmik rune te opombe entitete.
entityAnnotations[].end	Številka	Obvezno. Odmik končne rune te opombe entitete.
entityAnnotations[].text	niz	Obvezno. Vsebina besedila med začetnim in končnim odmikom rune.
entityAnnotations[].label	niz	Obvezno. Ime oznake povezane entitete (iz imen v entityLabels).
entityAnnotations[].labelCategory	niz	Izbirno. Kategorija oznake povezane entitete (iz kategorij v entityLabels).
razmerjeAnnotations	predmet []	Neobvezno. Niz opomb odnosov.
relationshipAnnotations[].sourceEntityAnnotationId	niz	Obvezno. ID opombe izvorne entitete za to razmerje.
relationshipAnnotations[].targetEntityAnnotationId	niz	Obvezno. ID opombe ciljne entitete za to razmerje.
relationshipAnnotations[].label	niz	Obvezno. Ime oznake povezanega odnosa.
classificationAnotations	vrvica[]	Neobvezno. Niz klasifikacij, s katerimi lahko dokument predhodno označite.
meta	predmet	Neobvezno. Dodatni konfiguracijski parametri.
meta.navodila	niz	Neobvezno. Navodila za označevalnik oznak v formatu Markdown.
meta.disableSubmitConfirmation	boolean	Neobvezno. Nastavite na true, da onemogočite način potrditve predložitve.
meta.multiClassification	boolean	Neobvezno. Nastavite na true, da omogočite način z več oznakami za classificationLabels.

Tukaj je nekaj vzorčnih dokumentov, da boste bolje razumeli to obliko vnosa

Dokumenti, ki so v skladu s to shemo, so zagotovljeni Ground Truth kot posamezne vrstične postavke v vhodnem manifestu.

Format izhodnega dokumenta

Izhodni format je zasnovan za preprosto povratno informacijo v novo opravilo opomb. Izbirna polja v izhodnem dokumentu so nastavljena, če so nastavljena tudi v vhodnem dokumentu. Edina razlika med vhodnim in izhodnim formatom je meta predmet.

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; relationshipLabels: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; classificationLabels?: string[]; entityAnnotations?: { id: string; start: number; end: number; text: string; labelCategory?: string; label: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; runes: string[]; rejected: boolean; rejectedReason: string; }
}

Polje	tip	Opis
meta.zavrnjen	boolean	Je nastavljeno na true, če je opombevalec zavrnil ta dokument.
meta.rejectedReason	niz	Komentatorjev razlog za zavrnitev dokumenta.
meta.rune	vrvica[]	Niz run, ki upošteva vse znake v vhodnem besedilu. Uporablja se za izračun začetnih in končnih odmikov pripisov entitet.

Tukaj je vzorčni izhodni dokument, ki je bil označen:

Runska opomba:

»Runa« je v tem kontekstu en sam znak v besedilu, ki ga je mogoče označiti, vključno z večbajtnimi znaki, kot je emoji.

Ker različni programski jeziki različno predstavljajo večbajtne znake, uporaba »Run« za definiranje vsakega znaka, ki ga je mogoče označiti kot en atomski element, pomeni, da imamo nedvoumen način za opis katerega koli izbranega besedila.
Na primer, Python obravnava švedsko zastavo kot štiri znake:

Toda JavaScript isti emoji obravnava kot dva znaka

Da bi odpravili kakršno koli dvoumnost, bomo švedsko zastavo (ter vse druge emodžije in večbajtne znake) obravnavali kot en atomski element.

Odmik: položaj rune glede na vhodno besedilo (začenši z indeksom 0)

Izvajanje opomb NER z Ground Truth

Kot popolnoma upravljana storitev označevanja podatkov Ground Truth gradi nabore podatkov za usposabljanje za ML. Za ta primer uporabe uporabljamo Ground Truth, da pošljemo zbirko besedilnih dokumentov skupini delavcev v opombo. Nazadnje pregledamo kakovost.

Ground Truth je mogoče konfigurirati za izdelavo opravila za označevanje podatkov z uporabo novega orodja NER kot predloge po meri.

Natančneje, bomo:

Ustvarite zasebno delovno silo delavcev za označevanje za izvajanje naloge opomb
Ustvarite vnosni manifest Ground Truth z dokumenti, ki jih želimo označiti, in ga nato naložite Preprosta storitev shranjevanja Amazon (Amazon S3)
Ustvarite nalogo pred označevanjem in nalogo po označevanju Lambda funkcije
Ustvarite opravilo označevanja Ground Truth z uporabo predloge NER po meri
Označite dokumente
Preglejte rezultate

Viri orodij NER

Celoten seznam referenčnih virov in vzorčnih dokumentov je na voljo v naslednji tabeli:

Ustvarjanje delovne sile za označevanje

Ground Truth uporablja SageMaker za označevanje delovne sile za upravljanje delavcev in razdeljevanje nalog. Ustvarite zasebno delovno silo, skupino delavcev, imenovano ner-worker-team, in se ekipi dodelite po navodilih v Ustvarite zasebno delovno silo (Amazon SageMaker Console).

Ko se dodate v zasebno delovno silo in potrdite svoj e-poštni naslov, si zapomnite URL portala za delavce iz konzole za upravljanje AWS:

Pomaknite se na SageMaker
Pomaknite se na Ground Truth → Labeling workforces
Izberite Private tab
Upoštevajte URL Labeling portal sign-in URL

Prijavite se v delovni portal, da si ogledate in začnete delati na nalogah označevanja.

Vnosni manifest

Manifest vhodnih podatkov Ground Truth je datoteka vrstic JSON, kjer vsaka vrstica vsebuje eno nalogo delavca. V našem primeru bo vsaka vrstica vsebovala en vhodni dokument, kodiran z JSON, ki vsebuje besedilo, ki ga želimo označiti, in shemo opomb NER.

Prenesite vzorčni vnosni manifest reviews.manifest iz https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest

Opombe: vsaka vrstica v vhodnem manifestu potrebuje ključ najvišje ravni source or source-ref. Več lahko izveste v Uporabite datoteko vhodnega manifesta v vodniku za razvijalce Amazon SageMaker.

Naložite vhodni manifest v Amazon S3

Prenesite ta vhodni manifest v vedro S3 z uporabo konzole AWS Management Console ali iz ukazne vrstice in tako zamenjajte your-bucket z dejanskim imenom vedra.

aws s3 cp reviews.manifest s3://your-bucket/ner-input/reviews.manifest

Prenesite predlogo delavca po meri

Prenesite predlogo delavca po meri orodja NER iz https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html z ogledom vira in shranjevanjem vsebine lokalno ali iz ukazne vrstice:

wget https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html

Ustvarite nalogo pred označevanjem in nalogo po označevanju Lambda funkcije

Prenesite vzorec naloge pred označevanjem Lambda funkcije: smgt-ner-pre-labeling-task-lambda.py iz https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py

Prenesite vzorec naloge pred označevanjem Lambda funkcije: smgt-ner-post-labeling-task-lambda.py iz https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py

Iz konzole AWS Management Console ustvarite opravilo pred označevanjem Lambda funkcije:
- Pomaknite se na Lambda
- Izberite Create function
- Določite Function name as smgt-ner-pre-labeling-task-lambda
- Izberite Runtime → Python 3.6
- Izberite Create function
- In Function code → lambda_hanadler.py, prilepite vsebino smgt-ner-pre-labeling-task-lambda.py
- Izberite Deploy
Iz konzole AWS Management Console ustvarite nalogo Lambda po označevanju:
- Pomaknite se na Lambda
- Izberite Create function
- Določite Function name as smgt-ner-post-labeling-task-lambda
- Izberite Runtime → Python 3.6
- Razširi Change default execution role
- Izberite Create a new role from AWS policy templates
- Vpišite Role name: smgt-ner-post-labeling-task-lambda-role
- Izberite Create function
- Izberite Permissions tab
- Izberite Role name: smgt-ner-post-labeling-task-lambda-role da odprete konzolo IAM
- Vlogi dodajte dve politiki
  - Izberite Attach policies
  - Pritrdite AmazonS3FullAccess politika
  - Izberite Add inline policy
  - Izberite JSON tab
  - Prilepite naslednji vgrajeni pravilnik:
```
{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/AmazonSageMaker-ExecutionRole-*" }
}
```
- Pojdite nazaj na smgt-ner-post-labeling-task-lambda Stran za konfiguracijo funkcije Lambda
- Izberite Configuration tab
- In Function code → lambda_hanadler.py, prilepite vsebino smgt-ner-post-labeling-task-lambda.py
- Izberite Deploy

Ustvarite opravilo označevanja Ground Truth

Iz konzole za upravljanje AWS:

Pomaknite se na Amazon SageMaker Storitev
Pomaknite se na Ground Truth → Labeling Jobs.
Izberite Create labeling job
Navedite a Job Name
Izberite Manual Data Setup
Podajte lokacijo nabora vhodnih podatkov, kamor ste prej naložili vhodni manifest (npr. s3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl)
Določite lokacijo nabora izhodnih podatkov, da kaže na drugo mapo v istem vedru (npr. s3://your-bucket/ner-output/)
Navedite IAM Role z izbiro Create new role
- Dovolite tej vlogi dostop do katerega koli vedra S3 tako, da izberete S3 buckets you specify → Any S3 bucket pri oblikovanju pravilnika
- V novem oknu upravljalne konzole AWS odprite IAM konzolo in izberite Roles
- Poiščite ime vloge, ki ste jo pravkar ustvarili (npr. AmazonSageMaker-ExecutionRole-20210301T154158)
- Izberite ime vloge, da odprete vlogo v konzoli
- Priložite naslednje tri pravilnike:
  - Izberite Priloži pravilnike
  - Pritrdite AWSLambda_FullAccess do vloge
  - Izberite Trust Relationships → Edit Trust Relationships
  - Uredite zaupniško razmerje JSON,
  - Zamenjaj YOUR_ACCOUNT_NUMBER z vašo številčno številko računa AWS, ki se glasi:
```
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": "sts:AssumeRole" }, { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/smgt-ner-post-labeling-task-lambda-role" }, "Action": "sts:AssumeRole" } ]
}
```
  - Shranite zaupni odnos
Vrnite se na novo opravilo Ground Truth v prejšnjem oknu upravljalne konzole AWS: pod Task Categorytako, da izberete Custom
Izberite Next
Izberite Worker types: Private
Izberite Private team : ner-worker-team ki je bil ustvarjen v prejšnjem razdelku
v Custom labeling task setup besedilno območje, počistite privzeto vsebino in prilepite vsebino worker-template.liquid.html prej pridobljena datoteka
določite Pre-labeling task Lambda function s predhodno ustvarjeno funkcijo: smgt-ner-pre-labeling
določite Post-labeling task Lambda function s prej ustvarjeno funkcijo: smgt-ner-post-labeling
Izberite Create

Označite dokumente

Ko je opravilo Ground Truth ustvarjeno, lahko začnemo označevati dokumente. Odprite portal delavcev za našo delovno silo, ustvarjeno prej (v upravljalni konzoli AWS se pomaknite do SageMaker , Ground Truth → Labeling workforces, Privatein odprite Labeling portal sign-in URL )

Prijavite se in izberite prvo nalogo označevanja v tabeli, nato pa izberite »Začni delati«, da odprete opombe. Na vseh treh vzorčnih dokumentih vnesite pripombe in izberite oddaj.

Preglejte rezultate

Ko komentatorji Ground Truth dokončajo naloge, bodo rezultati na voljo v izhodnem vedru S3:

s3://your-bucket/path-to-your-ner-job/annotations/worker-response/iteration-1/0/

Ko so vsa opravila za opravilo označevanja končana, je konsolidirani izhod na voljo v output.manifest datoteka, ki se nahaja tukaj:

s3://your-bucket/path-to-your-ner-job/manifests/output/output.manifest

Ta izhodni manifest je datoteka z vrsticami JSON z enim označenim besedilnim dokumentom na vrstico v predhodno določeni »obliki izhodnega dokumenta«. Ta datoteka je združljiva z "formatom vhodnega dokumenta" in jo je mogoče vnesti neposredno v naslednje opravilo Ground Truth za nov krog opomb. Lahko pa ga razčlenimo in pošljemo na delovno mesto za usposabljanje ML. Nekateri scenariji, kjer bi lahko uporabili drugi krog opomb, so:

Razdelitev postopka označevanja v dva koraka, kjer prvi označevalec identificira opombe entitete, drugi označevalec pa nariše relacije
Vzorčenje našega output.manifest in pošiljanje drugemu, bolj izkušenemu označevalcu v pregled kot preverjanje nadzora kakovosti

Predloge opomb o temeljni resnici po meri

Orodje za opombe NER, opisano v tem dokumentu, je implementirano kot predloga za opombe Ground Truth po meri. Stranke AWS lahko ustvarijo lastne vmesnike za opombe po meri z uporabo navodil, ki jih najdete tukaj:

zaključek

S sodelovanjem sta Booking.com in Amazon MLSL uspela razviti zmogljivo orodje za besedilne opombe, ki je sposobno ustvariti zapleteno prepoznavanje poimenovanih entitet in opombe odnosov.

Stranke AWS s primerom uporabe besedilnih opomb NER spodbujamo, da preizkusijo orodje, opisano v tej objavi. Če želite pomoč pri pospeševanju uporabe ML v svojih izdelkih in storitvah, se obrnite na Amazonski laboratorij za strojno učenje.

O avtorjih

Dan Noble je inženir za razvoj programske opreme pri Amazonu, kjer pomaga graditi čudovite uporabniške izkušnje. V prostem času uživa v branju, telovadbi in dogodivščinah z družino.

Pri Nonisu je Deep Learning Architect v Amazon ML Solutions Lab, kjer dela s strankami v različnih vertikalah in jim pomaga pospešiti njihovo migracijsko pot v oblak ter rešiti njihove težave z ML z uporabo najsodobnejših rešitev in tehnologij.

Niharika Jayanthi je Front End Engineer pri AWS, kjer razvija rešitve za beležke po meri za stranke Amazon SageMaker. Zunaj službe rada hodi v muzeje in telovadi.

Amit Beka je vodja strojnega učenja pri Booking.com, z več kot 15-letnimi izkušnjami na področju razvoja programske opreme in strojnega učenja. Navdušen je nad ljudmi in jeziki ter nad tem, kako računalniki še vedno begajo oboje.