Amazon Machine Learning Solutions Lab (MLSL) je nedavno ustvaril orodje za označevanje besedila s prepoznavanjem poimenovanih entitet (NER) in oznakami odnosov z uporabo Amazon SageMaker Ground Truth. Komentatorji uporabljajo to orodje za označevanje besedila z imenovanimi entitetami in povezovanje njihovih odnosov, s čimer gradijo nabor podatkov za usposabljanje najsodobnejših modelov strojnega učenja (ML) za obdelavo naravnega jezika (NLP). Najpomembneje je, da je to zdaj javno dostopno vsem strankam AWS.
Primer uporabe stranke: Booking.com
Booking.com je ena vodilnih svetovnih spletnih potovalnih platform. Razumevanje, kaj stranke pravijo o 28 milijonih+ seznamih nepremičnin podjetja na platformi, je bistvenega pomena za ohranjanje vrhunske uporabniške izkušnje. Prej je Booking.com lahko uporabljal samo tradicionalno analizo razpoloženja za interpretacijo mnenj, ki so jih ustvarile stranke v velikem obsegu. V želji po nadgradnji specifičnosti teh interpretacij se je Booking.com pred kratkim obrnil na MLSL za pomoč pri izdelavi nabora podatkov z opombami po meri za usposabljanje modela analize razpoloženja na podlagi vidikov.
Tradicionalna analiza razpoloženja je postopek razvrščanja dela besedila kot pozitivnega, negativnega ali nevtralnega kot edinstveno čustvo. To deluje tako, da na splošno razumemo, ali so uporabniki z določeno izkušnjo zadovoljni ali nezadovoljni. Na primer, s tradicionalno analizo razpoloženja je lahko naslednje besedilo razvrščeno kot "nevtralno":
Naše bivanje v hotelu je bilo lepo. Osebje je bilo prijazno in sobe čiste, vendar so bile naše postelje precej neudobne.
Analiza razpoloženja na podlagi vidikov ponuja bolj niansirano razumevanje vsebine. V primeru Booking.com, namesto da bi upošteval oceno stranke kot celoto in jo kategorično razvrstil, lahko vzame občutek znotraj ocene in ga dodeli določenim vidikom. Na primer, ocene strank o danem hotelu lahko hvalijo brezhiben bazen in fitnes, dajejo pa kritične povratne informacije o restavraciji in salonu.
Izjava, ki bi jo tradicionalna analiza razpoloženja označila kot »nevtralno«, bo z analizo razpoloženja na podlagi vidika postala:
Naše bivanje v hotelu je bilo lepo. Osebje je bilo prijazno in sobe čiste, vendar so bile naše postelje precej neudobne.
- Hotel: Pozitivno
- Osebje: pozitivno
- Soba: pozitivno
- Postelje: negativ
Booking.com je želel zgraditi model analize razpoloženja po meri, ki bi jim povedal, kateri specifični deli izkušnje gosta (s seznama 50+ vidikov) so bili pozitiven, negativnaali nevtralna.
Preden je Booking.com lahko sestavil nabor podatkov za usposabljanje za ta model, je potreboval način, kako ga označiti. Orodje za opombe MLSL je zagotovilo prepotrebno prilagojeno rešitev. Človeški pregled je bil opravljen na veliki zbirki ocen hotelov. Nato so avtorji opomb dokončali opombo imenovane entitete o besedilnih razponih in besednih zvezah čustev in izkušenj gostov, preden so ustrezne razpone povezali skupaj.
Novi model, ki temelji na vidikih, omogoča Booking.com prilagajanje nastanitev in ocen svojim strankam. Poudarjanje pozitivnih in negativnih vidikov posamezne namestitve omogoča strankam, da izberejo popolno ujemanje. Poleg tega različne stranke skrbijo za različne vidike namestitve, novi model pa odpira možnost, da vsakemu prikažejo najbolj relevantne ocene.
Zahteve za označevanje
Čeprav Ground Truth ponuja vgrajeno zmožnost označevanja besedila NER, ne omogoča povezovanja entitet. S tem v mislih sta Booking.com in MLSL izdelala naslednje visoke zahteve za novo orodje za označevanje besedila za prepoznavanje imenovanih subjektov, ki:
- Sprejema kot vnos: besedilo, oznake entitet, oznake odnosovin klasifikacijske oznake.
- Izbirno sprejme kot vhod vnaprej označene podatke s predhodnimi opombami oznake in odnosa.
- Predstavi opombo bodisi z neoznačenim ali vnaprej označenim besedilom.
- Označevalcem omogoča, da označijo in označijo poljubno besedilo z oznako entitete.
- Označevalcem omogoča ustvarjanje razmerij med dvema opombama entitet.
- Anotatorjem omogoča preprosto krmarjenje po velikem številu oznak entitet.
- Podpira združevanje oznak entitet v kategorije.
- Dovoli prekrivajoče se odnose, kar pomeni, da je isti segment označenega besedila lahko povezan z več kot enim drugim segmentom označenega besedila.
- Omogoča prekrivajoče se opombe oznak entitet, kar pomeni, da lahko dve opombi prekrivata isti del besedila. Na primer, besedilo »Seattle Space Needle« ima lahko opombe »Seattle« → »lokacije« in »Seattle Space Needle« → »zanimivosti«.
- Izhodni format je združljiv z vhodnim formatom in ga je mogoče vrniti v nadaljnja opravila označevanja.
- Podpira kodirano besedilo UTF-8, ki vsebuje emoji in druge večbajtne znake.
- Podpira jezike od leve proti desni.
Vzorčna opomba
Razmislite o naslednjem dokumentu:
Všeč nam je bila lokacija tega hotela! Salon na strehi nam je dal popoln pogled na vesoljsko iglo. Prav tako je kratka vožnja stran od tržnice Pike Place in obale.
Hrana je bila na voljo le prek sobne strežbe, kar je bilo malo razočaranje, vendar je v tem svetu po pandemiji smiselno.
Na splošno cenovno ugodna izkušnja.
Nalaganje tega dokumenta v novo opombo NER predstavlja delavca z naslednjim vmesnikom:
V tem primeru je naloga delavca:
- Označite entitete, povezane z nepremičnino (lokacija, cena, hrana itd.)
- Označite entitete, povezane z razpoloženjem (pozitivno, negativno ali nevtralno)
- Povežite poimenovane entitete, povezane z nepremičninami, s ključnimi besedami, povezanimi z razpoloženjem, da natančno zajamete izkušnjo gosta
Hitrost pripisov je bila pomemben vidik orodja. Z uporabo zaporedja intuitivnih bližnjic na tipkovnici in potez miške lahko opombe upravljajo vmesnik in:
- Dodajanje in odstranjevanje opomb imenovanih entitet
- Dodajte razmerja med poimenovanimi entitetami
- Skok na začetek in konec dokumenta
- Oddajte dokument
Poleg tega obstaja podpora za prekrivajoče se oznake. na primer Seattle Space Needle
: v tem stavku, Seattle
je označen kot lokacija sama po sebi in kot del imena atrakcije.
Izpolnjena opomba zagotavlja popolnejšo, niansirano analizo podatkov:
Relacije je mogoče konfigurirati na več ravneh, od kategorij entitet do drugih kategorij entitet (na primer od »hrane« do »občutja«) ali med posameznimi tipi entitet. Odnosi so usmerjeni, tako da lahko označevalci povežejo vidik, kot je hrana, z občutkom, ne pa obratno (razen če je izrecno omogočeno). Pri risanju odnosov bo orodje za opombe samodejno izpeljalo oznako odnosa in smer.
Konfiguriranje orodja za opombe NER
V tem razdelku opisujemo, kako prilagoditi orodje za opombe NER za posamezne primere uporabe. To vključuje konfiguracijo:
- Vhodno besedilo za opombo
- Oznake entitet
- Oznake odnosov
- Klasifikacijske oznake
- Vnaprej označeni podatki
- Navodila za delavce
Pokrili bomo posebnosti formatov vhodnih in izhodnih dokumentov ter podali nekaj primerov vsakega.
Oblika vhodnega dokumenta
Orodje za opombe NER pričakuje naslednji vhodni dokument v obliki JSON (polja z vprašajem poleg imena so neobvezna).
Na kratko, vhodni format ima naslednje značilnosti:
- Bodisi
entityLabels
orclassificationLabels
(ali oboje) je treba dodati opombe. - If
entityLabels
so dane, potemrelationshipLabels
lahko dodate. - Relacije so lahko dovoljene med različnimi oznakami entitet/kategorij ali njihovo kombinacijo.
- »Vir« razmerja je entiteta, s katero se začne usmerjena puščica, medtem ko je »tarča« to, kamor je usmerjena.
Polje | tip | Opis |
besedilo | niz | Obvezno. Vnesite besedilo za opombo. |
tokenRows | vrvica[][] | Neobvezno. Tokenizacija vnesenega besedila po meri. Niz nizov nizov. Matrika najvišje ravni predstavlja vsako vrstico besedila (prelomi vrstic), matrika druge ravni pa predstavlja žetone v vsaki vrstici. Vsi znaki/rune v vhodnem besedilu morajo biti upoštevani v tokenRows, vključno s kakršnimi koli presledki. |
documentId | niz | Neobvezno. Izbirna vrednost za stranke, da spremljajo dokument, ki je označen. |
entityLabels | predmet [] | Zahtevano, če je classificationLabels prazno. Niz oznak entitet. |
entityLabels[].ime | niz | Obvezno. Prikazno ime oznake entitete. |
entityLabels[].category | niz | Neobvezno. Ime kategorije oznake entitete. |
entityLabels[].shortName | niz | Neobvezno. Prikažite to besedilo nad označenimi entitetami namesto celotnega imena. |
entityLabels[].shortCategory | niz | Neobvezno. Prikažite to besedilo v spustnem meniju za izbiro opombe entitete namesto prvih štirih črk imena kategorije. |
entityLabels.color | niz | Neobvezno. Šestnajstiška barvna koda s predpono »#«. Če je prazno, bo samodejno dodelil barvo oznaki subjekta. |
razmerjeLabels | predmet [] | Neobvezno. Niz oznak odnosov. |
relationshipLabels[].ime | niz | Obvezno. Prikazno ime oznake razmerja. |
relationshipLabels[].allowedRelationships | predmet [] | Neobvezno. Niz vrednosti, ki omejujejo, katerim vrstam oznak izvorne in ciljne entitete je mogoče dodeliti to razmerje. Vsak element v matriki je skupaj označen z »ALI«. |
relationshipLabels[].allowedRelationships[].sourceEntityLabelCategories | vrvica[] | Zahtevano za nastavitev sourceEntityLabelCategories ali sourceEntityLabels (ali oboje). Seznam vrst kategorij oznak pravne izvorne entitete za to razmerje. |
relationshipLabels[].allowedRelationships[].targetEntityLabelCategories | vrvica[] | Zahtevano za nastavitev targetEntityLabelCategories ali targetEntityLabels (ali oboje). Seznam vrst kategorij oznak pravnih ciljnih subjektov za to razmerje. |
relationshipLabels[].allowedRelationships[].sourceEntityLabels | vrvica[] | Zahtevano za nastavitev sourceEntityLabelCategories ali sourceEntityLabels (ali oboje). Seznam vrst oznak pravne izvorne entitete za to razmerje. |
relationshipLabels[].allowedRelationships[].sourceEntityLabels | vrvica[] | Zahtevano za nastavitev targetEntityLabelCategories ali targetEntityLabels (ali oboje). Seznam pravnih vrst oznak ciljnih subjektov za to razmerje. |
classificationLabels | vrvica[] | Zahtevano, če je entityLabels prazno. Seznam klasifikacijskih oznak na ravni dokumenta. |
entityAnnotations | predmet [] | Neobvezno. Niz opomb entitet, s katerimi lahko predhodno označite vhodno besedilo. |
entityAnnotations[].id | niz | Obvezno. Enolični identifikator za to opombo entitete. Uporablja se za sklicevanje na to entiteto v relationshipAnnotations. |
entitetaAnnotations[].start | Številka | Obvezno. Začetni odmik rune te opombe entitete. |
entityAnnotations[].end | Številka | Obvezno. Odmik končne rune te opombe entitete. |
entityAnnotations[].text | niz | Obvezno. Vsebina besedila med začetnim in končnim odmikom rune. |
entityAnnotations[].label | niz | Obvezno. Ime oznake povezane entitete (iz imen v entityLabels). |
entityAnnotations[].labelCategory | niz | Izbirno. Kategorija oznake povezane entitete (iz kategorij v entityLabels). |
razmerjeAnnotations | predmet [] | Neobvezno. Niz opomb odnosov. |
relationshipAnnotations[].sourceEntityAnnotationId | niz | Obvezno. ID opombe izvorne entitete za to razmerje. |
relationshipAnnotations[].targetEntityAnnotationId | niz | Obvezno. ID opombe ciljne entitete za to razmerje. |
relationshipAnnotations[].label | niz | Obvezno. Ime oznake povezanega odnosa. |
classificationAnotations | vrvica[] | Neobvezno. Niz klasifikacij, s katerimi lahko dokument predhodno označite. |
meta | predmet | Neobvezno. Dodatni konfiguracijski parametri. |
meta.navodila | niz | Neobvezno. Navodila za označevalnik oznak v formatu Markdown. |
meta.disableSubmitConfirmation | boolean | Neobvezno. Nastavite na true, da onemogočite način potrditve predložitve. |
meta.multiClassification | boolean | Neobvezno. Nastavite na true, da omogočite način z več oznakami za classificationLabels. |
Tukaj je nekaj vzorčnih dokumentov, da boste bolje razumeli to obliko vnosa
Dokumenti, ki so v skladu s to shemo, so zagotovljeni Ground Truth kot posamezne vrstične postavke v vhodnem manifestu.
Format izhodnega dokumenta
Izhodni format je zasnovan za preprosto povratno informacijo v novo opravilo opomb. Izbirna polja v izhodnem dokumentu so nastavljena, če so nastavljena tudi v vhodnem dokumentu. Edina razlika med vhodnim in izhodnim formatom je meta
predmet.
Polje | tip | Opis |
meta.zavrnjen | boolean | Je nastavljeno na true, če je opombevalec zavrnil ta dokument. |
meta.rejectedReason | niz | Komentatorjev razlog za zavrnitev dokumenta. |
meta.rune | vrvica[] | Niz run, ki upošteva vse znake v vhodnem besedilu. Uporablja se za izračun začetnih in končnih odmikov pripisov entitet. |
Tukaj je vzorčni izhodni dokument, ki je bil označen:
Runska opomba:
»Runa« je v tem kontekstu en sam znak v besedilu, ki ga je mogoče označiti, vključno z večbajtnimi znaki, kot je emoji.
- Ker različni programski jeziki različno predstavljajo večbajtne znake, uporaba »Run« za definiranje vsakega znaka, ki ga je mogoče označiti kot en atomski element, pomeni, da imamo nedvoumen način za opis katerega koli izbranega besedila.
- Na primer, Python obravnava švedsko zastavo kot štiri znake:
Toda JavaScript isti emoji obravnava kot dva znaka
Da bi odpravili kakršno koli dvoumnost, bomo švedsko zastavo (ter vse druge emodžije in večbajtne znake) obravnavali kot en atomski element.
- Odmik: položaj rune glede na vhodno besedilo (začenši z indeksom 0)
Izvajanje opomb NER z Ground Truth
Kot popolnoma upravljana storitev označevanja podatkov Ground Truth gradi nabore podatkov za usposabljanje za ML. Za ta primer uporabe uporabljamo Ground Truth, da pošljemo zbirko besedilnih dokumentov skupini delavcev v opombo. Nazadnje pregledamo kakovost.
Ground Truth je mogoče konfigurirati za izdelavo opravila za označevanje podatkov z uporabo novega orodja NER kot predloge po meri.
Natančneje, bomo:
- Ustvarite zasebno delovno silo delavcev za označevanje za izvajanje naloge opomb
- Ustvarite vnosni manifest Ground Truth z dokumenti, ki jih želimo označiti, in ga nato naložite Preprosta storitev shranjevanja Amazon (Amazon S3)
- Ustvarite nalogo pred označevanjem in nalogo po označevanju Lambda funkcije
- Ustvarite opravilo označevanja Ground Truth z uporabo predloge NER po meri
- Označite dokumente
- Preglejte rezultate
Viri orodij NER
Celoten seznam referenčnih virov in vzorčnih dokumentov je na voljo v naslednji tabeli:
Ustvarjanje delovne sile za označevanje
Ground Truth uporablja SageMaker za označevanje delovne sile za upravljanje delavcev in razdeljevanje nalog. Ustvarite zasebno delovno silo, skupino delavcev, imenovano ner-worker-team, in se ekipi dodelite po navodilih v Ustvarite zasebno delovno silo (Amazon SageMaker Console).
Ko se dodate v zasebno delovno silo in potrdite svoj e-poštni naslov, si zapomnite URL portala za delavce iz konzole za upravljanje AWS:
- Pomaknite se na
SageMaker
- Pomaknite se na
Ground Truth → Labeling workforces
- Izberite
Private
tab - Upoštevajte URL
Labeling portal sign-in URL
Prijavite se v delovni portal, da si ogledate in začnete delati na nalogah označevanja.
Vnosni manifest
Manifest vhodnih podatkov Ground Truth je datoteka vrstic JSON, kjer vsaka vrstica vsebuje eno nalogo delavca. V našem primeru bo vsaka vrstica vsebovala en vhodni dokument, kodiran z JSON, ki vsebuje besedilo, ki ga želimo označiti, in shemo opomb NER.
Prenesite vzorčni vnosni manifest reviews.manifest
iz https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest
Opombe: vsaka vrstica v vhodnem manifestu potrebuje ključ najvišje ravni source
or source-ref
. Več lahko izveste v Uporabite datoteko vhodnega manifesta v vodniku za razvijalce Amazon SageMaker.
Naložite vhodni manifest v Amazon S3
Prenesite ta vhodni manifest v vedro S3 z uporabo konzole AWS Management Console ali iz ukazne vrstice in tako zamenjajte your-bucket
z dejanskim imenom vedra.
Prenesite predlogo delavca po meri
Prenesite predlogo delavca po meri orodja NER iz https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html z ogledom vira in shranjevanjem vsebine lokalno ali iz ukazne vrstice:
Ustvarite nalogo pred označevanjem in nalogo po označevanju Lambda funkcije
Prenesite vzorec naloge pred označevanjem Lambda funkcije: smgt-ner-pre-labeling-task-lambda.py
iz https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py
Prenesite vzorec naloge pred označevanjem Lambda funkcije: smgt-ner-post-labeling-task-lambda.py
iz https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py
- Iz konzole AWS Management Console ustvarite opravilo pred označevanjem Lambda funkcije:
- Pomaknite se na
Lambda
- Izberite
Create function
- Določite
Function name
assmgt-ner-pre-labeling-task-lambda
- Izberite
Runtime
→Python 3.6
- Izberite
Create function
- In
Function code
→lambda_hanadler.py
, prilepite vsebinosmgt-ner-pre-labeling-task-lambda.py
- Izberite
Deploy
- Pomaknite se na
- Iz konzole AWS Management Console ustvarite nalogo Lambda po označevanju:
- Pomaknite se na
Lambda
- Izberite
Create function
- Določite
Function name
assmgt-ner-post-labeling-task-lambda
- Izberite
Runtime
→Python 3.6
- Razširi
Change default execution role
- Izberite
Create a new role from AWS policy templates
- Vpišite
Role name
:smgt-ner-post-labeling-task-lambda-role
- Izberite
Create function
- Izberite
Permissions
tab - Izberite
Role name
:smgt-ner-post-labeling-task-lambda-role
da odprete konzolo IAM - Vlogi dodajte dve politiki
- Izberite
Attach policies
- Pritrdite
AmazonS3FullAccess
politika - Izberite
Add inline policy
- Izberite
JSON
tab - Prilepite naslednji vgrajeni pravilnik:
- Izberite
- Pojdite nazaj na
smgt-ner-post-labeling-task-lambda
Stran za konfiguracijo funkcije Lambda - Izberite
Configuration
tab - In
Function code
→ lambda_hanadler.py
, prilepite vsebinosmgt-ner-post-labeling-task-lambda.py
- Izberite
Deploy
- Pomaknite se na
Ustvarite opravilo označevanja Ground Truth
Iz konzole za upravljanje AWS:
- Pomaknite se na
Amazon SageMaker
Storitev - Pomaknite se na
Ground Truth
→Labeling Jobs
. - Izberite
Create labeling job
- Navedite a
Job Name
- Izberite
Manual Data Setup
- Podajte lokacijo nabora vhodnih podatkov, kamor ste prej naložili vhodni manifest (npr. s
3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl
) - Določite lokacijo nabora izhodnih podatkov, da kaže na drugo mapo v istem vedru (npr.
s3://your-bucket/ner-output/
) - Navedite
IAM Role
z izbiroCreate new role
- Dovolite tej vlogi dostop do katerega koli vedra S3 tako, da izberete
S3 buckets you specify
→Any S3 bucket
pri oblikovanju pravilnika - V novem oknu upravljalne konzole AWS odprite
IAM
konzolo in izberiteRoles
- Poiščite ime vloge, ki ste jo pravkar ustvarili (npr.
AmazonSageMaker-ExecutionRole-20210301T154158
) - Izberite ime vloge, da odprete vlogo v konzoli
- Priložite naslednje tri pravilnike:
- Izberite Priloži pravilnike
- Pritrdite
AWSLambda_FullAccess
do vloge - Izberite
Trust Relationships
→Edit Trust Relationships
- Uredite zaupniško razmerje JSON,
- Zamenjaj
YOUR_ACCOUNT_NUMBER
z vašo številčno številko računa AWS, ki se glasi: - Shranite zaupni odnos
- Dovolite tej vlogi dostop do katerega koli vedra S3 tako, da izberete
- Vrnite se na novo opravilo Ground Truth v prejšnjem oknu upravljalne konzole AWS: pod
Task Category
tako, da izbereteCustom
- Izberite
Next
- Izberite
Worker types
:Private
- Izberite
Private team
:ner-worker-team
ki je bil ustvarjen v prejšnjem razdelku - v
Custom labeling task setup
besedilno območje, počistite privzeto vsebino in prilepite vsebinoworker-template.liquid.html
prej pridobljena datoteka - določite
Pre-labeling task Lambda function
s predhodno ustvarjeno funkcijo:smgt-ner-pre-labeling
- določite
Post-labeling task Lambda function
s prej ustvarjeno funkcijo:smgt-ner-post-labeling
- Izberite
Create
Označite dokumente
Ko je opravilo Ground Truth ustvarjeno, lahko začnemo označevati dokumente. Odprite portal delavcev za našo delovno silo, ustvarjeno prej (v upravljalni konzoli AWS se pomaknite do SageMaker
, Ground Truth → Labeling workforces
, Private
in odprite Labeling portal sign-in URL
)
Prijavite se in izberite prvo nalogo označevanja v tabeli, nato pa izberite »Začni delati«, da odprete opombe. Na vseh treh vzorčnih dokumentih vnesite pripombe in izberite oddaj.
Preglejte rezultate
Ko komentatorji Ground Truth dokončajo naloge, bodo rezultati na voljo v izhodnem vedru S3:
Ko so vsa opravila za opravilo označevanja končana, je konsolidirani izhod na voljo v output.manifest
datoteka, ki se nahaja tukaj:
Ta izhodni manifest je datoteka z vrsticami JSON z enim označenim besedilnim dokumentom na vrstico v predhodno določeni »obliki izhodnega dokumenta«. Ta datoteka je združljiva z "formatom vhodnega dokumenta" in jo je mogoče vnesti neposredno v naslednje opravilo Ground Truth za nov krog opomb. Lahko pa ga razčlenimo in pošljemo na delovno mesto za usposabljanje ML. Nekateri scenariji, kjer bi lahko uporabili drugi krog opomb, so:
- Razdelitev postopka označevanja v dva koraka, kjer prvi označevalec identificira opombe entitete, drugi označevalec pa nariše relacije
- Vzorčenje našega
output.manifest
in pošiljanje drugemu, bolj izkušenemu označevalcu v pregled kot preverjanje nadzora kakovosti
Predloge opomb o temeljni resnici po meri
Orodje za opombe NER, opisano v tem dokumentu, je implementirano kot predloga za opombe Ground Truth po meri. Stranke AWS lahko ustvarijo lastne vmesnike za opombe po meri z uporabo navodil, ki jih najdete tukaj:
zaključek
S sodelovanjem sta Booking.com in Amazon MLSL uspela razviti zmogljivo orodje za besedilne opombe, ki je sposobno ustvariti zapleteno prepoznavanje poimenovanih entitet in opombe odnosov.
Stranke AWS s primerom uporabe besedilnih opomb NER spodbujamo, da preizkusijo orodje, opisano v tej objavi. Če želite pomoč pri pospeševanju uporabe ML v svojih izdelkih in storitvah, se obrnite na Amazonski laboratorij za strojno učenje.
O avtorjih
Dan Noble je inženir za razvoj programske opreme pri Amazonu, kjer pomaga graditi čudovite uporabniške izkušnje. V prostem času uživa v branju, telovadbi in dogodivščinah z družino.
Pri Nonisu je Deep Learning Architect v Amazon ML Solutions Lab, kjer dela s strankami v različnih vertikalah in jim pomaga pospešiti njihovo migracijsko pot v oblak ter rešiti njihove težave z ML z uporabo najsodobnejših rešitev in tehnologij.
Niharika Jayanthi je Front End Engineer pri AWS, kjer razvija rešitve za beležke po meri za stranke Amazon SageMaker. Zunaj službe rada hodi v muzeje in telovadi.
Amit Beka je vodja strojnega učenja pri Booking.com, z več kot 15-letnimi izkušnjami na področju razvoja programske opreme in strojnega učenja. Navdušen je nad ljudmi in jeziki ter nad tem, kako računalniki še vedno begajo oboje.
- '
- 100
- 11
- 7
- O meni
- dostop
- Račun
- računovodstvo
- čez
- Ukrep
- Poleg tega
- Dodatne
- vsi
- Amazon
- Strojno učenje Amazon
- Amazon SageMaker
- Dvoumnost
- Analiza
- OBMOČJE
- Na voljo
- Na voljo vsem
- AWS
- Začetek
- počutje
- izgradnjo
- Building
- ki
- primeri
- Razvrstitev
- Cloud
- Koda
- zbirka
- kompleksna
- računalniki
- konfiguracija
- premislek
- Konzole
- vsebina
- Vsebina
- bi
- Ustvarjanje
- kritično
- Izkušnje s strankami
- Stranke, ki so
- datum
- globoko učenje
- Razvoj
- Razvojni
- Razvoj
- drugačen
- Dokumenti
- Ne
- enostavno
- učinek
- E-naslov
- Emoji
- spodbujanje
- inženir
- itd
- Primer
- izvedba
- pričakuje
- izkušnje
- Doživetja
- družina
- Fed
- povratne informacije
- Področja
- končno
- prva
- fitnes
- hrana
- format
- je pokazala,
- polno
- funkcija
- gif
- dogaja
- Gost
- vodi
- pomoč
- Pomaga
- tukaj
- Označite
- Hotel
- Kako
- Kako
- HTTPS
- IAM
- izvajali
- Pomembno
- Vključno
- Indeks
- individualna
- IT
- JavaScript
- Job
- Potovanje
- Ključne
- označevanje
- Oznake
- jezik
- jeziki
- velika
- vodi
- UČITE
- učenje
- Pravne informacije
- Stopnja
- ravni
- vrstica
- LINK
- Tekočina
- Seznam
- oglasi
- lokalno
- kraj aktivnosti
- si
- strojno učenje
- upravljanje
- znamka
- Tržna
- Stave
- Meta
- moti
- ML
- Model
- več
- Muzeji
- Imena
- Naravni jezik
- Obdelava Natural Language
- potrebna
- nlp
- številke
- Ponudbe
- odmik
- na spletu
- odprite
- Odpre
- Priložnost
- Ostalo
- ljudje
- stavki
- platforma
- Platforme
- politike
- politika
- bazen
- Portal
- post-pandemija
- močan
- Cena
- , ravnateljica
- zasebna
- Postopek
- Izdelki
- Programiranje
- programskih jezikov
- nepremičnine
- zagotavljajo
- zagotavlja
- Python
- kakovost
- vprašanje
- reading
- Razmerja
- Zahteve
- vir
- viri
- restavracija
- Rezultati
- pregleda
- Mnenja
- Sobe
- sagemaker
- shranjevanje
- Lestvica
- Občutek
- sentiment
- Storitve
- nastavite
- Kratke Hlače
- Enostavno
- So
- Software
- Razvoj programske opreme
- rešitve
- SOLVE
- Vesolje
- hitrost
- Začetek
- Izjava
- bivanje
- shranjevanje
- podpora
- ciljna
- Tehnologije
- Vir
- čas
- skupaj
- Tokenizacija
- Boni
- orodje
- vrh
- najvišji nivo
- sledenje
- tradicionalna
- usposabljanje
- potovanja
- zdravljenje
- zdravi
- Zaupajte
- us
- Uporabniki
- vrednost
- različica
- Poglej
- Kaj
- v
- delo
- delal
- delavci
- Delovna sila
- deluje
- telovaditi
- deluje
- svet
- svetu
- bi
- let