Az Amazon Machine Learning Solutions Lab (MLSL) a közelmúltban létrehozott egy eszközt a szöveghez névre szóló entitásfelismeréssel (NER) és kapcsolatcímkékkel történő megjegyzésekhez. Amazon SageMaker Ground Truth. A jegyzők ezt az eszközt használják a szöveg megnevezett entitásokkal való címkézésére és kapcsolataik összekapcsolására, ezáltal adatkészletet hoznak létre a legmodernebb természetes nyelvi feldolgozási (NLP) gépi tanulási (ML) modellek betanításához. A legfontosabb, hogy ez most nyilvánosan elérhető minden AWS-ügyfél számára.
Ügyfélhasználati eset: Booking.com
Booking.com a világ egyik vezető online utazási platformja. A kiváló ügyfélélmény fenntartásához elengedhetetlen, hogy megértsük, mit mondanak az ügyfelek a cég több mint 28 millió ingatlanáról a platformon. Korábban a Booking.com csak a hagyományos hangulatelemzést tudta felhasználni az ügyfelek által generált értékelések széles körű értelmezésére. Ezen értelmezések pontosabbá tétele érdekében a Booking.com nemrégiben az MLSL-hez fordult segítségért egy egyedi, annotált adatkészlet felépítéséhez, amely szempont alapú hangulatelemzési modellt taníthat.
A hagyományos hangulatelemzés az a folyamat, amely során egy szöveget pozitívnak, negatívnak vagy semlegesnek minősítenek a egyedi érzés. Ezzel nagyjából megérthetjük, hogy a felhasználók elégedettek-e vagy elégedetlenek egy adott élménnyel. Például a hagyományos érzelemanalízissel a következő szöveg „semlegesnek” minősíthető:
A szállodában való tartózkodásunk kellemes volt. A személyzet barátságos és a szobák tiszták voltak, de az ágyaink meglehetősen kényelmetlenek voltak.
Az aspektusalapú érzéselemzés árnyaltabb tartalommegértést tesz lehetővé. A Booking.com esetében ahelyett, hogy az ügyfélvéleményt egészében venné, és kategorikusan osztályozná, inkább a véleményből meríthet véleményt, és meghatározott szempontokhoz rendelheti. Például egy adott szállodáról szóló vásárlói vélemények dicsérhetik a makulátlan medencét és a fitnesztermet, de kritikus visszajelzést adnak az étteremről és a társalgóról.
Az a kijelentés, amelyet a hagyományos érzéselemzés „semlegesnek” minősített volna, az aspektus alapú érzelemanalízissel a következő lesz:
A szállodában való tartózkodásunk kellemes volt. A személyzet barátságos és a szobák tiszták voltak, de az ágyaink meglehetősen kényelmetlenek voltak.
- Szálloda: Pozitív
- Személyzet: Pozitív
- Szoba: Pozitív
- Ágyak: Negatív
A Booking.com egy egyéni szempont alapú hangulatelemzési modell felépítésére törekedett, amely megmondja nekik, hogy a vendégélmény mely részei (egy több mint 50 szempontot tartalmazó listából) pozitív, negatívvagy semleges.
Mielőtt a Booking.com létrehozhatna egy képzési adatkészletet ehhez a modellhez, szükség volt egy módra a megjegyzésekkel ellátni. Az MLSL annotációs eszköze biztosította a nagyon szükséges testreszabott megoldást. Emberi felülvizsgálatot végeztek a szállodaértékelések nagy gyűjteményén. Ezután az annotátorok megnevezett entitás kommentárt készítettek a hangulati és vendégélményi szövegszakaszokról és kifejezésekről, mielőtt összekapcsolták volna a megfelelő szakaszokat.
Az új szempontalapú modell lehetővé teszi a Booking.com számára, hogy a szállásokat és az értékeléseket is személyre szabja ügyfelei számára. Az egyes szálláshelyek pozitív és negatív aspektusainak kiemelése lehetővé teszi az ügyfelek számára, hogy megtalálják a számukra legmegfelelőbbet. Ezenkívül a különböző ügyfelek a szálláshely különböző aspektusaival foglalkoznak, és az új modell lehetőséget ad arra, hogy mindegyikük számára a legrelevánsabb véleményeket mutassák meg.
Címkézési követelmények
Bár a Ground Truth beépített NER-szövegjegyzet-lehetőséget biztosít, nem teszi lehetővé az entitások összekapcsolását. Ezt szem előtt tartva a Booking.com és az MLSL a következő magas szintű követelményeket dolgozta ki egy új elnevezett entitásfelismerő szövegcímkéző eszközhöz, amely:
- Bemenetként elfogad: szöveg, entitáscímkék, kapcsolati címkékés osztályozási címkék.
- Opcionálisan elfogadja bemeneti előre megjegyzésekkel ellátott adatokat az előző címkével és kapcsolati megjegyzésekkel.
- Az annotátort megjegyzés nélküli vagy előre jegyzett szöveggel jeleníti meg.
- Lehetővé teszi az annotátorok számára tetszőleges szöveg kiemelését és megjegyzését entitáscímkével.
- Lehetővé teszi az annotátorok számára, hogy kapcsolatokat hozzanak létre két entitásannotáció között.
- Lehetővé teszi az annotátorok számára, hogy könnyedén navigáljanak nagyszámú entitáscímkék között.
- Támogatja az entitáscímkék kategóriákba csoportosítását.
- Engedélyezze az átfedő kapcsolatokat, ami azt jelenti, hogy ugyanaz a megjegyzésekkel ellátott szövegszegmens egynél több másik megjegyzéssel ellátott szövegszegmenshez kapcsolódhat.
- Lehetővé teszi az átfedő entitáscímke-annotációkat, ami azt jelenti, hogy két megjegyzés átfedheti ugyanazt a szövegrészt. Például a „Seattle Space Needle” szövegben szerepelhet a „Seattle” → „helyek” és a „Seattle Space Needle” → „látnivalók” megjegyzés.
- A kimeneti formátum kompatibilis a bemeneti formátummal, és visszacsatolható a későbbi címkézési feladatokhoz.
- Támogatja az UTF-8 kódolású, hangulatjeleket és egyéb többbájtos karaktereket tartalmazó szöveget.
- Támogatja a balról jobbra író nyelveket.
Minta annotáció
Vegye figyelembe a következő dokumentumot:
Imádtuk a szálloda elhelyezkedését! A tetőtéri társalgó tökéletes kilátást nyújtott nekünk az űrtűre. Rövid autóútra van a csukapiactól és a vízparttól.
Az ételt csak szobaszervizen keresztül lehetett beszerezni, ami kissé kiábrándító volt, de ésszerű ebben a járvány utáni világban.
Összességében egy elfogadható árú élmény.
Ha betölti ezt a dokumentumot az új NER-annotációba, a dolgozó a következő felülettel jelenik meg:
Ebben az esetben a munkavállaló feladata:
- Az ingatlanhoz kapcsolódó entitások címkézése (helyszín, ár, élelmiszer stb.)
- A hangulathoz kapcsolódó entitások címkézése (pozitív, negatív vagy semleges)
- Kapcsolja össze a tulajdonhoz kapcsolódó megnevezett entitásokat a hangulattal kapcsolatos kulcsszavakkal, hogy pontosan rögzítse a vendég élményét
Az eszköznél fontos szempont volt a megjegyzések sebessége. Az intuitív billentyűparancsok és egérmozdulatok sorozatával a jegyzők irányíthatják a felületet, és:
- Adjon hozzá és távolítson el elnevezett entitás megjegyzéseket
- Adjon hozzá kapcsolatokat a megnevezett entitások között
- Ugrás a dokumentum elejére és végére
- Nyújtsa be a dokumentumot
Ezenkívül támogatja az átfedő címkéket. Például, Seattle Space Needle
: ebben a kifejezésben Seattle
önmagában helyként és a látványosság nevének részeként is fel van tüntetve.
Az elkészült annotáció teljesebb, árnyaltabb elemzést nyújt az adatokról:
A kapcsolatok számos szinten konfigurálhatók, az entitáskategóriáktól a többi entitáskategóriáig (például az „ételtől” a „hangulatig”), vagy az egyes entitástípusok között. A kapcsolatok irányítottak, így az annotátorok összekapcsolhatnak egy szempontot, például az ételt egy érzéssel, de fordítva nem (hacsak nincs kifejezetten engedélyezve). A kapcsolatok rajzolásakor a megjegyzés eszköz automatikusan levezeti a kapcsolat címkéjét és irányát.
A NER megjegyzés eszköz konfigurálása
Ebben a részben bemutatjuk, hogyan szabhatja testre a NER annotációs eszközt az ügyfél-specifikus használati esetekhez. Ez magában foglalja a konfigurálást:
- A megjegyzéshez fűzött beviteli szöveg
- Entitáscímkék
- Kapcsolati címkék
- Osztályozási címkék
- Előre jegyzett adatok
- Munkavállalói utasítások
Kitérünk a bemeneti és kimeneti dokumentumformátumok sajátosságaira, és mindegyikre mutatunk néhány példát.
Beviteli dokumentum formátum
A NER annotációs eszköz a következő JSON formátumú beviteli dokumentumot várja (a név mellett kérdőjellel ellátott mezők nem kötelezőek).
Dióhéjban a beviteli formátum a következő jellemzőkkel rendelkezik:
- Bármelyik
entityLabels
orclassificationLabels
(vagy mindkettő) megjegyzést kell írnia. - If
entityLabels
akkor adottakrelationshipLabels
hozzáadható. - Kapcsolatok engedélyezhetők különböző entitás-/kategóriacímkék vagy ezek keveréke között.
- A kapcsolat „forrása” az az entitás, amellyel az irányított nyíl kezdődik, míg a „cél” az, ahová tart.
Mező | típus | Leírás |
szöveg | húr | Kívánt. Írjon be szöveget a megjegyzéshez. |
tokenRows | húr[][] | Választható. A beviteli szöveg egyéni tokenizálása. Karakterláncok tömbje. A legfelső szintű tömb az egyes szövegsorokat (sortöréseket), a második szintű tömb pedig az egyes sorban lévő tokeneket jelöli. A beviteli szövegben szereplő összes karaktert/rúnát a tokenRows-ban kell figyelembe venni, beleértve a szóközöket is. |
documentId | húr | Választható. Opcionális érték az ügyfelek számára a megjegyzésekkel ellátott dokumentum nyomon követéséhez. |
entityLabels | tárgy[] | Kötelező, ha a classificationLabels mező üres. Entitáscímkék tömbje. |
entityLabels[].name | húr | Kívánt. Az entitáscímke megjelenített neve. |
entityLabels[].category | húr | Választható. Entitáscímke-kategória neve. |
entityLabels[].shortName | húr | Választható. Jelenítse meg ezt a szöveget a megjegyzésekkel ellátott entitásokon a teljes név helyett. |
entityLabels[].shortCategory | húr | Választható. Jelenítse meg ezt a szöveget az entitás megjegyzés legördülő menüjében a kategória nevének első négy betűje helyett. |
entityLabels.color | húr | Választható. Hexadecimális színkód „#” előtaggal. Ha üres, akkor automatikusan színt rendel az entitáscímkéhez. |
kapcsolatLabels | tárgy[] | Választható. Kapcsolati címkék tömbje. |
kapcsolatLabels[].name | húr | Kívánt. A kapcsolatcímke megjelenített neve. |
relationLabels[].allowedRelationships | tárgy[] | Választható. Értéktömb, amely korlátozza, hogy ez a kapcsolat milyen típusú forrás- és célentitáscímkékhez rendelhető. A tömb minden eleme együtt van „VAGY” felirattal. |
relationLabels[].allowedRelationships[].sourceEntityLabelCategories | húr[] | A sourceEntityLabelCategories vagy a sourceEntityLabels (vagy mindkettő) beállításához szükséges. A kapcsolat jogi forrású entitáscímke-kategóriatípusainak listája. |
relationLabels[].allowedRelationships[].targetEntityLabelCategories | húr[] | A targetEntityLabelCategories vagy a targetEntityLabels (vagy mindkettő) beállításához szükséges. A kapcsolat jogi célszemély-címkekategória-típusainak listája. |
relationLabels[].allowedRelationships[].sourceEntityLabels | húr[] | A sourceEntityLabelCategories vagy a sourceEntityLabels (vagy mindkettő) beállításához szükséges. Az ehhez a kapcsolathoz tartozó jogi forrás entitás címketípusainak listája. |
relationLabels[].allowedRelationships[].sourceEntityLabels | húr[] | A targetEntityLabelCategories vagy a targetEntityLabels (vagy mindkettő) beállításához szükséges. A kapcsolat jogi célszemély-címketípusainak listája. |
besorolásCímkék | húr[] | Kötelező, ha az entityLabels üres. Dokumentumszintű besorolási címkék listája. |
entityAnnotations | tárgy[] | Választható. Entitásjegyzetek tömbje a beviteli szöveg előzetes megjegyzéséhez. |
entityAnnotations[].id | húr | Kívánt. Egyedi azonosító ehhez az entitásannotációhoz. Erre az entitásra hivatkozik a relationAnnotations alkalmazásban. |
entityAnnotations[].start | szám | Kívánt. Indítsa el az entitásfeljegyzés rúnaeltolását. |
entityAnnotations[].end | szám | Kívánt. Ennek az entitásfeljegyzésnek a rúna vége eltolása. |
entityAnnotations[].text | húr | Kívánt. Szövegtartalom a kezdeti és a végi rúna eltolása között. |
entityAnnotations[].label | húr | Kívánt. Társított entitáscímke neve (az entityLabels nevéből). |
entityAnnotations[].labelCategory | húr | Opcionális.Kapcsolódó entitáscímke-kategória (az entityLabels kategóriáiból). |
kapcsolatAnnotációk | tárgy[] | Választható. Kapcsolati megjegyzések tömbje. |
relationAnnotations[].sourceEntityAnnotationId | húr | Kívánt. Forrás entitás annotáció azonosítója ehhez a kapcsolathoz. |
relationAnnotations[].targetEntityAnnotationId | húr | Kívánt. Cél entitás annotáció azonosítója ehhez a kapcsolathoz. |
kapcsolatAnnotations[].label | húr | Kívánt. Társított kapcsolatcímke neve. |
osztályozásAnnotációk | húr[] | Választható. Osztályozások tömbje a dokumentum előzetes megjegyzéseivel. |
meta | tárgy | Választható. További konfigurációs paraméterek. |
meta.utasítások | húr | Választható. Utasítások a címkéző annotátorhoz Markdown formátumban. |
meta.disableSubmitConfirmation | logikai | Választható. Állítsa igazra a megerősítési mód letiltásához. |
meta.multiClassification | logikai | Választható. Állítsa igazra, hogy engedélyezze a többcímkés módot a classificationLabels számára. |
Íme néhány mintadokumentum ennek a beviteli formátumnak a jobb megértéséhez
Az ehhez a sémához igazodó dokumentumok a Ground Truth számára a bemeneti jegyzékben lévő egyedi sorokként jelennek meg.
Kimeneti dokumentum formátum
A kimeneti formátumot úgy alakították ki, hogy könnyen visszacsatoljon egy új annotációs feladathoz. A kimeneti dokumentum opcionális mezői be vannak állítva, ha a bemeneti dokumentumban is be vannak állítva. Az egyetlen különbség a bemeneti és kimeneti formátumok között a meta
tárgy.
Mező | típus | Leírás |
meta.elutasítva | logikai | Igaz értékre van állítva, ha a jegyző elutasította ezt a dokumentumot. |
meta.rejectedReason | húr | A jegyző indoka a dokumentum elutasítására. |
meta.rúnák | húr[] | Rúnák tömbje, amely a beviteli szöveg összes karakterét tartalmazza. Az entitás annotáció kezdeti és végi eltolásainak kiszámítására szolgál. |
Íme egy minta kimeneti dokumentum, amely megjegyzésekkel ellátott:
Rúnák megjegyzése:
A „rúna” ebben az összefüggésben egyetlen kiemelhető karakter a szövegben, beleértve a többbájtos karaktereket, például az emojikat.
- Mivel a különböző programozási nyelvek eltérően jelenítik meg a többbájtos karaktereket, a „Rúnák” használata minden kiemelhető karakter egyetlen atomi elemként történő meghatározásához azt jelenti, hogy egyértelmű módon leírhatunk egy adott szövegkijelölést.
- Például a Python a svéd zászlót négy karakterként kezeli:
De a JavaScript ugyanazt az emojit két karakterként kezeli
A kétértelműség elkerülése érdekében a svéd zászlót (és az összes többi hangulatjelet és többbájtos karaktert) egyetlen atomelemként kezeljük.
- Eltolás: Rúna helyzete a beviteli szöveghez viszonyítva (0 indextől kezdve)
NER megjegyzések végrehajtása a Ground Truth segítségével
Teljesen felügyelt adatcímkézési szolgáltatásként a Ground Truth képzési adatkészleteket készít az ML számára. Ebben a felhasználási esetben a Ground Truth segítségével szöveges dokumentumok gyűjteményét küldjük el a dolgozók csoportjának annotálás céljából. Végül megvizsgáljuk a minőséget.
A Ground Truth konfigurálható adatcímkézési feladat létrehozására az új NER eszköz használatával egyéni sablonként.
Konkrétan a következőket fogjuk tenni:
- Hozzon létre egy privát címkézési munkaerőt a jelölési feladat elvégzéséhez
- Hozzon létre egy Ground Truth bemeneti jegyzéket a megjegyzésekkel ellátni kívánt dokumentumokkal, majd töltse fel Amazon Simple Storage Service (Amazon S3)
- Előcímkézési feladat és utócímkézési feladat Lambda függvények létrehozása
- Hozzon létre egy Ground Truth címkézési feladatot az egyéni NER-sablon segítségével
- Írjon megjegyzéseket a dokumentumokhoz
- Tekintse át az eredményeket
NER eszközforrások
A hivatkozott források és a mintadokumentumok teljes listája a következő táblázatban található:
A munkaerő létrehozásának címkézése
A Ground Truth a SageMaker címkéző munkaerőt használja a dolgozók kezeléséhez és a feladatok elosztásához. Hozzon létre egy privát munkaerőt, egy ner-worker-team nevű munkavállalói csapatot, és rendelje magát a csapathoz a következő utasítások szerint. Privát munkaerő létrehozása (Amazon SageMaker konzol).
Miután hozzáadta magát egy privát munkaerőhöz, és megerősítette e-mail-címét, jegyezze fel a dolgozói portál URL-jét az AWS Management Console-ból:
- navigáljon
SageMaker
- navigáljon
Ground Truth → Labeling workforces
- Válassza ki a
Private
lap - Jegyezze fel az URL-t
Labeling portal sign-in URL
Jelentkezzen be a dolgozói portálra a címkézési feladatok megtekintéséhez és megkezdéséhez.
Beviteli jegyzék
A Ground Truth bemeneti adatok jegyzéke egy JSON-lines fájl, amelyben minden sor egyetlen feldolgozói feladatot tartalmaz. Esetünkben minden sor egyetlen JSON-kódolású beviteli dokumentumot tartalmaz, amely tartalmazza a megjegyzésekkel ellátni kívánt szöveget és a NER megjegyzési sémát.
Töltse le a bemeneti jegyzékmintát reviews.manifest
ból ből https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest
Megjegyzések: a beviteli jegyzék minden sorához szükség van egy legfelső szintű kulcsra source
or source-ref
. Bővebben itt tudhat meg Használjon bemeneti jegyzékfájlt az Amazon SageMaker fejlesztői útmutatójában.
Töltsd fel az Input Manifestet az Amazon S3-ra
Töltse fel ezt a bemeneti jegyzéket egy S3 tárolóba az AWS Management Console használatával vagy a parancssorból, ezzel cserélve le your-bucket
tényleges vödörnévvel.
Egyéni dolgozói sablon letöltése
Töltse le a NER eszköz egyéni dolgozói sablonját innen https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html a forrás megtekintésével és a tartalom helyi mentésével vagy a parancssorból:
Előcímkézési feladat és utócímkézési feladat Lambda függvények létrehozása
Töltse le a Lambda függvény előcímkézési feladatának mintáját: smgt-ner-pre-labeling-task-lambda.py
ból ből https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py
Töltse le a Lambda függvény előcímkézési feladatának mintáját: smgt-ner-post-labeling-task-lambda.py
ból ből https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py
- Előcímkézési feladat Lambda funkció létrehozása az AWS Management Console-ból:
- navigáljon
Lambda
- választ
Create function
- Adja meg
Function name
assmgt-ner-pre-labeling-task-lambda
- választ
Runtime
→Python 3.6
- választ
Create function
- In
Function code
→lambda_hanadler.py
, illessze be a tartalmátsmgt-ner-pre-labeling-task-lambda.py
- választ
Deploy
- navigáljon
- Hozzon létre utócímkézési feladat Lambda funkciót az AWS Management Console-ból:
- navigáljon
Lambda
- választ
Create function
- Adja meg
Function name
assmgt-ner-post-labeling-task-lambda
- választ
Runtime
→Python 3.6
- Bontsa
Change default execution role
- választ
Create a new role from AWS policy templates
- Lépjen be a
Role name
:smgt-ner-post-labeling-task-lambda-role
- választ
Create function
- Válassza ki a
Permissions
lap - Válassza ki a
Role name
:smgt-ner-post-labeling-task-lambda-role
az IAM konzol megnyitásához - Adjon hozzá két szabályzatot a szerephez
- választ
Attach policies
- Csatlakoztassa a
AmazonS3FullAccess
politika - választ
Add inline policy
- Válassza ki a
JSON
lap - Illessze be a következő soron belüli szabályzatot:
- választ
- Navigáljon vissza a
smgt-ner-post-labeling-task-lambda
Lambda funkció konfigurációs oldal - Válassza ki a
Configuration
lap - In
Function code
→ lambda_hanadler.py
, illessze be a tartalmátsmgt-ner-post-labeling-task-lambda.py
- választ
Deploy
- navigáljon
Hozzon létre egy Ground Truth címkézési feladatot
Az AWS felügyeleti konzolról:
- Navigáljon a
Amazon SageMaker
szolgáltatás - navigáljon
Ground Truth
→Labeling Jobs
. - választ
Create labeling job
- Adja meg a
Job Name
- választ
Manual Data Setup
- Adja meg a bemeneti adatkészlet helyét, ahová korábban feltöltötte a bemeneti jegyzéket (pl
3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl
) - Adja meg a kimeneti adatkészlet helyét, hogy ugyanabban a tárolóban egy másik mappára mutasson (pl.
s3://your-bucket/ner-output/
) - Adjon meg egy
IAM Role
kiválasztásávalCreate new role
- Engedélyezze ennek a szerepkörnek, hogy hozzáférjen bármely S3-csoporthoz a kiválasztással
S3 buckets you specify
→Any S3 bucket
a házirend létrehozásakor - Egy új AWS Management Console ablakban nyissa meg a
IAM
konzol és válassza kiRoles
- Keresse meg az imént létrehozott szerep nevét (például
AmazonSageMaker-ExecutionRole-20210301T154158
) - Válassza ki a szerepkör nevét a szerepkör megnyitásához a konzolon
- Csatolja a következő három irányelvet:
- Válassza az Irányelvek csatolása lehetőséget
- Csatlakoztassa a
AWSLambda_FullAccess
a szerephez - választ
Trust Relationships
→Edit Trust Relationships
- A bizalmi kapcsolat JSON szerkesztése,
- Cserélje
YOUR_ACCOUNT_NUMBER
számszerű AWS-számlaszámával, így olvasható: - Mentsd meg a bizalmi kapcsolatot
- Engedélyezze ennek a szerepkörnek, hogy hozzáférjen bármely S3-csoporthoz a kiválasztással
- Térjen vissza az új Ground Truth feladathoz az előző AWS Management Console ablakban: alatt
Task Category
válasszaCustom
- választ
Next
- választ
Worker types
:Private
- Válassza ki a
Private team
:ner-worker-team
amelyet az előző részben hoztak létre - A
Custom labeling task setup
szöveges területen, törölje az alapértelmezett tartalmat, és illessze be a tartalmátworker-template.liquid.html
korábban szerzett fájl - Határozza meg a
Pre-labeling task Lambda function
a korábban létrehozott függvénnyel:smgt-ner-pre-labeling
- Határozza meg a
Post-labeling task Lambda function
a korábban létrehozott függvénnyel:smgt-ner-post-labeling
- választ
Create
Írjon megjegyzéseket a dokumentumokhoz
A Ground Truth feladat létrehozása után megkezdhetjük a dokumentumok annotálását. Nyissa meg a korábban létrehozott munkaerő portált (az AWS Management Console-ban navigáljon a SageMaker
, Ground Truth → Labeling workforces
, Private
, és nyissa meg a Labeling portal sign-in URL
)
Jelentkezzen be, és válassza ki a táblázat első címkézési feladatát, majd válassza a „Munkakezdés” lehetőséget a jegyzettár megnyitásához. Végezze el a megjegyzéseket, és válassza a beküldést mindhárom dokumentumminta esetében.
Tekintse át az eredményeket
Amint a Ground Truth annotátorok elvégzik a feladatokat, az eredmények elérhetők lesznek az S3 kimeneti tárolóban:
Miután a címkézési munkához tartozó összes feladat befejeződött, az összevont kimenet elérhető a következőben output.manifest
itt található fájl:
Ez a kimeneti jegyzék egy JSON-soros fájl, soronként egy megjegyzéssel ellátott szöveges dokumentummal a korábban megadott „Kimeneti dokumentum formátumban”. Ez a fájl kompatibilis az „Input Document Format”-tal, és közvetlenül betáplálható egy következő Ground Truth-feladatba egy újabb kommentárhoz. Alternatív megoldásként elemezhető és elküldhető egy ML képzési feladathoz. Néhány forgatókönyv, ahol a megjegyzések második körét alkalmazhatjuk:
- Az annotációs folyamat két lépésre bontása, ahol az első annotátor azonosítja az entitás annotációkat, a második annotátor pedig kapcsolatokat rajzol
- Minta vételünkről
output.manifest
és minőség-ellenőrzés céljából elküldi egy második, tapasztaltabb jegyzőnek felülvizsgálatra
Egyéni Ground Truth annotációs sablonok
Az ebben a dokumentumban ismertetett NER annotációs eszköz egyéni Ground Truth annotációs sablonként van megvalósítva. Az AWS-ügyfelek az itt található utasítások alapján elkészíthetik saját egyéni kommentárfelületeiket:
Következtetés
A Booking.com és az Amazon MLSL közös munkával egy hatékony szöveges annotációs eszközt tudott kifejleszteni, amely képes összetett elnevezett entitás-felismerési és kapcsolati megjegyzések létrehozására.
Arra biztatjuk az AWS-ügyfeleket, akiknél NER szöveges megjegyzések vannak, hogy próbálják ki az ebben a bejegyzésben leírt eszközt. Ha segítségre van szüksége az ML használatának felgyorsításához termékeiben és szolgáltatásaiban, kérjük, forduljon a Amazon Machine Learning Solutions Lab.
A szerzőkről
Dan Noble az Amazon szoftverfejlesztő mérnöke, ahol segít elragadó felhasználói élmény kialakításában. Szabadidejében szívesen olvas, sportol és családjával kalandozik.
Pri Nonis Deep Learning Architect az Amazon ML Solutions Labnál, ahol különféle ágazatokban dolgozik ügyfelekkel, és segít nekik felgyorsítani a felhőbe való migrációjukat, valamint a legmodernebb megoldások és technológiák segítségével megoldani az ML problémáikat.
Niharika Jayanthi az AWS front-end mérnöke, ahol egyéni annotációs megoldásokat fejleszt az Amazon SageMaker ügyfelei számára. Munkán kívül szívesen jár múzeumokba és edzeni.
Amit Beka gépi tanulási menedzser a cégnél Booking.com, több mint 15 éves szoftverfejlesztési és gépi tanulási tapasztalattal. Lenyűgözik az emberek és a nyelvek, és hogy a számítógépek még mindig zavarba jönnek mindkettő miatt.
- '
- 100
- 11
- 7
- Rólunk
- hozzáférés
- Fiók
- számvitel
- át
- Akció
- mellett
- További
- Minden termék
- amazon
- Amazon gépi tanulás
- Amazon SageMaker
- Kétértelműség
- elemzés
- TERÜLET
- elérhető
- Mindenki számára elérhető
- AWS
- Kezdet
- hogy
- épít
- Épület
- ami
- esetek
- besorolás
- felhő
- kód
- gyűjtemény
- bonyolult
- számítógépek
- Configuration
- megfontolás
- Konzol
- tartalom
- tartalom
- tudott
- létrehozása
- kritikai
- Vásárlói élmény
- Ügyfelek
- dátum
- mély tanulás
- Fejleszt
- Fejlesztő
- Fejlesztés
- különböző
- dokumentumok
- Nem
- könnyen
- hatás
- Emoji
- ösztönzése
- mérnök
- stb.
- példa
- végrehajtás
- elvárja
- tapasztalat
- Tapasztalatok
- család
- Fed
- Visszacsatolás
- Fields
- Végül
- vezetéknév
- alkalmasság
- élelmiszer
- formátum
- talált
- Tele
- funkció
- gif
- megy
- Vendég
- útmutató
- segít
- segít
- itt
- Kiemel
- szálloda
- Hogyan
- How To
- HTTPS
- IAM
- végre
- fontos
- Beleértve
- index
- egyéni
- IT
- JavaScript
- Munka
- utazás
- Kulcs
- címkézés
- Címkék
- nyelv
- Nyelvek
- nagy
- vezető
- TANUL
- tanulás
- Jogi
- szint
- szintek
- vonal
- LINK
- Folyadék
- Lista
- listák
- helyileg
- elhelyezkedés
- keres
- gépi tanulás
- vezetés
- jel
- piacára
- Mérkőzés
- meta
- bánja
- ML
- modell
- több
- Múzeumok
- nevek
- Természetes nyelv
- Természetes nyelvi feldolgozás
- szükséges
- NLP
- számok
- Ajánlatok
- eltolt
- online
- nyitva
- nyit
- Alkalom
- Más
- Emberek (People)
- kifejezés
- emelvény
- Platformok
- Politikák
- politika
- medence
- Portál
- post-járvány
- erős
- ár
- Fő
- magán
- folyamat
- Termékek
- Programozás
- programozási nyelvek
- ingatlan
- ad
- biztosít
- Piton
- világítás
- kérdés
- Olvasás
- Kapcsolatok
- követelmények
- forrás
- Tudástár
- étterem
- Eredmények
- Kritika
- Vélemények
- Szobák
- sagemaker
- megtakarítás
- Skála
- értelemben
- érzés
- Szolgáltatások
- készlet
- rövid
- Egyszerű
- So
- szoftver
- szoftverfejlesztés
- Megoldások
- SOLVE
- Hely
- sebesség
- kezdet
- nyilatkozat
- tartózkodás
- tárolás
- támogatás
- cél
- Technologies
- The Source
- idő
- együtt
- tokenizálás
- tokenek
- szerszám
- felső
- felső szint
- vágány
- hagyományos
- Képzések
- utazás
- kezelésére
- kezeli
- Bízzon
- us
- Felhasználók
- érték
- változat
- Megnézem
- Mit
- belül
- Munka
- dolgozott
- dolgozók
- munkaerő
- dolgozó
- edzeni
- művek
- világ
- világ
- lenne
- év