Label Text For Aspect-based Sentiment Analysis Using SageMaker Ground Truth

Újra kiadta Platón

Követő: 0

Az Amazon Machine Learning Solutions Lab (MLSL) a közelmúltban létrehozott egy eszközt a szöveghez névre szóló entitásfelismeréssel (NER) és kapcsolatcímkékkel történő megjegyzésekhez. Amazon SageMaker Ground Truth. A jegyzők ezt az eszközt használják a szöveg megnevezett entitásokkal való címkézésére és kapcsolataik összekapcsolására, ezáltal adatkészletet hoznak létre a legmodernebb természetes nyelvi feldolgozási (NLP) gépi tanulási (ML) modellek betanításához. A legfontosabb, hogy ez most nyilvánosan elérhető minden AWS-ügyfél számára.

Ügyfélhasználati eset: Booking.com

Booking.com a világ egyik vezető online utazási platformja. A kiváló ügyfélélmény fenntartásához elengedhetetlen, hogy megértsük, mit mondanak az ügyfelek a cég több mint 28 millió ingatlanáról a platformon. Korábban a Booking.com csak a hagyományos hangulatelemzést tudta felhasználni az ügyfelek által generált értékelések széles körű értelmezésére. Ezen értelmezések pontosabbá tétele érdekében a Booking.com nemrégiben az MLSL-hez fordult segítségért egy egyedi, annotált adatkészlet felépítéséhez, amely szempont alapú hangulatelemzési modellt taníthat.

A hagyományos hangulatelemzés az a folyamat, amely során egy szöveget pozitívnak, negatívnak vagy semlegesnek minősítenek a egyedi érzés. Ezzel nagyjából megérthetjük, hogy a felhasználók elégedettek-e vagy elégedetlenek egy adott élménnyel. Például a hagyományos érzelemanalízissel a következő szöveg „semlegesnek” minősíthető:

A szállodában való tartózkodásunk kellemes volt. A személyzet barátságos és a szobák tiszták voltak, de az ágyaink meglehetősen kényelmetlenek voltak.

Az aspektusalapú érzéselemzés árnyaltabb tartalommegértést tesz lehetővé. A Booking.com esetében ahelyett, hogy az ügyfélvéleményt egészében venné, és kategorikusan osztályozná, inkább a véleményből meríthet véleményt, és meghatározott szempontokhoz rendelheti. Például egy adott szállodáról szóló vásárlói vélemények dicsérhetik a makulátlan medencét és a fitnesztermet, de kritikus visszajelzést adnak az étteremről és a társalgóról.

Az a kijelentés, amelyet a hagyományos érzéselemzés „semlegesnek” minősített volna, az aspektus alapú érzelemanalízissel a következő lesz:

A szállodában való tartózkodásunk kellemes volt. A személyzet barátságos és a szobák tiszták voltak, de az ágyaink meglehetősen kényelmetlenek voltak.

Szálloda: Pozitív
Személyzet: Pozitív
Szoba: Pozitív
Ágyak: Negatív

A Booking.com egy egyéni szempont alapú hangulatelemzési modell felépítésére törekedett, amely megmondja nekik, hogy a vendégélmény mely részei (egy több mint 50 szempontot tartalmazó listából) pozitív, negatívvagy semleges.

Mielőtt a Booking.com létrehozhatna egy képzési adatkészletet ehhez a modellhez, szükség volt egy módra a megjegyzésekkel ellátni. Az MLSL annotációs eszköze biztosította a nagyon szükséges testreszabott megoldást. Emberi felülvizsgálatot végeztek a szállodaértékelések nagy gyűjteményén. Ezután az annotátorok megnevezett entitás kommentárt készítettek a hangulati és vendégélményi szövegszakaszokról és kifejezésekről, mielőtt összekapcsolták volna a megfelelő szakaszokat.

Az új szempontalapú modell lehetővé teszi a Booking.com számára, hogy a szállásokat és az értékeléseket is személyre szabja ügyfelei számára. Az egyes szálláshelyek pozitív és negatív aspektusainak kiemelése lehetővé teszi az ügyfelek számára, hogy megtalálják a számukra legmegfelelőbbet. Ezenkívül a különböző ügyfelek a szálláshely különböző aspektusaival foglalkoznak, és az új modell lehetőséget ad arra, hogy mindegyikük számára a legrelevánsabb véleményeket mutassák meg.

Címkézési követelmények

Bár a Ground Truth beépített NER-szövegjegyzet-lehetőséget biztosít, nem teszi lehetővé az entitások összekapcsolását. Ezt szem előtt tartva a Booking.com és az MLSL a következő magas szintű követelményeket dolgozta ki egy új elnevezett entitásfelismerő szövegcímkéző eszközhöz, amely:

Bemenetként elfogad: szöveg, entitáscímkék, kapcsolati címkékés osztályozási címkék.
Opcionálisan elfogadja bemeneti előre megjegyzésekkel ellátott adatokat az előző címkével és kapcsolati megjegyzésekkel.
Az annotátort megjegyzés nélküli vagy előre jegyzett szöveggel jeleníti meg.
Lehetővé teszi az annotátorok számára tetszőleges szöveg kiemelését és megjegyzését entitáscímkével.
Lehetővé teszi az annotátorok számára, hogy kapcsolatokat hozzanak létre két entitásannotáció között.
Lehetővé teszi az annotátorok számára, hogy könnyedén navigáljanak nagyszámú entitáscímkék között.
Támogatja az entitáscímkék kategóriákba csoportosítását.
Engedélyezze az átfedő kapcsolatokat, ami azt jelenti, hogy ugyanaz a megjegyzésekkel ellátott szövegszegmens egynél több másik megjegyzéssel ellátott szövegszegmenshez kapcsolódhat.
Lehetővé teszi az átfedő entitáscímke-annotációkat, ami azt jelenti, hogy két megjegyzés átfedheti ugyanazt a szövegrészt. Például a „Seattle Space Needle” szövegben szerepelhet a „Seattle” → „helyek” és a „Seattle Space Needle” → „látnivalók” megjegyzés.
A kimeneti formátum kompatibilis a bemeneti formátummal, és visszacsatolható a későbbi címkézési feladatokhoz.
Támogatja az UTF-8 kódolású, hangulatjeleket és egyéb többbájtos karaktereket tartalmazó szöveget.
Támogatja a balról jobbra író nyelveket.

Minta annotáció

Vegye figyelembe a következő dokumentumot:

Imádtuk a szálloda elhelyezkedését! A tetőtéri társalgó tökéletes kilátást nyújtott nekünk az űrtűre. Rövid autóútra van a csukapiactól és a vízparttól.
Az ételt csak szobaszervizen keresztül lehetett beszerezni, ami kissé kiábrándító volt, de ésszerű ebben a járvány utáni világban.
Összességében egy elfogadható árú élmény.

Ha betölti ezt a dokumentumot az új NER-annotációba, a dolgozó a következő felülettel jelenik meg:

A dolgozónak egy megjegyzés nélküli dokumentumot nyújtottak be

Ebben az esetben a munkavállaló feladata:

Az ingatlanhoz kapcsolódó entitások címkézése (helyszín, ár, élelmiszer stb.)
A hangulathoz kapcsolódó entitások címkézése (pozitív, negatív vagy semleges)
Kapcsolja össze a tulajdonhoz kapcsolódó megnevezett entitásokat a hangulattal kapcsolatos kulcsszavakkal, hogy pontosan rögzítse a vendég élményét

Annotációkat végző dolgozó

Az eszköznél fontos szempont volt a megjegyzések sebessége. Az intuitív billentyűparancsok és egérmozdulatok sorozatával a jegyzők irányíthatják a felületet, és:

Adjon hozzá és távolítson el elnevezett entitás megjegyzéseket
Adjon hozzá kapcsolatokat a megnevezett entitások között
Ugrás a dokumentum elejére és végére
Nyújtsa be a dokumentumot

Ezenkívül támogatja az átfedő címkéket. Például, Seattle Space Needle: ebben a kifejezésben Seattle önmagában helyként és a látványosság nevének részeként is fel van tüntetve.

Az elkészült annotáció teljesebb, árnyaltabb elemzést nyújt az adatokról:

Elkészült dokumentum

A kapcsolatok számos szinten konfigurálhatók, az entitáskategóriáktól a többi entitáskategóriáig (például az „ételtől” a „hangulatig”), vagy az egyes entitástípusok között. A kapcsolatok irányítottak, így az annotátorok összekapcsolhatnak egy szempontot, például az ételt egy érzéssel, de fordítva nem (hacsak nincs kifejezetten engedélyezve). A kapcsolatok rajzolásakor a megjegyzés eszköz automatikusan levezeti a kapcsolat címkéjét és irányát.

A NER megjegyzés eszköz konfigurálása

Ebben a részben bemutatjuk, hogyan szabhatja testre a NER annotációs eszközt az ügyfél-specifikus használati esetekhez. Ez magában foglalja a konfigurálást:

A megjegyzéshez fűzött beviteli szöveg
Entitáscímkék
Kapcsolati címkék
Osztályozási címkék
Előre jegyzett adatok
Munkavállalói utasítások

Kitérünk a bemeneti és kimeneti dokumentumformátumok sajátosságaira, és mindegyikre mutatunk néhány példát.

Beviteli dokumentum formátum

A NER annotációs eszköz a következő JSON formátumú beviteli dokumentumot várja (a név mellett kérdőjellel ellátott mezők nem kötelezőek).

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; classificationLabels?: string[]; relationshipLabels?: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; entityAnnotations?: { id: string; start: number; end: number; text: string; label: string; labelCategory?: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta?: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; };
}

Dióhéjban a beviteli formátum a következő jellemzőkkel rendelkezik:

Bármelyik entityLabels or classificationLabels (vagy mindkettő) megjegyzést kell írnia.
If entityLabels akkor adottak relationshipLabels hozzáadható.
Kapcsolatok engedélyezhetők különböző entitás-/kategóriacímkék vagy ezek keveréke között.
A kapcsolat „forrása” az az entitás, amellyel az irányított nyíl kezdődik, míg a „cél” az, ahová tart.

Mező	típus	Leírás
szöveg	húr	Kívánt. Írjon be szöveget a megjegyzéshez.
tokenRows	húr[][]	Választható. A beviteli szöveg egyéni tokenizálása. Karakterláncok tömbje. A legfelső szintű tömb az egyes szövegsorokat (sortöréseket), a második szintű tömb pedig az egyes sorban lévő tokeneket jelöli. A beviteli szövegben szereplő összes karaktert/rúnát a tokenRows-ban kell figyelembe venni, beleértve a szóközöket is.
documentId	húr	Választható. Opcionális érték az ügyfelek számára a megjegyzésekkel ellátott dokumentum nyomon követéséhez.
entityLabels	tárgy[]	Kötelező, ha a classificationLabels mező üres. Entitáscímkék tömbje.
entityLabels[].name	húr	Kívánt. Az entitáscímke megjelenített neve.
entityLabels[].category	húr	Választható. Entitáscímke-kategória neve.
entityLabels[].shortName	húr	Választható. Jelenítse meg ezt a szöveget a megjegyzésekkel ellátott entitásokon a teljes név helyett.
entityLabels[].shortCategory	húr	Választható. Jelenítse meg ezt a szöveget az entitás megjegyzés legördülő menüjében a kategória nevének első négy betűje helyett.
entityLabels.color	húr	Választható. Hexadecimális színkód „#” előtaggal. Ha üres, akkor automatikusan színt rendel az entitáscímkéhez.
kapcsolatLabels	tárgy[]	Választható. Kapcsolati címkék tömbje.
kapcsolatLabels[].name	húr	Kívánt. A kapcsolatcímke megjelenített neve.
relationLabels[].allowedRelationships	tárgy[]	Választható. Értéktömb, amely korlátozza, hogy ez a kapcsolat milyen típusú forrás- és célentitáscímkékhez rendelhető. A tömb minden eleme együtt van „VAGY” felirattal.
relationLabels[].allowedRelationships[].sourceEntityLabelCategories	húr[]	A sourceEntityLabelCategories vagy a sourceEntityLabels (vagy mindkettő) beállításához szükséges. A kapcsolat jogi forrású entitáscímke-kategóriatípusainak listája.
relationLabels[].allowedRelationships[].targetEntityLabelCategories	húr[]	A targetEntityLabelCategories vagy a targetEntityLabels (vagy mindkettő) beállításához szükséges. A kapcsolat jogi célszemély-címkekategória-típusainak listája.
relationLabels[].allowedRelationships[].sourceEntityLabels	húr[]	A sourceEntityLabelCategories vagy a sourceEntityLabels (vagy mindkettő) beállításához szükséges. Az ehhez a kapcsolathoz tartozó jogi forrás entitás címketípusainak listája.
relationLabels[].allowedRelationships[].sourceEntityLabels	húr[]	A targetEntityLabelCategories vagy a targetEntityLabels (vagy mindkettő) beállításához szükséges. A kapcsolat jogi célszemély-címketípusainak listája.
besorolásCímkék	húr[]	Kötelező, ha az entityLabels üres. Dokumentumszintű besorolási címkék listája.
entityAnnotations	tárgy[]	Választható. Entitásjegyzetek tömbje a beviteli szöveg előzetes megjegyzéséhez.
entityAnnotations[].id	húr	Kívánt. Egyedi azonosító ehhez az entitásannotációhoz. Erre az entitásra hivatkozik a relationAnnotations alkalmazásban.
entityAnnotations[].start	szám	Kívánt. Indítsa el az entitásfeljegyzés rúnaeltolását.
entityAnnotations[].end	szám	Kívánt. Ennek az entitásfeljegyzésnek a rúna vége eltolása.
entityAnnotations[].text	húr	Kívánt. Szövegtartalom a kezdeti és a végi rúna eltolása között.
entityAnnotations[].label	húr	Kívánt. Társított entitáscímke neve (az entityLabels nevéből).
entityAnnotations[].labelCategory	húr	Opcionális.Kapcsolódó entitáscímke-kategória (az entityLabels kategóriáiból).
kapcsolatAnnotációk	tárgy[]	Választható. Kapcsolati megjegyzések tömbje.
relationAnnotations[].sourceEntityAnnotationId	húr	Kívánt. Forrás entitás annotáció azonosítója ehhez a kapcsolathoz.
relationAnnotations[].targetEntityAnnotationId	húr	Kívánt. Cél entitás annotáció azonosítója ehhez a kapcsolathoz.
kapcsolatAnnotations[].label	húr	Kívánt. Társított kapcsolatcímke neve.
osztályozásAnnotációk	húr[]	Választható. Osztályozások tömbje a dokumentum előzetes megjegyzéseivel.
meta	tárgy	Választható. További konfigurációs paraméterek.
meta.utasítások	húr	Választható. Utasítások a címkéző annotátorhoz Markdown formátumban.
meta.disableSubmitConfirmation	logikai	Választható. Állítsa igazra a megerősítési mód letiltásához.
meta.multiClassification	logikai	Választható. Állítsa igazra, hogy engedélyezze a többcímkés módot a classificationLabels számára.

Íme néhány mintadokumentum ennek a beviteli formátumnak a jobb megértéséhez

Az ehhez a sémához igazodó dokumentumok a Ground Truth számára a bemeneti jegyzékben lévő egyedi sorokként jelennek meg.

Kimeneti dokumentum formátum

A kimeneti formátumot úgy alakították ki, hogy könnyen visszacsatoljon egy új annotációs feladathoz. A kimeneti dokumentum opcionális mezői be vannak állítva, ha a bemeneti dokumentumban is be vannak állítva. Az egyetlen különbség a bemeneti és kimeneti formátumok között a meta tárgy.

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; relationshipLabels: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; classificationLabels?: string[]; entityAnnotations?: { id: string; start: number; end: number; text: string; labelCategory?: string; label: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; runes: string[]; rejected: boolean; rejectedReason: string; }
}

Mező	típus	Leírás
meta.elutasítva	logikai	Igaz értékre van állítva, ha a jegyző elutasította ezt a dokumentumot.
meta.rejectedReason	húr	A jegyző indoka a dokumentum elutasítására.
meta.rúnák	húr[]	Rúnák tömbje, amely a beviteli szöveg összes karakterét tartalmazza. Az entitás annotáció kezdeti és végi eltolásainak kiszámítására szolgál.

Íme egy minta kimeneti dokumentum, amely megjegyzésekkel ellátott:

Rúnák megjegyzése:

A „rúna” ebben az összefüggésben egyetlen kiemelhető karakter a szövegben, beleértve a többbájtos karaktereket, például az emojikat.

Mivel a különböző programozási nyelvek eltérően jelenítik meg a többbájtos karaktereket, a „Rúnák” használata minden kiemelhető karakter egyetlen atomi elemként történő meghatározásához azt jelenti, hogy egyértelmű módon leírhatunk egy adott szövegkijelölést.
Például a Python a svéd zászlót négy karakterként kezeli:

De a JavaScript ugyanazt az emojit két karakterként kezeli

A kétértelműség elkerülése érdekében a svéd zászlót (és az összes többi hangulatjelet és többbájtos karaktert) egyetlen atomelemként kezeljük.

Eltolás: Rúna helyzete a beviteli szöveghez viszonyítva (0 indextől kezdve)

NER megjegyzések végrehajtása a Ground Truth segítségével

Teljesen felügyelt adatcímkézési szolgáltatásként a Ground Truth képzési adatkészleteket készít az ML számára. Ebben a felhasználási esetben a Ground Truth segítségével szöveges dokumentumok gyűjteményét küldjük el a dolgozók csoportjának annotálás céljából. Végül megvizsgáljuk a minőséget.

A Ground Truth konfigurálható adatcímkézési feladat létrehozására az új NER eszköz használatával egyéni sablonként.

Konkrétan a következőket fogjuk tenni:

Hozzon létre egy privát címkézési munkaerőt a jelölési feladat elvégzéséhez
Hozzon létre egy Ground Truth bemeneti jegyzéket a megjegyzésekkel ellátni kívánt dokumentumokkal, majd töltse fel Amazon Simple Storage Service (Amazon S3)
Előcímkézési feladat és utócímkézési feladat Lambda függvények létrehozása
Hozzon létre egy Ground Truth címkézési feladatot az egyéni NER-sablon segítségével
Írjon megjegyzéseket a dokumentumokhoz
Tekintse át az eredményeket

NER eszközforrások

A hivatkozott források és a mintadokumentumok teljes listája a következő táblázatban található:

A munkaerő létrehozásának címkézése

A Ground Truth a SageMaker címkéző munkaerőt használja a dolgozók kezeléséhez és a feladatok elosztásához. Hozzon létre egy privát munkaerőt, egy ner-worker-team nevű munkavállalói csapatot, és rendelje magát a csapathoz a következő utasítások szerint. Privát munkaerő létrehozása (Amazon SageMaker konzol).

Miután hozzáadta magát egy privát munkaerőhöz, és megerősítette e-mail-címét, jegyezze fel a dolgozói portál URL-jét az AWS Management Console-ból:

navigáljon SageMaker
navigáljon Ground Truth → Labeling workforces
Válassza ki a Private lap
Jegyezze fel az URL-t Labeling portal sign-in URL

Jelentkezzen be a dolgozói portálra a címkézési feladatok megtekintéséhez és megkezdéséhez.

Beviteli jegyzék

A Ground Truth bemeneti adatok jegyzéke egy JSON-lines fájl, amelyben minden sor egyetlen feldolgozói feladatot tartalmaz. Esetünkben minden sor egyetlen JSON-kódolású beviteli dokumentumot tartalmaz, amely tartalmazza a megjegyzésekkel ellátni kívánt szöveget és a NER megjegyzési sémát.

Töltse le a bemeneti jegyzékmintát reviews.manifest ból ből https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest

Megjegyzések: a beviteli jegyzék minden sorához szükség van egy legfelső szintű kulcsra source or source-ref. Bővebben itt tudhat meg Használjon bemeneti jegyzékfájlt az Amazon SageMaker fejlesztői útmutatójában.

Töltsd fel az Input Manifestet az Amazon S3-ra

Töltse fel ezt a bemeneti jegyzéket egy S3 tárolóba az AWS Management Console használatával vagy a parancssorból, ezzel cserélve le your-bucket tényleges vödörnévvel.

aws s3 cp reviews.manifest s3://your-bucket/ner-input/reviews.manifest

Egyéni dolgozói sablon letöltése

Töltse le a NER eszköz egyéni dolgozói sablonját innen https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html a forrás megtekintésével és a tartalom helyi mentésével vagy a parancssorból:

wget https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html

Előcímkézési feladat és utócímkézési feladat Lambda függvények létrehozása

Töltse le a Lambda függvény előcímkézési feladatának mintáját: smgt-ner-pre-labeling-task-lambda.py ból ből https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py

Töltse le a Lambda függvény előcímkézési feladatának mintáját: smgt-ner-post-labeling-task-lambda.py ból ből https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py

Előcímkézési feladat Lambda funkció létrehozása az AWS Management Console-ból:
- navigáljon Lambda
- választ Create function
- Adja meg Function name as smgt-ner-pre-labeling-task-lambda
- választ Runtime → Python 3.6
- választ Create function
- In Function code → lambda_hanadler.py, illessze be a tartalmát smgt-ner-pre-labeling-task-lambda.py
- választ Deploy
Hozzon létre utócímkézési feladat Lambda funkciót az AWS Management Console-ból:
- navigáljon Lambda
- választ Create function
- Adja meg Function name as smgt-ner-post-labeling-task-lambda
- választ Runtime → Python 3.6
- Bontsa Change default execution role
- választ Create a new role from AWS policy templates
- Lépjen be a Role name: smgt-ner-post-labeling-task-lambda-role
- választ Create function
- Válassza ki a Permissions lap
- Válassza ki a Role name: smgt-ner-post-labeling-task-lambda-role az IAM konzol megnyitásához
- Adjon hozzá két szabályzatot a szerephez
  - választ Attach policies
  - Csatlakoztassa a AmazonS3FullAccess politika
  - választ Add inline policy
  - Válassza ki a JSON lap
  - Illessze be a következő soron belüli szabályzatot:
```
{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/AmazonSageMaker-ExecutionRole-*" }
}
```
- Navigáljon vissza a smgt-ner-post-labeling-task-lambda Lambda funkció konfigurációs oldal
- Válassza ki a Configuration lap
- In Function code → lambda_hanadler.py, illessze be a tartalmát smgt-ner-post-labeling-task-lambda.py
- választ Deploy

Hozzon létre egy Ground Truth címkézési feladatot

Az AWS felügyeleti konzolról:

Navigáljon a Amazon SageMaker szolgáltatás
navigáljon Ground Truth → Labeling Jobs.
választ Create labeling job
Adja meg a Job Name
választ Manual Data Setup
Adja meg a bemeneti adatkészlet helyét, ahová korábban feltöltötte a bemeneti jegyzéket (pl3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl)
Adja meg a kimeneti adatkészlet helyét, hogy ugyanabban a tárolóban egy másik mappára mutasson (pl. s3://your-bucket/ner-output/)
Adjon meg egy IAM Role kiválasztásával Create new role
- Engedélyezze ennek a szerepkörnek, hogy hozzáférjen bármely S3-csoporthoz a kiválasztással S3 buckets you specify → Any S3 bucket a házirend létrehozásakor
- Egy új AWS Management Console ablakban nyissa meg a IAM konzol és válassza ki Roles
- Keresse meg az imént létrehozott szerep nevét (például AmazonSageMaker-ExecutionRole-20210301T154158)
- Válassza ki a szerepkör nevét a szerepkör megnyitásához a konzolon
- Csatolja a következő három irányelvet:
  - Válassza az Irányelvek csatolása lehetőséget
  - Csatlakoztassa a AWSLambda_FullAccess a szerephez
  - választ Trust Relationships → Edit Trust Relationships
  - A bizalmi kapcsolat JSON szerkesztése,
  - Cserélje YOUR_ACCOUNT_NUMBER számszerű AWS-számlaszámával, így olvasható:
```
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": "sts:AssumeRole" }, { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/smgt-ner-post-labeling-task-lambda-role" }, "Action": "sts:AssumeRole" } ]
}
```
  - Mentsd meg a bizalmi kapcsolatot
Térjen vissza az új Ground Truth feladathoz az előző AWS Management Console ablakban: alatt Task Categoryválassza Custom
választ Next
választ Worker types: Private
Válassza ki a Private team : ner-worker-team amelyet az előző részben hoztak létre
A Custom labeling task setup szöveges területen, törölje az alapértelmezett tartalmat, és illessze be a tartalmát worker-template.liquid.html korábban szerzett fájl
Határozza meg a Pre-labeling task Lambda function a korábban létrehozott függvénnyel: smgt-ner-pre-labeling
Határozza meg a Post-labeling task Lambda function a korábban létrehozott függvénnyel: smgt-ner-post-labeling
választ Create

Írjon megjegyzéseket a dokumentumokhoz

A Ground Truth feladat létrehozása után megkezdhetjük a dokumentumok annotálását. Nyissa meg a korábban létrehozott munkaerő portált (az AWS Management Console-ban navigáljon a SageMaker , Ground Truth → Labeling workforces, Private, és nyissa meg a Labeling portal sign-in URL )

Jelentkezzen be, és válassza ki a táblázat első címkézési feladatát, majd válassza a „Munkakezdés” lehetőséget a jegyzettár megnyitásához. Végezze el a megjegyzéseket, és válassza a beküldést mindhárom dokumentumminta esetében.

Tekintse át az eredményeket

Amint a Ground Truth annotátorok elvégzik a feladatokat, az eredmények elérhetők lesznek az S3 kimeneti tárolóban:

s3://your-bucket/path-to-your-ner-job/annotations/worker-response/iteration-1/0/

Miután a címkézési munkához tartozó összes feladat befejeződött, az összevont kimenet elérhető a következőben output.manifest itt található fájl:

s3://your-bucket/path-to-your-ner-job/manifests/output/output.manifest

Ez a kimeneti jegyzék egy JSON-soros fájl, soronként egy megjegyzéssel ellátott szöveges dokumentummal a korábban megadott „Kimeneti dokumentum formátumban”. Ez a fájl kompatibilis az „Input Document Format”-tal, és közvetlenül betáplálható egy következő Ground Truth-feladatba egy újabb kommentárhoz. Alternatív megoldásként elemezhető és elküldhető egy ML képzési feladathoz. Néhány forgatókönyv, ahol a megjegyzések második körét alkalmazhatjuk:

Az annotációs folyamat két lépésre bontása, ahol az első annotátor azonosítja az entitás annotációkat, a második annotátor pedig kapcsolatokat rajzol
Minta vételünkről output.manifest és minőség-ellenőrzés céljából elküldi egy második, tapasztaltabb jegyzőnek felülvizsgálatra

Egyéni Ground Truth annotációs sablonok

Az ebben a dokumentumban ismertetett NER annotációs eszköz egyéni Ground Truth annotációs sablonként van megvalósítva. Az AWS-ügyfelek az itt található utasítások alapján elkészíthetik saját egyéni kommentárfelületeiket:

Következtetés

A Booking.com és az Amazon MLSL közös munkával egy hatékony szöveges annotációs eszközt tudott kifejleszteni, amely képes összetett elnevezett entitás-felismerési és kapcsolati megjegyzések létrehozására.

Arra biztatjuk az AWS-ügyfeleket, akiknél NER szöveges megjegyzések vannak, hogy próbálják ki az ebben a bejegyzésben leírt eszközt. Ha segítségre van szüksége az ML használatának felgyorsításához termékeiben és szolgáltatásaiban, kérjük, forduljon a Amazon Machine Learning Solutions Lab.

A szerzőkről

Dan Noble az Amazon szoftverfejlesztő mérnöke, ahol segít elragadó felhasználói élmény kialakításában. Szabadidejében szívesen olvas, sportol és családjával kalandozik.

Pri Nonis Deep Learning Architect az Amazon ML Solutions Labnál, ahol különféle ágazatokban dolgozik ügyfelekkel, és segít nekik felgyorsítani a felhőbe való migrációjukat, valamint a legmodernebb megoldások és technológiák segítségével megoldani az ML problémáikat.

Niharika Jayanthi az AWS front-end mérnöke, ahol egyéni annotációs megoldásokat fejleszt az Amazon SageMaker ügyfelei számára. Munkán kívül szívesen jár múzeumokba és edzeni.

Amit Beka gépi tanulási menedzser a cégnél Booking.com, több mint 15 éves szoftverfejlesztési és gépi tanulási tapasztalattal. Lenyűgözik az emberek és a nyelvek, és hogy a számítógépek még mindig zavarba jönnek mindkettő miatt.

Forrás: https://aws.amazon.com/blogs/machine-learning/labeling-text-for-aspect-based-sentiment-analysis-using-sagemaker-ground-truth/

Időbélyeg: Január 14, 2022

Időbélyeg: May 14, 2021

Útmutató az AWS gépi tanulási csúcstalálkozóhoz

Forrás klaszter:

AWS gépi tanulási blog

Forrás csomópont: 1853785

Időbélyeg: May 25, 2021

Kognitív dokumentumfeldolgozás automatizált jelzálog-feldolgozáshoz

Forrás klaszter:

AWS gépi tanulási blog

Forrás csomópont: 825854

Időbélyeg: 23. április 2021.

Maximalizálja a TensorFlow teljesítményét az Amazon SageMaker végpontjain a valós idejű következtetés érdekében

Forrás klaszter:

AWS gépi tanulási blog

Forrás csomópont: 1853120

Időbélyeg: May 13, 2021

Használjon webböngésző beépülő modult a szöveg gyors fordításához az Amazon Translate segítségével

Forrás klaszter:

AWS gépi tanulási blog

Forrás csomópont: 1596423

Időbélyeg: 28. január 2022.

Címkeszöveg az aspektusalapú hangulatelemzéshez a SageMaker Ground Truth segítségével

Újra kiadta Platón

Ügyfélhasználati eset: Booking.com

Címkézési követelmények

Minta annotáció

A NER megjegyzés eszköz konfigurálása

Beviteli dokumentum formátum

Kimeneti dokumentum formátum

Rúnák megjegyzése:

NER megjegyzések végrehajtása a Ground Truth segítségével

NER eszközforrások

A munkaerő létrehozásának címkézése

Beviteli jegyzék

Töltsd fel az Input Manifestet az Amazon S3-ra

Egyéni dolgozói sablon letöltése

Előcímkézési feladat és utócímkézési feladat Lambda függvények létrehozása

Hozzon létre egy Ground Truth címkézési feladatot

Írjon megjegyzéseket a dokumentumokhoz

Tekintse át az eredményeket

Egyéni Ground Truth annotációs sablonok

Következtetés

A szerzőkről

Még több AWS gépi tanulási blog

Az Amazon Textract és az Amazon Comprehend segítségével szegmentálja a bekezdéseket, és ismerje meg a betekintést

RAPIDS és Amazon SageMaker: Növelje és bővítse az ML kihívásait

Az AWS és az NVIDIA elindítja a „Hands-on Machine Learning with Amazon SageMaker and NVIDIA GPUs” programját a Courserán

Építsen eseményalapú nyomkövetési megoldást az Amazon Lookout for Vision segítségével

Az Amazon Redshift adatainak feldolgozása és egy képzési folyamat ütemezése az Amazon SageMaker Processing és az Amazon SageMaker Pipelines segítségével

Egyszerűsítse a betegellátást egyéni hangasszisztenssel az Amazon Lex V2 használatával

Utófeldolgozás az Amazon Textract segítségével: Többoldalas táblázatkezelés

Készítsen adatokat a hitelkockázat előrejelzéséhez az Amazon SageMaker Data Wrangler és az Amazon SageMaker Clarify segítségével

Kognitív dokumentumfeldolgozás automatizált jelzálog-feldolgozáshoz

Maximalizálja a TensorFlow teljesítményét az Amazon SageMaker végpontjain a valós idejű következtetés érdekében

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók