Label Text For Aspect-based Sentiment Analysis Using SageMaker Ground Truth

Genudgivet af Platon

Abonnenter: 0

Amazon Machine Learning Solutions Lab (MLSL) har for nylig oprettet et værktøj til at kommentere tekst med navngivne enhedsgenkendelse (NER) og relationsetiketter ved hjælp af Amazon SageMaker Ground Truth. Annotatorer bruger dette værktøj til at mærke tekst med navngivne enheder og forbinde deres relationer, og derved opbygge et datasæt til træning af avancerede NLP-modeller (Natural Language Processing) maskinlæring (ML). Vigtigst af alt er dette nu offentligt tilgængeligt for alle AWS-kunder.

Kundebrug: Booking.com

Booking.com er en af verdens førende online rejseplatforme. At forstå, hvad kunderne siger om virksomhedens mere end 28 millioner ejendomsannoncer på platformen, er afgørende for at opretholde en kundeoplevelse i topklasse. Tidligere kunne Booking.com kun bruge traditionel sentimentanalyse til at fortolke kundegenererede anmeldelser i stor skala. For at opgradere specificiteten af disse fortolkninger henvendte Booking.com sig for nylig til MLSL for at få hjælp til at opbygge et brugerdefineret kommenteret datasæt til træning af en aspektbaseret sentimentanalysemodel.

Traditionel følelsesanalyse er processen med at klassificere et stykke tekst som positiv, negativ eller neutral som en enestående følelse. Dette virker for bredt at forstå, om brugerne er tilfredse eller utilfredse med en bestemt oplevelse. For eksempel, med traditionel sentimentanalyse kan følgende tekst klassificeres som "neutral":

Vores ophold på hotellet var rart. Personalet var venligt og værelserne var rene, men vores senge var ret ubehagelige.

Aspektbaseret sentimentanalyse giver en mere nuanceret forståelse af indhold. I tilfælde af Booking.com, i stedet for at tage en kundeanmeldelse som en helhed og klassificere den kategorisk, kan den tage følelser fra en anmeldelse og tildele den til specifikke aspekter. For eksempel kan kundeanmeldelser af et givet hotel rose den pletfri pool og fitnessområdet, men give kritisk feedback på restauranten og loungen.

Udsagnet, der ville være blevet klassificeret som "neutralt" af traditionel stemningsanalyse, vil med aspektbaseret stemningsanalyse blive:

Vores ophold på hotellet var rart. Personalet var venligt og værelserne var rene, men vores senge var ret ubehagelige.

Hotel: Positivt
Personale: Positiv
Værelse: Positiv
Senge: Negativ

Booking.com søgte at opbygge en tilpasset aspektbaseret sentimentanalysemodel, der ville fortælle dem, hvilke specifikke dele af gæsteoplevelsen (fra en liste med 50+ aspekter) var positiv, negativ eller neutral.

Før Booking.com kunne bygge et træningsdatasæt til denne model, havde de brug for en måde at annotere det på. MLSLs annotationsværktøj leverede den tiltrængte skræddersyede løsning. Human review blev udført på en stor samling hotelanmeldelser. Derefter fuldførte annotatorer annotering af navngivne enheder på følelser og gæsteoplevelsestekstspænd og sætninger, før de sammenkædede passende spænd.

Den nye aspektbaserede model giver Booking.com mulighed for at personliggøre både indkvartering og anmeldelser til sine kunder. Fremhævelse af de positive og negative aspekter af hver bolig gør det muligt for kunderne at vælge deres perfekte match. Derudover bekymrer forskellige kunder sig om forskellige aspekter af boligen, og den nye model åbner mulighed for at vise de mest relevante anmeldelser til hver enkelt.

Mærkningskrav

Selvom Ground Truth har en indbygget NER-tekstannoteringsfunktion, giver den ikke mulighed for at linke enheder sammen. Med dette i tankerne udarbejdede Booking.com og MLSL følgende høje krav til et nyt navngivet tekstmærkningsværktøj til enhedsgenkendelse, der:

Accepterer som input: tekst, enhedsetiketter, relationsetiketterog klassificeringsetiketter.
Accepterer valgfrit som input præ-kommenterede data med den foregående etiket og relationsannoteringer.
Præsenterer annotatoren med enten ukommenteret eller præ-kommenteret tekst.
Tillader annotatorer at fremhæve og kommentere vilkårlig tekst med en enhedsetiket.
Tillader annotatorer at skabe relationer mellem to enhedsannoteringer.
Giver annotatorer mulighed for nemt at navigere i et stort antal enhedsetiketter.
Understøtter gruppering af enhedsetiketter i kategorier.
Tillad overlappende relationer, hvilket betyder, at det samme kommenterede tekstsegment kan relateres til mere end ét andet kommenteret tekstsegment.
Tillader overlappende annoteringer af enhedsetiketter, hvilket betyder, at to annoteringer kan overlappe det samme stykke tekst. For eksempel kan teksten "Seattle Space Needle" have både annotationerne "Seattle" → "locations" og "Seattle Space Needle" → "attraktioner".
Outputformatet er kompatibelt med inputformatet, og det kan føres tilbage til efterfølgende mærkningsopgaver.
Understøtter UTF-8-kodet tekst, der indeholder emoji og andre multi-byte-tegn.
Understøtter venstre-til-højre sprog.

Eksempel på anmærkning

Overvej følgende dokument:

Vi elskede placeringen af dette hotel! Tagloungen gav os den perfekte udsigt over space needle. Det er også en kort køretur fra geddemarkedet og havnefronten.
Mad var kun tilgængelig via roomservice, hvilket var lidt skuffende, men giver mening i denne post-pandemiske verden.
Samlet set en oplevelse til en rimelig pris.

Indlæsning af dette dokument i den nye NER-annotation præsenterer en arbejder med følgende grænseflade:

Arbejder præsenteret for et ukommenteret dokument

I dette tilfælde er arbejderens opgave at:

Mærke enheder relateret til ejendommen (beliggenhed, pris, mad osv.)
Mærk enheder relateret til følelser (positive, negative eller neutrale)
Link ejendomsrelaterede navngivne enheder til sentimentrelaterede søgeord for præcist at fange gæstens oplevelse

Arbejder udfører anmærkninger

Annotationshastighed var en vigtig overvejelse af værktøjet. Ved at bruge en sekvens af intuitive tastaturgenveje og musebevægelser kan annotatorer styre grænsefladen og:

Tilføj og fjern navngivne enhedsannoteringer
Tilføj relationer mellem navngivne enheder
Hop til begyndelsen og slutningen af dokumentet
Indsend dokumentet

Derudover er der understøttelse af overlappende etiketter. For eksempel, Seattle Space Needle: i denne sætning, Seattle er annoteret både som et sted i sig selv og som en del af attraktionens navn.

Den færdige annotering giver en mere komplet, nuanceret analyse af dataene:

Færdiggjort dokument

Relationer kan konfigureres på mange niveauer, fra enhedskategorier til andre enhedskategorier (f.eks. fra "mad" til "sentiment") eller mellem individuelle enhedstyper. Relationer er rettet, så annotatorer kan knytte et aspekt som mad til en følelse, men ikke omvendt (medmindre det udtrykkeligt er aktiveret). Når du tegner relationer, vil anmærkningsværktøjet automatisk udlede relationsetiketten og retningen.

Konfiguration af NER Annotation Tool

I dette afsnit dækker vi, hvordan du tilpasser NER-annotationsværktøjet til kundespecifikke use cases. Dette inkluderer konfiguration af:

Den inputtekst, der skal kommenteres
Enhedsetiketter
Relationsmærker
Klassifikationsetiketter
Forannoterede data
Arbejdsinstruktioner

Vi dækker detaljerne i input- og outputdokumentformaterne samt giver nogle eksempler på hver.

Indtast dokumentformat

NER-annotationsværktøjet forventer følgende JSON-formaterede inputdokument (Felter med et spørgsmålstegn ved siden af navnet er valgfrie).

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; classificationLabels?: string[]; relationshipLabels?: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; entityAnnotations?: { id: string; start: number; end: number; text: string; label: string; labelCategory?: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta?: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; };
}

I en nøddeskal har inputformatet disse egenskaber:

Enten entityLabels or classificationLabels (eller begge) er påkrævet for at kommentere.
If entityLabels er da givet relationshipLabels kan tilføjes.
Relationer kan tillades mellem forskellige enheds-/kategorietiketter eller en blanding af disse.
"Kilden" til et forhold er den enhed, som den rettede pil starter med, mens "målet" er, hvor det er på vej hen.

Felt	Type	Beskrivelse
tekst	streng	Påkrævet. Indtast tekst til annotering.
tokenRows	snor[][]	Valgfri. Brugerdefineret tokenisering af inputtekst. Array af arrays af strenge. Topniveau-array repræsenterer hver række af tekst (linjeskift), og andet niveau-array repræsenterer tokens på hver række. Alle tegn/runer i inputteksten skal medregnes i tokenRows, inklusive eventuelle hvide mellemrum.
dokument-id	streng	Valgfri. Valgfri værdi for kunder til at holde styr på dokument, der kommenteres.
enhedsetiketter	objekt[]	Påkrævet, hvis classificationLabels er blank. Vifte af enhedsetiketter.
entityLabels[].navn	streng	Påkrævet. Visningsnavn for enhedsetiketten.
entityLabels[].category	streng	Valgfri. Enhedsetiketkategorinavn.
entityLabels[].shortName	streng	Valgfri. Vis denne tekst over kommenterede enheder i stedet for det fulde navn.
entityLabels[].shortCategory	streng	Valgfri. Vis denne tekst i rullemenuen til valg af enhedsannotering i stedet for de første fire bogstaver i kategorinavnet.
entityLabels.color	streng	Valgfri. Hex farvekode med "#" præfiks. Hvis den er tom, tildeler den automatisk en farve til enhedsetiketten.
relationsetiketter	objekt[]	Valgfri. Række af relationsetiketter.
relationLabels[].navn	streng	Påkrævet. Visningsnavn for relationsetiket.
relationLabels[].allowedRelationer	objekt[]	Valgfri. Matrix af værdier, der begrænser, hvilke typer kilde- og destinationsenhedsetiketter denne relation kan tildeles. Hvert element i array er "ELLER'et" sammen.
relationLabels[].allowedRelationships[].sourceEntityLabelCategories	snor[]	Påkrævet for at angive enten sourceEntityLabelCategories eller sourceEntityLabels (eller begge dele). Liste over kategorityper for juridisk kildeenhed for denne relation.
relationLabels[].allowedRelationships[].targetEntityLabelCategories	snor[]	Påkrævet for at angive enten targetEntityLabelCategories eller targetEntityLabels (eller begge dele). Liste over kategorityper for juridiske målenheder for denne relation.
relationLabels[].allowedRelationships[].sourceEntityLabels	snor[]	Påkrævet for at angive enten sourceEntityLabelCategories eller sourceEntityLabels (eller begge dele). Liste over etikettyper for juridiske kilder for denne relation.
relationLabels[].allowedRelationships[].sourceEntityLabels	snor[]	Påkrævet for at angive enten targetEntityLabelCategories eller targetEntityLabels (eller begge dele). Liste over juridiske målenhedsetikettyper for denne relation.
klassifikationEtiketter	snor[]	Påkrævet, hvis entityLabels er tomt. Liste over klassifikationsetiketter på dokumentniveau.
entitetsannotationer	objekt[]	Valgfri. Array af entitetsannoteringer at pre-annotere inputtekst med.
entityAnnotations[].id	streng	Påkrævet. Unikt id for denne enhedsannotering. Bruges til at referere til denne enhed i relationAnnotations.
entityAnnotations[].start	nummer	Påkrævet. Start rune-offset for denne enhedsannotering.
entityAnnotations[].end	nummer	Påkrævet. Slut runeforskydning af denne enhedsannotering.
entityAnnotations[].tekst	streng	Påkrævet. Tekstindhold mellem start og slut rune offset.
entityAnnotations[].label	streng	Påkrævet. Tilknyttet enhedslabelnavn (fra navnene i entityLabels).
entityAnnotations[].labelCategory	streng	Valgfri. Tilknyttet enhedsetikettkategori (fra kategorierne i entityLabels).
forholdAnnotationer	objekt[]	Valgfri. Række af relationsannotationer.
relationAnnotations[].sourceEntityAnnotationId	streng	Påkrævet. Annotations-id for kildeenheden for denne relation.
relationAnnotations[].targetEntityAnnotationId	streng	Påkrævet. Målenhedsannoterings-id for denne relation.
relationAnnotationer[].label	streng	Påkrævet. Etiketnavn for associeret forhold.
klassifikationAnnoteringer	snor[]	Valgfri. Række af klassifikationer til at pre-annotere dokumentet med.
meta	objekt	Valgfri. Yderligere konfigurationsparametre.
meta.instruktioner	streng	Valgfri. Instruktioner til mærkningsannotatoren i Markdown-format.
meta.disableSubmitConfirmation	boolean	Valgfri. Indstil til sand for at deaktivere indsendelsesbekræftelsesmodal.
meta.multiClassification	boolean	Valgfri. Indstil til sand for at aktivere multi-label-tilstand for classificationLabels.

Her er et par eksempler på dokumenter for at få en bedre fornemmelse af dette inputformat

Dokumenter, der overholder dette skema, leveres til Ground Truth som individuelle linjeposter i et inputmanifest.

Output dokumentformat

Outputformatet er designet til nemt at give feedback til en ny anmærkningsopgave. Valgfrie felter i outputdokumentet indstilles, hvis de også er angivet i inputdokumentet. Den eneste forskel mellem input- og outputformaterne er meta objekt.

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; relationshipLabels: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; classificationLabels?: string[]; entityAnnotations?: { id: string; start: number; end: number; text: string; labelCategory?: string; label: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; runes: string[]; rejected: boolean; rejectedReason: string; }
}

Felt	Type	Beskrivelse
meta.afvist	boolean	Er sat til sand, hvis annotatoren afviste dette dokument.
meta.rejectedReason	streng	Annotators begrundelse for at afvise dokumentet.
meta.runer	snor[]	Array af runer, der står for alle tegnene i inputteksten. Bruges til at beregne enhedsannotations start- og slutforskydninger.

Her er et eksempel på et outputdokument, der er blevet kommenteret:

Runes note:

En "rune" i denne sammenhæng er et enkelt tegn, der kan fremhæves i tekst, inklusive multi-byte-tegn såsom emoji.

Fordi forskellige programmeringssprog repræsenterer multi-byte-tegn forskelligt, betyder det at bruge "Runer" til at definere hver enkelt karakter, der kan fremhæves, som et enkelt atomisk element, at vi har en utvetydig måde at beskrive et givet tekstvalg.
For eksempel behandler Python det svenske flag som fire tegn:

Men JavaScript behandler den samme emoji som to tegn

For at fjerne enhver tvetydighed vil vi behandle det svenske flag (og alle andre emoji- og multi-byte-tegn) som et enkelt atomelement.

Offset: Runeposition i forhold til inputtekst (startende med indeks 0)

Udførelse af NER-annotationer med Ground Truth

Som en fuldt administreret datamærkningstjeneste bygger Ground Truth træningsdatasæt til ML. Til denne brugssag bruger vi Ground Truth til at sende en samling tekstdokumenter til en pulje af arbejdere til annotering. Til sidst gennemgår vi kvaliteten.

Ground Truth kan konfigureres til at bygge et datamærkningsjob ved hjælp af det nye NER-værktøj som en brugerdefineret skabelon.

Konkret vil vi:

Opret en privat mærkningsarbejdsstyrke af arbejdere til at udføre anmærkningsopgaven
Opret et Ground Truth-inputmanifest med de dokumenter, vi ønsker at annotere, og upload det derefter til Amazon Simple Storage Service (Amazon S3)
Opret lambda-funktioner for præ-mærkningsopgave og post-etiketteringsopgave
Opret et Ground Truth-mærkningsjob ved hjælp af den brugerdefinerede NER-skabelon
Anmærk dokumenter
Gennemgå resultater

NER Værktøjsressourcer

En komplet liste over refererede ressourcer og eksempeldokumenter kan findes i følgende diagram:

Mærkning af arbejdsstyrke

Ground Truth bruger SageMaker-mærkning af arbejdsstyrker til at administrere arbejdere og fordele opgaver. Opret en privat arbejdsstyrke, et arbejdsteam kaldet ner-worker-team, og tildel dig selv til teamet ved at bruge instruktionerne i Opret en privat arbejdsstyrke (Amazon SageMaker Console).

Når du har tilføjet dig selv til en privat arbejdsstyrke og bekræftet din e-mail, skal du notere medarbejderportalens URL fra AWS Management Console:

Naviger til SageMaker
Naviger til Ground Truth → Labeling workforces
Vælg Private fanen
Bemærk URL'en Labeling portal sign-in URL

Log ind på medarbejderportalen for at se og begynde arbejdet med mærkningsopgaver.

Input manifest

Ground Truth-inputdatamanifestet er en JSON-linjefil, hvor hver linje indeholder en enkelt arbejderopgave. I vores tilfælde vil hver linje indeholde et enkelt JSON-kodet inputdokument, der indeholder den tekst, vi ønsker at annotere, og NER-annotationsskemaet.

Download et eksempel på inputmanifest reviews.manifest fra https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest

Bemærk: hver række i inputmanifestet skal have en nøgle på øverste niveau source or source-ref. Du kan lære mere i Brug en inputmanifestfil i Amazon SageMaker Developer Guide.

Upload inputmanifest til Amazon S3

Upload dette inputmanifest til en S3-bucket ved hjælp af AWS Management Console eller fra kommandolinjen, og erstatter derved your-bucket med et egentligt spandnavn.

aws s3 cp reviews.manifest s3://your-bucket/ner-input/reviews.manifest

Download tilpasset arbejderskabelon

Download NER-værktøjets brugerdefinerede arbejderskabelon fra https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html ved at se kilden og gemme indholdet lokalt eller fra kommandolinjen:

wget https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html

Opret lambda-funktioner for præ-mærkningsopgave og post-etiketteringsopgave

Download eksempel på præ-mærkning opgave Lambda funktion: smgt-ner-pre-labeling-task-lambda.py fra https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py

Download eksempel på præ-mærkning opgave Lambda funktion: smgt-ner-post-labeling-task-lambda.py fra https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py

Opret præ-mærkningsopgave Lambda-funktion fra AWS Management Console:
- Naviger til Lambda
- Type Create function
- Angiv Function name as smgt-ner-pre-labeling-task-lambda
- Type Runtime → Python 3.6
- Type Create function
- In Function code → lambda_hanadler.py, indsæt indholdet af smgt-ner-pre-labeling-task-lambda.py
- Type Deploy
Opret lambda-funktion efter mærkning af opgave fra AWS Management Console:
- Naviger til Lambda
- Type Create function
- Angiv Function name as smgt-ner-post-labeling-task-lambda
- Type Runtime → Python 3.6
- Udvid Change default execution role
- Type Create a new role from AWS policy templates
- Indtast Role name: smgt-ner-post-labeling-task-lambda-role
- Type Create function
- Vælg Permissions fanen
- Vælg Role name: smgt-ner-post-labeling-task-lambda-role for at åbne IAM-konsollen
- Tilføj to politikker til rollen
  - Type Attach policies
  - Vedhæft AmazonS3FullAccess politik
  - Type Add inline policy
  - Vælg JSON fanen
  - Indsæt følgende indlejrede politik:
```
{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/AmazonSageMaker-ExecutionRole-*" }
}
```
- Naviger tilbage til smgt-ner-post-labeling-task-lambda Lambdafunktions konfigurationsside
- Vælg Configuration fanen
- In Function code → lambda_hanadler.py, indsæt indholdet af smgt-ner-post-labeling-task-lambda.py
- Type Deploy

Opret et Ground Truth-mærkningsjob

Fra AWS Management Console:

Naviger til Amazon SageMaker tjeneste
Naviger til Ground Truth → Labeling Jobs.
Type Create labeling job
Angiv en Job Name
Type Manual Data Setup
Angiv placeringen af inputdatasæt, hvor du tidligere uploadede inputmanifestet (f.eks3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl)
Angiv outputdatasættets placering for at pege på en anden mappe i den samme bøtte (f.eks. s3://your-bucket/ner-output/)
Angiv en IAM Role ved at vælge Create new role
- Tillad denne rolle at få adgang til enhver S3-bøtte ved at vælge S3 buckets you specify → Any S3 bucket ved oprettelsen af politikken
- I et nyt AWS Management Console-vindue skal du åbne IAM konsol og vælg Roles
- Søg efter navnet på den rolle, du lige har oprettet (f.eks. AmazonSageMaker-ExecutionRole-20210301T154158)
- Vælg rollenavnet for at åbne rollen i konsollen
- Vedhæft følgende tre politikker:
  - Vælg Vedhæft politikker
  - Vedhæft AWSLambda_FullAccess til rollen
  - Type Trust Relationships → Edit Trust Relationships
  - Rediger tillidsforholdet JSON,
  - udskifte YOUR_ACCOUNT_NUMBER med dit numeriske AWS-kontonummer for at læse:
```
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": "sts:AssumeRole" }, { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/smgt-ner-post-labeling-task-lambda-role" }, "Action": "sts:AssumeRole" } ]
}
```
  - Red tillidsforholdet
Vend tilbage til det nye Ground Truth-job i det forrige AWS Management Console-vindue: under Task Category, Vælg Custom
Type Next
Type Worker types: Private
Vælg Private team : ner-worker-team som blev oprettet i det foregående afsnit
I Custom labeling task setup tekstområdet, ryd standardindholdet og indsæt indholdet af worker-template.liquid.html fil opnået tidligere
Angiv Pre-labeling task Lambda function med den tidligere oprettede funktion: smgt-ner-pre-labeling
Angiv Post-labeling task Lambda function med funktionen oprettet tidligere: smgt-ner-post-labeling
Type Create

Anmærk dokumenter

Når Ground Truth-jobbet er oprettet, kan vi begynde at kommentere dokumenter. Åbn medarbejderportalen for vores arbejdsstyrke, der er oprettet tidligere (i AWS Management Console, naviger til SageMaker , Ground Truth → Labeling workforces, Private, og åbn Labeling portal sign-in URL )

Log ind og vælg den første etiketteringsopgave i tabellen, og vælg derefter "Begynd at arbejde" for at åbne annotatoren. Udfør dine annoteringer, og vælg indsend på alle tre eksempeldokumenter.

Gennemgå resultater

Efterhånden som Ground Truth-annotatører udfører opgaver, vil resultaterne være tilgængelige i output S3-bøtten:

s3://your-bucket/path-to-your-ner-job/annotations/worker-response/iteration-1/0/

Når alle opgaver for et etiketteringsjob er fuldført, er det konsoliderede output tilgængeligt i output.manifest fil placeret her:

s3://your-bucket/path-to-your-ner-job/manifests/output/output.manifest

Dette outputmanifest er en JSON-linjefil med et kommenteret tekstdokument pr. linje i det tidligere specificerede "Outputdokumentformat". Denne fil er kompatibel med "Input Document Format", og den kan føres direkte ind i et efterfølgende Ground Truth-job til en anden runde med annotering. Alternativt kan det parses og sendes til et ML-uddannelsesjob. Nogle scenarier, hvor vi kan bruge en anden runde af annoteringer, er:

Opdeling af annoteringsprocessen i to trin, hvor den første annotator identificerer entitetsannoteringer, og den anden annotator tegner relationer
Tager en prøve af vores output.manifest og sende det til en anden, mere erfaren annotator til gennemgang som et kvalitetskontroltjek

Brugerdefinerede Ground Truth Annotations-skabeloner

NER-annotationsværktøjet beskrevet i dette dokument er implementeret som en brugerdefineret Ground Truth-annotationsskabelon. AWS-kunder kan bygge deres egne brugerdefinerede annotationsgrænseflader ved hjælp af instruktionerne, der findes her:

Konklusion

Ved at arbejde sammen var Booking.com og Amazon MLSL i stand til at udvikle et kraftfuldt tekstannoteringsværktøj, der er i stand til at skabe komplekse navngivne entitetsgenkendelser og relationsannotationer.

Vi opfordrer AWS-kunder med en NER-tekstannotationsbrug til at prøve værktøjet beskrevet i dette indlæg. Hvis du vil have hjælp til at fremskynde brugen af ML i dine produkter og tjenester, bedes du kontakte Amazon Machine Learning Solutions Lab.

Om forfatterne

Dan Noble er softwareudviklingsingeniør hos Amazon, hvor han hjælper med at opbygge dejlige brugeroplevelser. I sin fritid nyder han at læse, dyrke motion og have eventyr med sin familie.

Pri Nonis er Deep Learning Architect hos Amazon ML Solutions Lab, hvor han arbejder med kunder på tværs af forskellige vertikaler og hjælper dem med at accelerere deres cloud-migreringsrejse og med at løse deres ML-problemer ved hjælp af avancerede løsninger og teknologier.

Niharika Jayanthi er Front End Engineer hos AWS, hvor hun udvikler brugerdefinerede annotationsløsninger til Amazon SageMaker-kunder. Uden for arbejdet nyder hun at gå på museer og træne.

Amit Beka er Machine Learning Manager hos Booking.com, med over 15 års erfaring i softwareudvikling og maskinlæring. Han er fascineret af mennesker og sprog, og hvordan computere stadig undrer sig over begge dele.

Kilde: https://aws.amazon.com/blogs/machine-learning/labeling-text-for-aspect-based-sentiment-analysis-using-sagemaker-ground-truth/

Tidsstempel: Januar 14, 2022

Tidsstempel: November 11, 2021

Mærk tekst til aspektbaseret sentimentanalyse ved hjælp af SageMaker Ground Truth

Genudgivet af Platon

Kundebrug: Booking.com

Mærkningskrav

Eksempel på anmærkning

Konfiguration af NER Annotation Tool

Indtast dokumentformat

Output dokumentformat

Runes note:

Udførelse af NER-annotationer med Ground Truth

NER Værktøjsressourcer

Mærkning af arbejdsstyrke

Input manifest

Upload inputmanifest til Amazon S3

Download tilpasset arbejderskabelon

Opret lambda-funktioner for præ-mærkningsopgave og post-etiketteringsopgave

Opret et Ground Truth-mærkningsjob

Anmærk dokumenter

Gennemgå resultater

Brugerdefinerede Ground Truth Annotations-skabeloner

Konklusion

Om forfatterne

Mere fra AWS Machine Learning Blog

Brug af containerbilleder til at køre TensorFlow-modeller i AWS Lambda

Integrering af Amazon Polly med ældre IVR-systemer ved at konvertere output til WAV-format

Kør AlphaFold v2.0 på Amazon EC2

Amazon Forecast giver nu estimeret køretid til prognoseoprettelsesjob, så du kan administrere din tid effektivt

Forbedre din maskinlæringsudvikling ved at bruge en modulær arkitektur med Amazon SageMaker-projekter

Deltagermatchmaking ved virtuelle begivenheder med Amazon Personalize

Sikker adgang til Amazon SageMaker Studio med AWS SSO og en SAML-applikation

Hvordan TourRadar automatiserer oversættelsesprocessen ved hjælp af Amazon EventBridge og Amazon Translate

Tilpas Amazon Translate-output for at opfylde dit domæne- og organisationsspecifikke ordforråd

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto