Build BI Dashboards For Your Amazon SageMaker Ground Truth Labels And Worker Metadata

Republicat de Platon

Urmaritori: 0

Acesta este al doilea dintr-o serie în două părți despre Amazon SageMaker Ground Adevăr fluxul de lucru de etichetare ierarhică și tablouri de bord. În Partea 1: Automatizați fluxurile de lucru de etichetare a datelor paralele, multimodale cu Amazon SageMaker Ground Truth și AWS Step Functions, am analizat cum să creăm fluxuri de lucru de etichetare în mai mulți pași pentru taxonomiile de etichete ierarhice folosind Funcții pas AWS. În partea 2, analizăm cum să construim tablouri de bord și să obținem informații pentru analiza adnotărilor setului de date și a valorilor de performanță a lucrătorilor pe lacurile de date generate ca rezultat din fluxurile de lucru complexe.

Amazon SageMaker Ground Truth (Ground Truth) este un serviciu de etichetare a datelor complet gestionat, care facilitează construirea de seturi de date de antrenament foarte precise pentru învățarea automată (ML). Această postare prezintă o soluție pe care o puteți folosi pentru a crea tablouri de bord personalizate de business intelligence (BI) folosind datele de ieșire a jobului de etichetare Ground Truth. Puteți folosi aceste tablouri de bord pentru a analiza calitatea adnotărilor, valorile lucrătorilor și multe altele.

În partea 1, am prezentat o soluție pentru a crea mai multe tipuri de adnotări pentru un singur obiect de date de intrare și a verifica calitatea adnotărilor, utilizând o serie de joburi de etichetare în mai mulți pași care rulează în paralel, ierarhic, folosind funcțiile pas. Soluția are ca rezultat adnotări de înaltă calitate folosind Ground Truth. Formatul acestor adnotări este explicat în Date de ieșire, iar fiecare ia forma unuia sau mai multor fișiere manifest JSON în Serviciul Amazon de stocare simplă (Amazon S3). Acum aveți nevoie de un mecanism pentru a prelua în mod dinamic aceste manifeste, a le publica în depozitul de date analitice și a le utiliza pentru a crea rapoarte semnificative într-un mod automat. Acest lucru le permite practicienilor ML și oamenilor de știință de date să urmărească progresul și calitatea adnotărilor și permite MLOps și echipele de operațiuni de adnotare să obțină informații despre adnotări și să urmărească performanța lucrătorilor. De exemplu, aceste părți interesate ar putea dori să vadă următoarele rapoarte generate din datele de ieșire Ground Truth:

Rapoarte la nivel de adnotare - Aceste rapoarte includ următoarele:
- Numărul de adnotări efectuate într-un interval de timp specificat.
- Filtrarea bazată pe atribute de etichetă. Un atribut de etichetă este o funcție Ground Truth pe care lucrătorii o pot folosi pentru a furniza metadate despre adnotările individuale. De exemplu, puteți crea un atribut de etichetă pentru ca lucrătorii să identifice tipul vehiculului (sedan, SUV, autobuz) sau starea vehiculului (parcat sau în mișcare).
- Numărul de cadre pe etichetă sau atribute de cadru într-o lucrare de etichetare. A cadru atribut este o funcție Ground Truth pe care lucrătorii o pot folosi pentru a furniza metadate despre cadrele video. De exemplu, puteți crea un atribut cadru pentru ca lucrătorii să identifice calitatea cadrului (încețoșată sau clară) și să adăugați o vizualizare pentru a afișa numărul de cadre bune (clare) și cele proaste (neclare).
- Numărul de sarcini auditate sau ajustate de un evaluator (în partea 1, acesta este un lucrător de nivelul doi sau de nivelul trei).
- Dacă aveți etichete de auditare a lucrătorilor din lucrările de etichetare anterioare, puteți enumera rezultatele auditului pentru fiecare etichetă (cum ar fi mașină sau tufiș) folosind atribute de etichetă (cum ar fi etichetate corect sau incorect).
Rapoarte la nivel de lucrător - Aceste rapoarte includ următoarele:
- Numărul de locuri de muncă Ground Truth la care lucrează fiecare lucrător.
- Numărul total de etichete create de fiecare adnotator individual.
- Pentru una sau mai multe lucrări de etichetare, cantitatea totală de timp petrecută de fiecare lucrător adnotând obiecte de date.
- Timpul minim, mediu și maxim necesar pentru etichetarea obiectelor de date de către fiecare lucrător.
- Statisticile acestor întrebări în întreaga echipă de adnotatori de date.

În această postare, vă prezentăm procesul de generare a unui lac de date pentru adnotări și metadatele lucrătorilor din datele de ieșire din Ground Truth și construiți tablouri de bord vizuale pe acele seturi de date pentru a obține informații despre afaceri folosind Amazon S3, AWS Adeziv, Amazon Atena, și Amazon QuickSight.

Dacă ați finalizat partea 1 a acestei serii, puteți sări peste cerințele preliminare și pașii de implementare și puteți începe configurarea sarcinii AWS Glue ETL utilizată pentru a procesa datele de ieșire generate din acel tutorial. Dacă nu ați finalizat partea 1, asigurați-vă că ați completat cerințele preliminare și ați implementat soluția înainte de a activa fluxul de lucru AWS Glue.

Serviciile AWS utilizate pentru implementarea acestei soluții

Această postare vă prezintă cum să creați vizualizări utile pentru analiză Datele de ieșire Ground Truth pentru a obține informații despre adnotări, debitul și eficiența propriilor lucrători privați. Ghidul utilizatorului utilizează următoarele servicii AWS:

Amazon Atena – Vă permite să efectuați interogări ad-hoc asupra datelor S3 utilizând SQL și să interogați setul de date QuickSight pentru analiza manuală a datelor.
AWS Adeziv – Ajută la pregătirea datelor pentru analiză sau ML. AWS Glue este un serviciu de pregătire a datelor fără server, care facilitează extragerea, curățarea, îmbogățirea, normalizarea și încărcarea datelor. Folosim următoarele caracteristici:
- An Crawler AWS Glue pentru a accesa cu crawlere setul de date și a pregăti metadatele fără a le încărca într-o bază de date. Acest lucru reduce costul rulării unei baze de date costisitoare; puteți stoca și rula imagini din fișiere de date brute stocate într-o găleată S3 ieftină, foarte scalabilă și durabilă.
- A Locuri de munca WS Glue ETL pentru a extrage, transforma și încărca (ETL) date suplimentare. Un job este logica de afaceri care efectuează munca ETL în AWS Glue.
- Catalogul de date AWS Glue, care acționează ca un depozit central de metadate. Astfel, datele dvs. sunt disponibile pentru căutare și interogare folosind servicii precum Athena.
Amazon QuickSight – generează perspective și creează vizualizări cu datele dvs. QuickSight vă permite să creați și să publicați cu ușurință tablouri de bord interactive. Puteți alege dintr-o bibliotecă extinsă de vizualizări, diagrame și tabele și puteți adăuga funcții interactive, cum ar fi detalii și filtre. Pentru mai multe informații despre configurarea unui tablou de bord, consultați Noțiuni introductive despre analiza datelor în Amazon QuickSight.
Amazon S3 – Stochează datele de ieșire Ground Truth. Amazon S3 este serviciul de bază din centrul arhitecturii moderne de date. Amazon S3 este nelimitat, durabil, elastic și rentabil pentru stocarea datelor sau crearea lacurilor de date. Puteți folosi un lac de date pe Amazon S3 pentru raportare, analiză, inteligență artificială (AI) și învățare automată (ML), deoarece poate fi partajat prin serviciile de date mari AWS.

Prezentare generală a soluțiilor

In Partea 1 din această serie, discutăm despre un model de arhitectură care vă permite să construiți o conductă pentru orchestrarea fluxurilor de lucru de etichetare a datelor în mai mulți pași, care fac ca lucrătorii să adauge diferite tipuri de adnotări la obiectele de date, în paralel, folosind Ground Truth. În această postare, aflați cum puteți analiza adnotările setului de date, precum și performanța lucrătorilor. Această soluție creează lacuri de date folosind datele de ieșire Ground Truth (adnotări și metadatele lucrătorilor) și utilizează aceste lacuri de date pentru a obține informații despre sau pentru a analiza performanța lucrătorilor dvs. și calitatea adnotărilor setului de date folosind analize avansate.

Codul pentru partea 1 și partea 2 se află în amazon-sagemaker-examples depozitul GitHub.

Următoarea diagramă ilustrează această arhitectură, care este o conductă end-to-end constând din două componente:

Conducta fluxului de lucru – Un flux de lucru ierarhic construit folosind Ground Truth, Formarea AWS Cloud, Funcții pas, Amazon DynamoDB, și AWS Lambdas. Acest lucru este acoperit în detaliu în Partea 1.
Conducta de raportare Ground Truth – O conductă utilizată pentru a construi tablouri de bord BI folosind AWS Glue, Athena și QuickSight pentru a analiza și vizualiza datele de ieșire Ground Truth și metadatele generate de jobul AWS Glue ETL. Vom discuta acest lucru mai detaliat în secțiunea următoare.

Conducta de raportare Ground Truth

Conducta de raportare este construită pe rezultatul ieșirilor Ground Truth stocate în Amazon S3 (denumită găleată Ground Truth).

Datele sunt procesate și tabelele sunt create în Catalogul de date utilizând următorii pași:

Un crawler AWS Glue accesează cu crawlere datele de ieșire a jobului de etichetare a datelor, care sunt în format JSON, pentru a determina schema datelor dvs. și creează un tabel de metadate în Catalogul dvs. de date.
Catalogul de date conține referințe la date care sunt utilizate ca surse și ținte pentru joburile dvs. ETL. Datele sunt salvate într-o găleată de procesare AWS Glue.
Jobul ETL preia valorile lucrătorilor din grupul Ground Truth și adaugă informații despre lucrător din Amazon Cognito cum ar fi numele de utilizator și adresa de e-mail. Lucrarea acestor date în găleata procesată (${Prefix}-${AWS::AccountId}-${AWS::Region}-wm-glue-output/processed_worker_metrics/). Lucrarea schimbă formatul din JSON în Parquet pentru o interogare mai rapidă.
Un crawler accesează cu crawlere datele de valori ale lucrătorilor procesate din găleata AWS Glue procesată. De asemenea, un crawler accesează cu crawlere folderul adnotări și folderul manifeste de ieșire pentru a genera adnotări și tabele de manifeste.
Pentru fiecare crawler, AWS Glue adaugă tabele (tabel cu adnotări, tabele manifest de ieșire și tabel cu valori ale lucrătorilor) la Catalogul de date din {Prefix}-gluedatabase Bază de date.
Athena interogează și preia datele de ieșire Ground Truth stocate în lacul de date S3 utilizând Catalogul de date.
Interogările preluate sunt vizualizate în QuickSight folosind tablouri de bord.

După cum se arată în următoarele exemple de tablou de bord, puteți configura și afișa statisticile cu prioritate maximă în partea de sus a tabloului de bord, cum ar fi numărul total de vehicule etichetate, calitatea etichetelor și cadrelor dintr-un lot și valorile performanței lucrătorilor. Puteți crea vizualizări suplimentare în funcție de nevoile dvs. de afaceri. Pentru mai multe informații, vezi Lucrul cu tipurile vizuale în Amazon QuickSight.

Următorul tabel include statistici rezumate ale performanței lucrătorilor.

Următorul tablou de bord arată mai multe vizualizări (de la stânga la dreapta, de sus în jos):

Numărul de vehicule etichetate, defalcat după tipul de vehicul
Numărul de adnotări care au trecut și au eșuat un control al calității auditului
Numărul de cadre video de bună calitate (reușită) și de proastă calitate (eșuată) în sarcina de etichetare, identificate de lucrători folosind atributele cadrului
Numărul de vehicule parcate (staționare) față de vehiculele în mișcare (dinamice), identificate de lucrători folosind atributele etichetei
O histogramă care afișează numărul total de vehicule etichetate pe cadru
Tabele care afișează calitatea cadrelor și rezultatele auditului pentru mai multe lucrări de etichetare a cadrelor video

Cerințe preliminare

Dacă continui de la Partea 1 din această serie, puteți sări peste acest pas și să treceți la activarea fluxului de lucru AWS Glue.

Dacă nu ați finalizat demonstrația din partea 1, aveți nevoie de următoarele resurse:

An Cont AWS.
An Gestionarea identității și accesului AWS utilizator (IAM) cu acces la Amazon S3, AWS Glue și Athena. Dacă nu aveți nevoie de permisiune granulară, atașați următoarele politici gestionate AWS:
- AmazonS3FullAccess
- AmazonSageMakerFullAccess
Familiarizarea cu Ground Truth, AWS CloudFormation și funcțiile Step.
An Amazon SageMaker forței de muncă. Pentru această demonstrație, folosim o forță de muncă privată. Puteți crea forță de muncă prin consola SageMaker. Rețineți ID-ul grupului de utilizatori Amazon Cognito și ID-ul clientului aplicației după ce vă creați forța de muncă. Utilizați aceste valori pentru a spune implementării AWS CloudFormation ce forță de muncă să folosească pentru a crea echipe de lucru, care reprezintă grupul de etichetatori. Puteți găsi aceste valori în Rezumatul forței de muncă private pagina din zona Ground Truth a consolei Amazon SageMaker după ce vă creați forța de muncă sau când sunați Descrieți echipa de lucru. Următorul GIF demonstrează cum să creați o forță de muncă privată. Pentru instrucțiuni pas cu pas, consultați Creați o forță de muncă Amazon Cognito folosind pagina Etichetarea forței de muncă.

Implementați soluția

Dacă nu ați finalizat tutorialul prezentat în Partea 1, puteți folosi exemplele de date furnizate pentru această postare pentru a crea un exemplu de tablou de bord. Dacă ai completat Partea 1, puteți sări peste această secțiune și să treceți la activarea fluxului de lucru AWS Glue.

Lansați stiva de tablouri de bord

Pentru a lansa resursele necesare pentru a crea un tablou de bord eșantion cu date de exemplu, puteți lansa stiva în Regiunea AWS us-east-1 pe consola AWS CloudFormation alegând Lansați Stack:

În consola AWS CloudFormation, alegeți În continuare, și modificați parametrul pentru CognitoUserPoolId pentru a identifica grupul de utilizatori asociat cu forța de muncă privată. Puteți găsi aceste informații pe consola SageMaker:

Pe consola SageMaker, alegeți Etichetarea forțelor de muncă în panoul de navigare.
Găsiți valorile pe Privat
Folosește Clientul aplicației valoare pentru CognitoUserPoolClientId si Grupul de utilizatori Amazon Cognito valoare pentru CognitoUserPoolId.

În plus, introduceți un prefix pe care să îl utilizați la denumirea resurselor. Folosim acest lucru pentru crearea și gestionarea locurilor de muncă de etichetare și a valorilor angajaților.

Pentru această postare, puteți utiliza valorile implicite pentru următorii parametri:

GlueJobTriggerCron – Expresia cron de utilizată atunci când programați raportarea jobului cron AWS Glue. Rezultatele adnotărilor generate cu Ground Truth și valorile performanței lucrătorilor sunt folosite pentru a crea un tablou de bord în QuickSight. Ieșirile din adnotările SageMaker și valorile de performanță a lucrătorilor apar în interogările Athena după procesarea datelor cu AWS Glue. În mod implicit, lucrările cron AWS Glue rulează la fiecare oră.
BatchProcessingInputBucketId – Găleata care conține Date de ieșire SMGT sub dosarul manifeste lot. În mod implicit, grupul de bloguri ML (aws-ml-blog) este definit și conține datele de ieșire SMGT.
LoggingLevel – Nivelul de înregistrare pentru a modifica gradul de verbozitate al jurnalelor. Acceptă valori DEBUG și PROD. Acesta este folosit intern și poate fi ignorat.

Pentru a lansa stiva într-o altă regiune AWS, utilizați instrucțiunile din README din GitHub depozit.

După ce implementați soluția, utilizați secțiunea următoare pentru a activa un flux de lucru AWS Glue utilizat pentru a genera tablourile de bord BI.

Activați fluxul de lucru AWS Glue

Dacă ai completat Partea 1, ați lansat o stivă CloudFormation pentru a crea cadrul de etichetare Ground Truth și adnotarea MOT17 setul de date auto, folosind Ground Truth pentru vehicule și limitele și benzile de drum și a auditat cadrele pentru calitatea adnotărilor. Pentru a vă converti fluxul de date în tabloul de bord de raportare configurat de cadrul Ground Truth Labeling, trebuie să conectați infrastructura de ieșire pe care ați configurat-o anterior la Athena și QuickSight. Athena poate trata datele din Amazon S3 ca o bază de date relațională și vă permite să executați interogări SQL pe datele dvs. QuickSight rulează acele interogări în numele dvs. și creează vizualizări ale datelor dvs.

Următorul flux de lucru permite Athena să ruleze interogări SQL pe datele exemplu. Parcurgeți următorii pași pentru a activa fluxul de lucru:

Pe consola AWS Glue, în panoul de navigare din stânga, sub ETL, alege Fluxuri de lucru.
selectaţi SMGT-Glue-Workflow flux de lucru.
Pe Acţiuni meniu, alegeți Alerga.

Dacă nu doriți să începeți fluxul de lucru acum, puteți aștepta - acesta rulează automat din oră.

AWS Glue are nevoie de ceva timp pentru a-și derula resursele în timpul primei rulări, așa că acordați aproximativ 30 de minute pentru ca fluxul de lucru să se termine. Fluxul de lucru finalizat apare pe Fluxuri de lucru .

Această conductă este înființată în reporting.yml fişier. În prezent, conducta este rulată utilizând fluxul de lucru AWS Glue folosind ScheduledJobTrigger resursă cu steagul StartOnCreation: false. Dacă doriți să rulați această conductă conform unui program, comutați acest indicator la true.

Au apărut seturile de date

Toate următoarele metadate și tabele externe manifeste acționează ca tabele sursă de bază pentru Ground Truth (SMGT) și persistă valorile în aceeași formă în care sunt capturate în Ground Truth, cu o anumită personalizare pentru a lega ID-ul lucrătorului rezultat la informațiile identificabile ale lucrătorului, cum ar fi un nume de utilizator, în metadatele lucrătorului. Acest lucru oferă flexibilitate pentru auditare și schimbarea nevoilor analitice.

Baza de date ${Prefix}-${AWS::AccountId}-${AWS::Region}-gluedatabase conține patru baze de date, care sunt suprafațate folosind fluxul de lucru AWS Glue. Pentru demonstrația noastră, folosim smgt-gluedatabase ca numele bazei de date. Tabelele sunt după cum urmează:

Un tabel de adnotări, numit annotations_batch_manifests
Două tabele manifest de ieșire (câte unul pentru joburile de primul nivel și joburile de al doilea nivel)
- Tabelul de joburi de etichetare output_manifest_videoobjecttracking
- Tabelul joburilor de audit output_manifest_videoobjecttrackingaudit
Un tabel de valori ale lucrătorilor, numit worker_metrics_processed_worker_metrics

Următoarea captură de ecran arată rezultatul eșantion al tabelelor din baza de date AWS Glue.

Conectați Athena cu lacul de date

Puteți folosi Athena pentru a vă conecta la lacul dvs. de date S3 și a rula interogări SQL, pe care QuickSight le folosește pentru a crea vizualizări.

Dacă este prima dată când utilizați Athena, trebuie să configurați locația rezultatului interogării Athena la compartimentul S3 de raportare creat pentru grupul de lucru Athena. Pentru mai multe informații, vezi Specificarea unei locații a rezultatului interogării.

Pe consola Athena, alegeți Setări cont in navigatie alin.
Pentru Locația rezultatului interogării, introduceți adresa URL S3 pentru locația compartimentului creat pentru grupul de lucru Athena. Formatul este s3://${Prefix}-${AWS::AccountId}-${AWS::Region}-athena/. Rețineți că este necesară bara oblică.
Lăsați celelalte câmpuri neschimbate.
Alege Economisiți.
În Editor de interogări Athena, rulați următoarele interogări SQL pentru a verifica dacă stiva de raportare este configurată corect:

SELECT * FROM "smgt-gluedatabase"."annotations_batch_manifests" limit 10;
SELECT * FROM "smgt-gluedatabase"."worker_metrics_processed_worker_metrics" limit 10;
SELECT * FROM "smgt-gluedatabase"."output_manifest_videoobjecttracking" limit 10;
SELECT * FROM "smgt-gluedatabase"."output_manifest_videoobjecttrackingaudit" limit 10;

Trebuie să aveți cel puțin o lucrare Ground Truth finalizată pentru a genera aceste tabele.

Următoarea captură de ecran arată rezultatul nostru.

Vizualizați în QuickSight

Acum sunteți gata să vă vizualizați datele în QuickSight.

Configurați QuickSight

În această secțiune, actualizați permisiunile din contul dvs. QuickSight pentru a oferi acces la compartimentele de raportare S3. Pentru mai multe informații, vezi Accesarea surselor de date . De asemenea, importați datele din Athena în SPICE, astfel încât QuickSight să le poată afișa.

Pe consola QuickSight, alegeți numele de utilizator din bara de aplicații și alegeți Gestionați QuickSight.
Alege Securitate și permisiuni.
În Acces QuickSight la serviciile AWS, alege Adăugați sau eliminați.

Se afișează o listă de servicii AWS disponibile.

În Amazon S3, alege detalii Și alegeți Selectați găleți S3.

FĂ una din urmĂtoarele:
1. Opțiunea 1 (partea 1 finalizată): Dacă ați completat Partea 1 și rulați această secțiune, selectați următoarele compartimente S3:
  1. In Găleți S3 aliniate la contul QuickSight, sub Găleți S3, alegeți următoarele găleți S3
    1. {Prefix}-workflow-{account-ID}-{region}-batch-processing
    2. {Prefix}-workflow-{account-ID}-{region}-wm-glue-output
    3. {Prefix}-workflow-{account-ID}-{region}-athena
  2. In S3 Permisiuni de scriere pentru Athena Workgroup, alegeți următoarea găleată S3.
    1. {Prefix}-workflow-{account-ID}-{region}-athena
2. Opțiunea 2 (nu a finalizat partea 1): Dacă nu ați finalizat partea 1 și ați folosit opțiunea de lansare a stivei din această postare de blog, selectați următoarele găleți S3:
  1. In Găleți S3 aliniate la contul QuickSight, sub Găleți S3, alegeți următoarele găleți S3.
    1. {Prefix}-{account-ID}-{region}-wm-glue-output
    2. {Prefix}{account-ID}-{region}-athena
  2. In S3 Permisiuni de scriere pentru Athena Workgroup, alegeți următoarea găleată S3.
    1. {Prefix}-{account-ID}-{region}-athena
  3. In Bucket-uri S3 pe care le puteți accesa prin AWS, sub Găleți S3, alegeți următoarele găleți S3.
    1. aws-ml-blog

În ambele cazuri, după ce ați selectat gălețile descrise mai sus, alegeți finalizarea pentru a închide Selectați Amazon S3 buckets căsuță de dialog.
Alege Actualizează pentru a finaliza actualizarea permisiunilor.

Creați seturi de date

Creați un nou set de date folosind Athena ca sursă.

Pe consola QuickSight, alegeți Datasets.
Alege Set de date nou.
În DIN NOI SURSE DE DATE secțiunea, alegeți Athena
Pentru Numele sursei de date, introduceți Valorile lucrătorului.
Pentru Grupul de lucru Athena, introduceți {Prefix}ReportsWorkGroup.
Alege Creați sursa de date.
Pentru Baza de date: conține seturi de tabele, alegeți baza de date smgt-gluedatabase
Selectați Utilizați SQL personalizat și introduceți următoarea interogare:

SELECT *, cardinality(ans.trackingannotations.framedata.entries) as tasks FROM "smgt-gluedatabase"."worker_metrics_processed_worker_metrics", unnest(answercontent) as t(ans);

Alege Editați / Previzualizați datele.
Pentru Nume SQL personalizat, introduceți Setul de date pentru valorile lucrătorilor.
Alege Aplică.
Alege Salvați și vizualizați.
Alege imagina.
Pe lângă crearea setului de date privind valorile lucrătorilor, ar trebui să creați și seturi de date de adnotări.

Următorul cod creează un set de date la nivel de etichetă pentru vehicule:

SELECT job_name,each_ann.height,each_ann.width,each_ann.top,each_ann."left",each_ann."label-category-attributes".moving,each_ann."label-category-attributes".vehicle_type,each_ann."label-category-attributes".audit,each_ann."object-name",each_ann from
(SELECT ann.annotations, partition_1 as job_name FROM "smgt-gluedatabase"."annotations_batch_manifests", unnest("tracking-annotations") as t(ann) where cardinality(ann.annotations) != 0) as data, unnest(data.annotations) as t(each_ann);

Următorul cod creează un set de date la nivel de cadru pentru vehicule:

SELECT ann."frame-no",ann.frame,ann."frame-attributes"."number_of_vehicles",ann."frame-attributes"."quality_of_the_frame",ann.annotations, cardinality(ann.annotations) as num_labels, partition_1 as job_name, ann FROM "smgt-gluedatabase"."annotations_batch_manifests", unnest("tracking-annotations") as t(ann) where cardinality(ann.annotations) != 0

Apoi, creați o nouă analiză care importă datele de la Athena în SPICE, astfel încât QuickSight să le poată afișa.

Pe Toate analizele pagina, alege Noua analiză.
Alegeți setul de date pe care tocmai l-ați creat și apoi alegeți Creați o analiză.

Creați un tablou de bord pentru valorile lucrătorilor

QuickSight vă permite să vizualizați datele tabelare. Pentru mai multe informații, vezi Crearea unui Amazon QuickSight Visual.

Următorul tabel rezumă mai multe grafice utile pentru valorile lucrătorilor pe care le puteți adăuga la tabloul de bord.

Nume tabel	Tipul graficului	Field Wells Value	Field Wells axa X	Field Wells Row	Coloane Field Wells	Grup/Culoare
Timpul total petrecut etichetând de către un lucrător	Diagramă cu bare stivuite pe verticală	timespentinseconds (Suma)	nume de utilizator			modalitatea
Timp total petrecut pe modalitate	Autograf	timespentinseconds (Suma)	modalitatea
Tabel de valori ale lucrătorilor	Tabel	timespentinSeconds(sumă) sarcini (suma) timespentinsecunde (Max) timespentinseconds (Min) Timp mediu luat pe videoclip (medie)		nume de utilizator

Puteți adăuga aceste tabele la tabloul de bord QuickSight prin crearea unui vizual și personalizarea în funcție de cerințele dvs.

Următoarele sunt cele mai bune practici pentru utilizarea tabelelor:

Pentru mai multe informații despre cum să creați elemente vizuale, câmpuri calculate, parametri, controale și tabele vizuale, consultați Cladirea tabloului de bord 101.

Următorul exemplu de vizualizare utilizează ID-urile secundare ale lucrătorilor Amazon Cognito pentru a identifica metadatele lucrătorilor (cum ar fi adresele de e-mail). Dacă nu ați completat Partea 1 și utilizați exemplele de date furnizate pentru această postare, aceste sub-ID-uri nu sunt asociate cu metadatele lucrătorilor în Amazon Cognito, așa că subID-ul apare în locul numelor de utilizator din tabel. Pentru a afla mai multe despre utilizarea sub-ID-urilor de lucrător cu informații despre lucrător, consultați Urmărirea debitului echipei dvs. de etichetare privată prin Amazon SageMaker Ground Truth.

Creați un tablou de bord cu adnotări

Următorul tabel rezumă mai multe grafice de adnotări utile pe care le puteți adăuga la tabloul de bord.

Nume tabel	Tipul graficului	Field Wells Value	Field Wells Axa Y	Field Wells Row	Coloane Field Wells	Grup/Culoare
Numărul de vehicule	Graficul proporțiilor	tip_vehicul (număr)				Tip de vehicul
Calitatea nivelului de adnotare	Graficul gogoșilor					de audit
Calitate la nivel de cadru	Graficul gogoșilor					calitatea_cadrului
Numărul de vehicule parcate vs vehicule în mișcare	Graficul gogoșilor					în mişcare
Numărul maxim de vehicule într-un cadru	Diagramă cu bare orizontale	număr_de_vehicule (număr)
Calitatea cadrului pe Job	Tabel	quality_of_the_frame (număr)		numele locului de munca	calitatea_cadrului
Calitatea etichetelor pe Job	Tabel	audit (număr)		numele locului de munca	de audit

Următoarea captură de ecran arată un exemplu de tablou de bord pentru aceste rapoarte de adnotare.

Salvați tabelele de rapoarte ca CSV

Pentru a descărca valorile lucrătorilor și rapoartele de adnotări ca fișier CSV, alegeți foaia respectivă. În Opţiuni secțiune, pentru a alege Opțiuni de meniu și apoi alegeți Exportați în CSV.

Pentru mai multe informații, consultați Exportarea datelor.

Programați o reîmprospătare a datelor în QuickSight

Pentru a vă reîmprospăta tabloul de bord la fiecare oră, setați programul de reîmprospătare SPICE la 1 oră pentru seturile de date nou create. Pentru instrucțiuni, vezi Reîmprospătarea unui set de date într-un program.

Afișăm exemplele de tablouri de bord QuickSight atunci când datele sunt ingerate din datele de ieșire Ground Truth din secțiunile precedente.

Personalizați soluția

Dacă doriți să construiți tablouri de bord în directoarele actuale de date de ieșire Ground Truth, puteți face personalizări:

Șablonul CloudFormation pipeline de raportare este configurat în yml. Conducta este configurată pentru cazul de utilizare a etichetării de urmărire a obiectelor de cadre video, în care adnotările sunt stocate într-un fișier de secvență de ieșire pentru fiecare secvență de cadre video care sunt etichetate și nu în fișierul manifest de ieșire. Dacă adnotările dvs. se află în fișierul manifest de ieșire, puteți elimina crawlerul de adnotări și puteți utiliza tabelele manifest de ieșire pentru tablourile de bord. Pentru a afla mai multe despre formatul datelor de ieșire pentru tipurile de sarcini acceptate de Ground Truth, consultați Date de ieșire.
Calea S3 pentru ieșirile tuturor joburilor Ground Truth din reporting.yml Șablonul CloudFormation indică s3://${BatchProcessingInputBucketId}/batch_manifests/. Pentru a vă folosi datele și noile locuri de muncă, modificați multiple mentions a acestui drum în raportare.yml șablon către calea către datele de ieșire a jobului Ground Truth.
Toate interogările utilizate pentru construirea tablourilor de bord se bazează pe atributele utilizate în Fișierul de configurare a categoriei etichetei Ground Truth folosit în acest exemplu caiet. Puteți personaliza interogările pentru rapoartele de adnotare pe baza atributelor utilizate în fișierul de configurare a etichetei.

A curăța

Pentru a elimina toate resursele create pe parcursul acestui proces și pentru a preveni costurile suplimentare, parcurgeți următorii pași:

Pe consola Amazon S3, ștergeți compartimentul S3 care conține seturile de date brute și procesate.
Anulați abonamentul QuickSight.
Pe consola Athena, ștergeți grupul de lucru Athena numit ${Prefix}-${AWS::AccountId}-${AWS::Region}-SMGTReportsWorkGroup
Pe consola AWS CloudFormation, ștergeți stiva pe care ați creat-o pentru a elimina resursele create de șablonul CloudFormation.

Concluzie

Această serie din două părți vă oferă o arhitectură de referință pentru a construi un flux de lucru avansat de etichetare a datelor format dintr-o conductă de etichetare a datelor în mai mulți pași, lucrări de ajustare și lacuri de date pentru adnotările de seturi de date corespunzătoare și metricele lucrătorilor, precum și tablouri de bord actualizate.

În această postare, ați învățat cum să generați lacuri de date pentru adnotări și metadatele lucrătorilor din datele de ieșire Ground Truth generate de Partea 1 folosind Ground Truth, Amazon S3 și AWS Glue. Apoi am discutat cum să creați tablouri de bord vizuale pentru adnotările dvs. și rapoartele de metadate ale lucrătorilor pe acele lacuri de date pentru a obține informații despre afaceri folosind Athena și QuickSight.

Pentru a afla mai multe despre construirea automată a modelelor, selecția și implementarea modelelor de clasificare personalizate, consultați Automatizați fluxurile de lucru de etichetare a datelor paralele cu mai multe modalități cu Amazon SageMaker Ground Truth și AWS Step Functions.

Încercați caiet și personalizați-l pentru configurația dvs. de etichetă prin adăugarea de joburi suplimentare sau pași de auditare sau prin modificarea modalității de date a joburilor. Personalizarea ulterioară ar putea include, dar nu este limitată, la:

Adăugarea unor tipuri suplimentare de adnotări, cum ar fi măști de segmentare semantice sau puncte cheie
Adăugarea diferitelor tipuri de imagini și analize
Adăugarea diferitelor tipuri de modalități, cum ar fi norul de puncte sau clasificarea imaginilor

Această soluție este construită folosind tehnologii fără server pe lângă AWS Glue și Amazon S3, ceea ce o face extrem de personalizabilă și aplicabilă pentru o mare varietate de aplicații. Vă încurajăm să extindeți această conductă la cazurile dvs. de utilizare a analizei și vizualizării datelor — există multe alte transformări în AWS Glue, capabilități de a crea interogări complexe folosind Athena și elemente vizuale preconstruite în QuickSight de explorat.

Clădire fericită!

Despre Autori

Vidya Sagar Ravipati este un arhitect de învățare profundă la Laboratorul Amazon ML Solutions, unde își folosește vasta experiență în sisteme distribuite pe scară largă și pasiunea sa pentru învățarea automată pentru a ajuta clienții AWS din diferite verticale ale industriei să-și accelereze adoptarea AI și cloud. Anterior, a fost inginer de învățare automată în servicii de conectivitate la Amazon, care a contribuit la construirea platformelor de personalizare și de întreținere predictivă.

Gaurav Rele este Data Scientist la Amazon ML Solution Lab, unde lucrează cu clienții AWS din diferite verticale pentru a accelera utilizarea învățării automate și a serviciilor AWS Cloud pentru a-și rezolva provocările de afaceri.

Talia Chopra este un scriitor tehnic în AWS specializat în învățare automată și inteligență artificială. Lucrează cu mai multe echipe în AWS pentru a crea documentație tehnică și tutoriale pentru clienții care utilizează Amazon SageMaker, MxNet și AutoGluon.

Sursa: https://aws.amazon.com/blogs/machine-learning/build-bi-dashboards-for-your-amazon-sagemaker-ground-truth-labels-and-worker-metadata/

Timestamp-ul: 13 Mai, 2021

Mai mult de la Blog de AWS Machine Learning

Antrenați modelele mai rapid cu un profiler de date automat pentru Amazon Fraud Detector

Cluster sursă:

Republicat de Platon

Serviciile AWS utilizate pentru implementarea acestei soluții

Prezentare generală a soluțiilor

Conducta de raportare Ground Truth

Cerințe preliminare

Implementați soluția

Lansați stiva de tablouri de bord

Activați fluxul de lucru AWS Glue

Au apărut seturile de date

Conectați Athena cu lacul de date

Vizualizați în QuickSight

Configurați QuickSight

Creați seturi de date

Creați un tablou de bord pentru valorile lucrătorilor

Creați un tablou de bord cu adnotări

Salvați tabelele de rapoarte ca CSV

Programați o reîmprospătare a datelor în QuickSight

Personalizați soluția

A curăța

Concluzie

Despre Autori

Mai mult de la Blog de AWS Machine Learning

Antrenați modelele mai rapid cu un profiler de date automat pentru Amazon Fraud Detector

Antrenează rețele neuronale grafice pentru milioane de proteine pe Amazon SageMaker și Amazon DocumentDB (cu compatibilitate cu MongoDB)

Automatizați îmbunătățirea continuă a modelului cu Amazon Rekognition Custom Labels și Amazon A2I: Part 2

Detectarea anomaliilor bazată pe viziunea computerizată folosind Amazon Lookout for Vision și AWS Panorama

Creați sisteme de prognoză mai rapid cu fluxuri de lucru automatizate și notificări în Amazon Forecast

Detectați defectele și creșteți predicțiile folosind Amazon Lookout for Vision și Amazon A2I

Obțineți un antrenament cu 35% mai rapid cu Hugging Face Deep Learning Containers pe Amazon SageMaker

Efectuați analize de transcriere medicală în timp real cu serviciile AWS AI și Twilio Media Streams

Amazon Personalize poate acum debloca semnale intrinseci din catalogul dvs. pentru a recomanda articole similare

Îmbunătățiți-vă dezvoltarea învățării automate folosind o arhitectură modulară cu proiecte Amazon SageMaker

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont