Lag datasett av høy kvalitet med Amazon SageMaker Ground Truth og FiftyOne

Publisert av Platon

Følgere: 0

Dette er et felles innlegg skrevet av AWS og Voxel51. Voxel51 er selskapet bak FiftyOne, åpen kildekode-verktøysettet for å bygge høykvalitets datasett og datasynsmodeller.

Et detaljhandelsselskap bygger en mobilapp for å hjelpe kunder med å kjøpe klær. For å lage denne appen trenger de et datasett av høy kvalitet som inneholder klesbilder, merket med forskjellige kategorier. I dette innlegget viser vi hvordan du kan gjenbruke et eksisterende datasett via datarensing, forbehandling og forhåndsmerking med en nullskuddsklassifiseringsmodell i Femtien, og justere disse etikettene med Amazon SageMaker Ground Truth.

Du kan bruke Ground Truth og FiftyOne for å fremskynde datamerkingsprosjektet. Vi illustrerer hvordan du sømløst bruker de to applikasjonene sammen for å lage merket datasett av høy kvalitet. For vårt eksempelbruk jobber vi med Fashion200K datasett, utgitt på ICCV 2017.

Løsningsoversikt

Ground Truth er en fullstendig selvbetjent og administrert datamerkingstjeneste som gir dataforskere, maskinlæringsingeniører (ML) og forskere mulighet til å bygge datasett av høy kvalitet. Femtien by voxel51 er et verktøysett med åpen kildekode for å kurere, visualisere og evaluere datasynsdatasett slik at du kan trene og analysere bedre modeller ved å akselerere brukstilfellene dine.

I de følgende delene viser vi hvordan du gjør følgende:

Visualiser datasettet i FiftyOne
Rengjør datasettet med filtrering og bildededuplisering i FiftyOne
Forhåndsmerke de rensede dataene med nullskuddsklassifisering i FiftyOne
Merk det mindre kurerte datasettet med Ground Truth
Injiser merkede resultater fra Ground Truth i FiftyOne og se gjennom merkede resultater i FiftyOne

Bruk saksoversikt

Anta at du eier et detaljhandelsselskap og ønsker å bygge en mobilapplikasjon for å gi personlige anbefalinger for å hjelpe brukere med å bestemme hva de skal ha på seg. Dine potensielle brukere ser etter et program som forteller dem hvilke klesplagg i skapet deres som fungerer godt sammen. Du ser en mulighet her: Hvis du kan identifisere gode antrekk, kan du bruke dette til å anbefale nye plagg som komplementerer klærne en kunde allerede eier.

Du ønsker å gjøre ting så enkelt som mulig for sluttbrukeren. Ideelt sett trenger noen som bruker applikasjonen din bare å ta bilder av klærne i garderoben, og ML-modellene dine arbeider med sin magi bak kulissene. Du kan trene en generell modell eller finjustere en modell til hver brukers unike stil med en form for tilbakemelding.

Først må du imidlertid identifisere hvilken type klær brukeren fanger. Er det en skjorte? Et par bukser? Eller noe annet? Tross alt vil du sannsynligvis ikke anbefale et antrekk som har flere kjoler eller flere hatter.

For å løse denne første utfordringen, ønsker du å generere et treningsdatasett som består av bilder av ulike klesartikler med ulike mønstre og stiler. For å prototype med et begrenset budsjett, vil du starte opp med et eksisterende datasett.

For å illustrere og lede deg gjennom prosessen i dette innlegget bruker vi Fashion200K-datasettet som ble utgitt på ICCV 2017. Det er et etablert og godt sitert datasett, men det er ikke direkte egnet for din brukssituasjon.

Selv om klær er merket med kategorier (og underkategorier) og inneholder en rekke nyttige etiketter som er hentet fra de originale produktbeskrivelsene, er ikke dataene systematisk merket med mønster- eller stilinformasjon. Målet ditt er å gjøre dette eksisterende datasettet om til et robust treningsdatasett for klesklassifiseringsmodellene dine. Du må rense dataene, utvide merkeskjemaet med stiletiketter. Og du vil gjøre det raskt og med så lite forbruk som mulig.

Last ned dataene lokalt

Først laster du ned women.tar zip-filen og labels-mappen (med alle undermapper) ved å følge instruksjonene i Fashion200K datasett GitHub repository. Etter at du har pakket ut dem begge, lag en overordnet katalog fashion200k, og flytt etikettene og kvinnemappene inn i denne. Heldigvis er disse bildene allerede beskåret til avgrensningsboksene for objektdeteksjon, slik at vi kan fokusere på klassifisering i stedet for å bekymre oss for objektdeteksjon.

Til tross for "200K" i navnet, inneholder kvinnekatalogen vi hentet ut 338,339 200 bilder. For å generere det offisielle Fashion300,000K-datasettet, gjennomsøkte datasettets forfattere mer enn XNUMX XNUMX produkter på nettet, og bare produkter med beskrivelser som inneholder mer enn fire ord klarte seg. For våre formål, der produktbeskrivelsen ikke er avgjørende, kan vi bruke alle de gjennomsøkte bildene.

La oss se på hvordan disse dataene er organisert: i kvinnemappen er bildene ordnet etter artikkeltype på toppnivå (skjørt, topper, bukser, jakker og kjoler) og artikkeltype underkategori (bluser, t-skjorter, langermede) topper).

Innenfor underkategorikatalogene er det en underkatalog for hver produktoppføring. Hver av disse inneholder et variabelt antall bilder. Underkategorien cropped_pants inneholder for eksempel følgende produktoppføringer og tilhørende bilder.

Etikettmappen inneholder en tekstfil for hver artikkeltype på toppnivå, for både tog- og testdeling. Innenfor hver av disse tekstfilene er det en egen linje for hvert bilde, som spesifiserer den relative filbanen, en poengsum og tagger fra produktbeskrivelsen.

Fordi vi omformåler datasettet, kombinerer vi alle tog- og testbildene. Vi bruker disse til å generere et applikasjonsspesifikt datasett av høy kvalitet. Etter at vi har fullført denne prosessen, kan vi dele det resulterende datasettet tilfeldig i nye tog- og testdelinger.

Injiser, vis og kurater et datasett i FiftyOne

Hvis du ikke allerede har gjort det, installer åpen kildekode FiftyOne ved å bruke pip:

pip install fiftyone

En beste praksis er å gjøre det i et nytt virtuelt (venv eller conda) miljø. Importer deretter de relevante modulene. Importer basisbiblioteket, fiftyone, FiftyOne Brain, som har innebygde ML-metoder, FiftyOne Zoo, hvorfra vi vil laste inn en modell som vil generere nullbildeetiketter for oss, og ViewField, som lar oss filtrere data i vårt datasett:

import fiftyone as fo
import fiftyone.brain as fob
import fiftyone.zoo as foz
from fiftyone import ViewField as F

Du vil også importere glob- og os Python-modulene, som vil hjelpe oss å jobbe med baner og mønstermatch over kataloginnhold:

from glob import glob
import os

Nå er vi klare til å laste inn datasettet i FiftyOne. Først lager vi et datasett som heter fashion200k og gjør det vedvarende, som lar oss lagre resultatene av beregningsintensive operasjoner, så vi trenger bare å beregne nevnte mengder én gang.

dataset = fo.Dataset("fashion200k", persistent=True)

Vi kan nå iterere gjennom alle underkategorikataloger og legge til alle bildene i produktkatalogene. Vi legger til en FiftyOne-klassifiseringsetikett til hver prøve med feltnavnet artikkeltype, fylt ut av bildets artikkelkategori på øverste nivå. Vi legger også til både kategori- og underkategoriinformasjon som tagger:

# Map dir categories to article type labels
labels_map = { "dresses": "dress", "jackets": "jacket", "pants": "pants", "skirts": "skirt", "tops": "top",
} dataset_dir = "./fashion200k" for d in glob(os.path.join(dataset_dir, "women", "*", "*")): _, _, category, subcategory = d.split("/") subcategory = subcategory.replace("_", " ") label = labels_map[category] dataset.add_samples( [ fo.Sample( filepath=filepath,
tags=[category, subcategory], article_type=fo.Classification(label=label), ) for filepath in glob(os.path.join(d, "*", "*")) ] )

På dette tidspunktet kan vi visualisere datasettet vårt i FiftyOne-appen ved å starte en økt:

session = fo.launch_app(dataset)

Vi kan også skrive ut et sammendrag av datasettet i Python ved å kjøre print(dataset):

Name: fashion200k
Media type: image
Num samples: 338339
Persistent: True
Tags: []
Sample fields: id: fiftyone.core.fields.ObjectIdField filepath: fiftyone.core.fields.StringField tags: fiftyone.core.fields.ListField(fiftyone.core.fields.StringField) metadata: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.metadata.ImageMetadata) article_type: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.labels.Classification)

Vi kan også legge til taggene fra labels katalog til prøvene i datasettet vårt:

working_dir = os.getcwd() tags = {
f: set(t) for f, t in zip(*dataset.values(["filepath", "tags"]))
} for label_file in glob("fashion200k/labels/*"): with open(label_file, 'r') as f: for line in f.readlines(): line_list = line.split() fp = os.path.join( working_dir, dataset_dir, line_list[0] ) # add new tags new_tags_for_fp = line_list[2:] tags[fp].update(new_tags_for_fp) # Update tags
dataset.set_values("tags", tags, key_field="filepath")

Når du ser på dataene, blir et par ting klart:

Noen av bildene er ganske kornete, med lav oppløsning. Dette er sannsynligvis fordi disse bildene ble generert ved å beskjære innledende bilder i avgrensningsbokser for objektdeteksjon.
Noen klær bæres av en person, og noen er fotografert på egen hånd. Disse detaljene er innkapslet av viewpoint eiendom.
Mange av bildene av det samme produktet er veldig like, så i det minste til å begynne med, inkludert mer enn ett bilde per produkt, gir kanskje ikke mye prediktiv kraft. For det meste er det første bildet av hvert produkt (ender på _0.jpeg) er den reneste.

Til å begynne med vil vi kanskje trene vår klesstilklassifiseringsmodell på en kontrollert undergruppe av disse bildene. For dette formål bruker vi høyoppløselige bilder av produktene våre, og begrenser vårt syn til ett representativt utvalg per produkt.

Først filtrerer vi ut bildene med lav oppløsning. Vi bruker compute_metadata() metode for å beregne og lagre bildebredde og høyde, i piksler, for hvert bilde i datasettet. Vi bruker deretter FiftyOne ViewField for å filtrere ut bilder basert på minimum tillatte bredde- og høydeverdier. Se følgende kode:

dataset.compute_metadata() min_width = 200
min_height = 300 width_filter = F("metadata.width") > min_width
height_filter = F("metadata.height") > min_height high_res_view = dataset.match( width_filter & height_filter
) session.view = high_res_view.view()

Denne høyoppløselige undergruppen har i underkant av 200,000 XNUMX prøver.

Fra denne visningen kan vi opprette en ny visning i datasettet vårt som inneholder kun ett representativt utvalg (høyst) for hvert produkt. Vi bruker ViewField nok en gang, mønstertilpasning for filstier som slutter med _0.jpeg:

representative_view = high_res_view.match( F("filepath").ends_with("_0.jpeg")
)

La oss se en tilfeldig blandet rekkefølge av bilder i dette undersettet:

session.view = representative_view.shuffle()

Fjern overflødige bilder i datasettet

Denne visningen inneholder 66,297 19 bilder, eller litt over XNUMX % av det originale datasettet. Når vi ser på utsikten ser vi imidlertid at det er mange veldig like produkter. Å beholde alle disse kopiene vil sannsynligvis bare øke kostnadene for merking og modellopplæring, uten merkbart forbedring av ytelsen. La oss i stedet kvitte oss med nesten duplikatene for å lage et mindre datasett som fortsatt pakker det samme trykket.

Fordi disse bildene ikke er eksakte duplikater, kan vi ikke sjekke for pikselmessig likhet. Heldigvis kan vi bruke FiftyOne-hjernen til å hjelpe oss med å rense datasettet vårt. Spesielt vil vi beregne en innebygging for hvert bilde - en lavere dimensjonal vektor som representerer bildet - og deretter se etter bilder hvis innebyggingsvektorer er nær hverandre. Jo nærmere vektorene er, jo mer like bildene.

Vi bruker en CLIP-modell for å generere en 512-dimensjonal innebyggingsvektor for hvert bilde, og lagrer disse innebyggingene i feltinnbyggingene på prøvene i datasettet vårt:

## load model
model = foz.load_zoo_model("clip-vit-base32-torch") ## compute embeddings
representative_view.compute_embeddings(
model, embeddings_field="embedding"
)

Deretter beregner vi nærheten mellom embeddings, ved hjelp av cosinus-likhet, og hevder at alle to vektorer hvis likhet er større enn en eller annen terskel sannsynligvis vil være nær duplikater. Cosinuslikhetsskårene ligger i området [0, 1], og ser på dataene, ser en terskelskåre på terskel=0.5 ut til å være omtrent riktig. Igjen, dette trenger ikke være perfekt. Noen få nesten dupliserte bilder vil sannsynligvis ikke ødelegge vår prediksjonsevne, og å kaste noen få ikke-dupliserte bilder påvirker ikke modellens ytelse vesentlig.

results = fob.compute_similarity(
view,
embeddings="embedding",
brain_key="sim",
metric="cosine"
) results.find_duplicates(thresh=0.5)

Vi kan se de påståtte duplikatene for å bekrefte at de faktisk er overflødige:

## view the duplicates, paired up, ## to make sure it is doing what we think it is doing
dup_view = results.duplicates_view()
session = fo.launch_app(dup_view)

Når vi er fornøyd med resultatet og tror at disse bildene faktisk er nesten duplikater, kan vi velge én prøve fra hvert sett med lignende prøver å beholde, og ignorere de andre:

## get one image from each group of duplicates
dup_rep_ids = list(results.neighbors_map.keys()) # get ids of non-duplicates
non_dup_ids = representative_view.exclude(
dup_view.values("id")
).values("id") # ids to keep
ids = dup_rep_ids + non_dup_ids # create view from ids
non_dup_view = representative_view[ids]

Nå har denne visningen 3,729 200 bilder. Ved å rense dataene og identifisere en høykvalitets undergruppe av Fashion300,000K-datasettet, lar FiftyOne oss begrense fokuset vårt fra mer enn 4,000 98 bilder til i underkant av 90, noe som representerer en reduksjon på XNUMX %. Å bruke innebygginger for å fjerne nesten dupliserte bilder alene førte til at vårt totale antall bilder ble vurdert med mer enn XNUMX %, med liten eller ingen effekt på noen modeller som skulle trenes på disse dataene.

Før vi forhåndsmerker dette undersettet, kan vi bedre forstå dataene ved å visualisere innbyggingene vi allerede har beregnet. Vi kan bruke FiftyOne-hjernens innebygde compute_visualization()-metoden, som bruker UMAP-teknikken (uniform manifold approksimation) for å projisere de 512-dimensjonale innebyggingsvektorene inn i todimensjonalt rom slik at vi kan visualisere dem:

fob.compute_visualization( non_dup_view, embeddings="embedding", brain_key="vis"
)

Vi åpner en ny Innstøpningspanel i FiftyOne-appen og fargelegging etter artikkeltype, og vi kan se at disse innbyggingene grovt sett koder for en forestilling om artikkeltype (blant annet!).

Nå er vi klare til å forhåndsmerke disse dataene.

Ved å inspisere disse svært unike, høyoppløselige bildene, kan vi generere en anstendig innledende liste over stiler som skal brukes som klasser i vår pre-merking nullbildeklassifisering. Målet vårt med å forhåndsmerke disse bildene er ikke nødvendigvis å merke hvert bilde riktig. Målet vårt er heller å gi et godt utgangspunkt for menneskelige kommentatorer, slik at vi kan redusere merkingstid og -kostnader.

styles = [ "graphic", "lettered", "plain", "striped", "polka dot", "floral", "jersey", "checkered", "denim", "plaid", "houndstooth", "chevron", "paisley", "animal print", "quatrefoil", “camouflage”
]

Vi kan deretter instansiere en nullskuddsklassifiseringsmodell for denne applikasjonen. Vi bruker en CLIP-modell, som er en generell modell trent på både bilder og naturlig språk. Vi instansierer en CLIP-modell med tekstmeldingen "Klær i stilen", slik at gitt et bilde, vil modellen vise klassen som "Klær i stilen [klasse]" passer best for. CLIP er ikke opplært på detaljhandel eller motespesifikke data, så dette vil ikke være perfekt, men det kan spare deg for merking og merknadskostnader.

zero_shot_model = foz.load_zoo_model( "clip-vit-base32-torch", text_prompt="Clothing in the style ", classes=styles,
)

Vi bruker deretter denne modellen på vår reduserte delmengde og lagrer resultatene i en article_style felt:

non_dup_view.apply_model(
zero_shot_model, label_field="article_style"
)

Ved å lansere FiftyOne-appen igjen, kan vi visualisere bildene med disse forutsagte stiletikettene. Vi sorterer etter prediksjonstillit, slik at vi ser de mest sikre stilspådommene først:

high_conf_view = non_dup_view.sort_by( "article_style.confidence", reverse=True
) session.view = high_conf_view

Vi kan se at de høyeste spådommene ser ut til å være for "jersey", "dyretrykk", "polkaprikker" og "bokstaver". Dette er fornuftig, fordi disse stilene er relativt forskjellige. Det virker også som for det meste, de spådde stiletikettene er nøyaktige.

Vi kan også se på stilspådommene med lavest tillit:

low_conf_view = non_dup_view.sort_by( "article_style.confidence"
)
session.view = low_conf_view

For noen av disse bildene er den passende stilkategorien i den oppgitte listen, og klesplagget er feil merket. Det første bildet i rutenettet, for eksempel, skal tydeligvis være "kamuflasje" og ikke "chevron". I andre tilfeller passer produktene imidlertid ikke pent inn i stilkategoriene. Kjolen i det andre bildet i andre rad, for eksempel, er ikke akkurat "stripete", men gitt de samme merkingsalternativene, kan en menneskelig annotator også ha vært i konflikt. Når vi bygger ut datasettet vårt, må vi bestemme om vi skal fjerne kanttilfeller som disse, legge til nye stilkategorier eller utvide datasettet.

Eksporter det endelige datasettet fra FiftyOne

Eksporter det endelige datasettet med følgende kode:

# The directory to which to write the exported dataset
export_dir = "200kFashionDatasetExportResult" # The name of the sample field containing the label that you wish to export
# Used when exporting labeled datasets (e.g., classification or detection)
label_field = "article_style" # for example # The type of dataset to export
# Any subclass of `fiftyone.types.Dataset` is supported
dataset_type = fo.types.COCODetectionDataset # for example # Export the dataset
high_conf_view.export( export_dir=export_dir, dataset_type=dataset_type, label_field=label_field,
)

Vi kan eksportere et mindre datasett, for eksempel 16 bilder, til mappen 200kFashionDatasetExportResult-16Images. Vi lager en Ground Truth-justeringsjobb ved å bruke den:

# The directory to which to write the exported dataset
export_dir = "200kFashionDatasetExportResult-16Images" # The name of the sample field containing the label that you wish to export
# Used when exporting labeled datasets (e.g., classification or detection)
label_field = "article_style" # for example # The type of dataset to export
# Any subclass of `fiftyone.types.Dataset` is supported
dataset_type = fo.types.COCODetectionDataset # for example # Export the dataset
high_conf_view.take(16).export( export_dir=export_dir, dataset_type=dataset_type, label_field=label_field,
)

Last opp det reviderte datasettet, konverter etikettformatet til Ground Truth, last opp til Amazon S3 og lag en manifestfil for justeringsjobben

Vi kan konvertere etikettene i datasettet for å matche utdatamanifestskjema av en Ground Truth bounding box-jobb, og last opp bildene til en Amazon enkel lagringstjeneste (Amazon S3) bøtte for å lansere en Justeringsjobb for Ground Truth:

import json
# open the labels.json file of ground truth bounding box #labels from the exported dataset
f = open('200kFashionDatasetExportResult-16Images/labels.json')
data = json.load(f) # provide your aws s3 bucket name, prefix, and aws credentials
bucket_name = 'sagemaker-your-preferred-s3-bucket'
s3_prefix = 'sagemaker-your-preferred-s3-prefix' session = boto3.Session( aws_access_key_id='<AWS_ACCESS_KEY_ID>', aws_secret_access_key='<AWS_SECRET_ACCESS_KEY>'
)
s3 = session.resource('s3') for image in data['images']: file_name = image['file_name'] file_id = file_name[:-4] image_id = image['id'] # upload the image to s3 s3.meta.client.upload_file('200kFashionDatasetExportResult-16Images/data/'+image['file_name'], bucket_name, s3_prefix+'/'+image['file_name']) gt_annotations = [] confidence = 0.00 for annotation in data['annotations']: if annotation['image_id'] == image['id']: confidence = annotation['score'] gt_annotation = { "class_id": gt_class_array.index(style_category), # convert the original ground_truth bounding box #label to predicted style label "left": annotation['bbox'][0], "top": annotation['bbox'][1], "width": annotation['bbox'][2], "height": annotation['bbox'][3] } gt_annotations.append(gt_annotation) break gt_metadata_objects = [] for gt_annotation in gt_annotations: gt_metadata_objects.append({ "confidence": confidence }) gt_label_attribute_metadata = { "class-map": gt_class_map, "objects": gt_metadata_objects, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2023-02-19T00:23:25.339582", "job-name": "labeling-job/200k-fashion-origin" } gt_output = { "source-ref": f"s3://{bucket_name}/{s3_prefix}/{image['file_name']}", "200k-fashion-origin": { "image_size": [ { "width": image['width'], "height": image['height'], "depth": 3 } ], "annotations": gt_annotations }, "200k-fashion-origin-metadata": gt_label_attribute_metadata } # write to the manifest file with open(200k-fashion-output.manifest', 'a') as output_file: output_file.write(json.dumps(gt_output) + "n")

Last opp manifestfilen til Amazon S3 med følgende kode:

s3.meta.client.upload_file(200k-fashion-output.manifest', bucket_name, s3_prefix+'/200k-fashion-output.manifest')

Lag korrigerte etiketter med Ground Truth

For å kommentere dataene dine med stiletiketter ved å bruke Ground Truth, fullfør de nødvendige trinnene for å starte en markeringsboksmerkingsjobb ved å følge prosedyren som er skissert i Komme i gang med Ground Truth guide med datasettet i samme S3-bøtte.

På SageMaker-konsollen oppretter du en Ground Truth-merkejobb.
Sett Angi datasettplassering å være manifestet som vi skapte i de foregående trinnene.
Angi en S3-bane for Output datasettplassering.
Til IAM-rolle, velg Angi en egendefinert IAM-rolle ARN, skriv deretter inn rollen ARN.
Til Oppgavekategori, velg Bilde og velg Avgrensende boks.
Velg neste.
på Arbeidere seksjon, velg typen arbeidsstyrke du vil bruke.
Du kan velge en arbeidsstyrke gjennom Amazon Mekanisk Turk, tredjepartsleverandører eller din egen private arbeidsstyrke. For mer informasjon om arbeidsstyrkealternativene dine, se Opprett og administrer arbeidsstyrker.
Expand Visningsalternativer for eksisterende etiketter og velg Jeg vil vise eksisterende etiketter fra datasettet for denne jobben.
Til Etikettattributt navn, velg navnet fra manifestet som tilsvarer etikettene du vil vise for justering.
Du vil bare se etikettattributtnavn for etiketter som samsvarer med oppgavetypen du valgte i de foregående trinnene.
Angi etikettene manuelt for Merkeverktøy for avgrensningsboks.
Etikettene må inneholde de samme etikettene som brukes i det offentlige datasettet. Du kan legge til nye etiketter. Følgende skjermbilde viser hvordan du kan velge arbeidere og konfigurere verktøyet for merkejobben din.
Velg Forhåndsvisning for å forhåndsvise bildet og originale merknader.

Vi har nå opprettet en merkejobb i Ground Truth. Etter at jobben vår er fullført, kan vi laste de nylig genererte merkede dataene inn i FiftyOne. Ground Truth produserer utdata i et Ground Truth-utdatamanifest. For mer informasjon om utdatamanifestfilen, se Bounding Box Job Output. Følgende kode viser et eksempel på dette utdatamanifestformatet:

{ "source-ref": "s3://AWSDOC-EXAMPLE-BUCKET/example_image.png", "bounding-box-attribute-name": { "image_size": [{ "width": 500, "height": 400, "depth":3}], "annotations": [ {"class_id": 0, "left": 111, "top": 134, "width": 61, "height": 128}, {"class_id": 5, "left": 161, "top": 250, "width": 30, "height": 30}, {"class_id": 5, "left": 20, "top": 20, "width": 30, "height": 30} ] }, "bounding-box-attribute-name-metadata": { "objects": [ {"confidence": 0.8}, {"confidence": 0.9}, {"confidence": 0.9} ], "class-map": { "0": "jersey", "5": "polka dot" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2018-10-18T22:18:13.527256", "job-name": "identify-fashion-set" }, "adjusted-bounding-box": { "image_size": [{ "width": 500, "height": 400, "depth":3}], "annotations": [ {"class_id": 0, "left": 110, "top": 135, "width": 61, "height": 128}, {"class_id": 5, "left": 161, "top": 250, "width": 30, "height": 30}, {"class_id": 5, "left": 10, "top": 10, "width": 30, "height": 30} ] }, "adjusted-bounding-box-metadata": { "objects": [ {"confidence": 0.8}, {"confidence": 0.9}, {"confidence": 0.9} ], "class-map": { "0": "dog", "5": "bone" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2018-11-20T22:18:13.527256", "job-name": "adjust-identify-fashion-set", "adjustment-status": "adjusted" } }

Gjennomgå merkede resultater fra Ground Truth i FiftyOne

Etter at jobben er fullført, last ned utdatamanifestet for merkejobben fra Amazon S3.

Les utdatamanifestfilen:

with open('<path-to-your-output.manifest>', 'r') as fh: adjustment_manifest_lines = fh.readlines()

Opprett et FiftyOne-datasett og konverter manifestlinjene til prøver i datasettet:

def get_classification_labels(manifest_line, dataset, attr_name) -> fo.Classifications: label_attribute_data = manifest_line.get(attr_name) metadata = manifest_line.get(f"{attr_name}-metadata") annotations = label_attribute_data.get("annotations") image_data = label_attribute_data.get("image_size")[0] width = image_data.get("width") height = image_data.get("height") predictions = [] for i, annotation in enumerate(annotations): label = metadata.get("class-map").get(str(annotation.get("class_id"))) confidence = metadata.get("objects")[i].get("confidence") prediction = fo.Classification(label=label, confidence=confidence) predictions.append(prediction) return fo.Classifications(classifications=predictions) def get_bounding_box_labels(manifest_line, dataset, attr_name) -> fo.Detections: label_attribute_data = manifest_line.get(attr_name) metadata = manifest_line.get(f"{attr_name}-metadata") annotations = label_attribute_data.get("annotations") image_data = label_attribute_data.get("image_size")[0] width = image_data.get("width") height = image_data.get("height") detections = [] for i, annotation in enumerate(annotations): label = metadata.get("class-map").get(str(annotation.get("class_id"))) confidence = metadata.get("objects")[i].get("confidence") # Bounding box coordinates should be relative values # in [0, 1] in the following format: # [top-left-x, top-left-y, width, height] bounding_box = [ annotation.get("left") / width, annotation.get("top") / height, annotation.get("width") / width, annotation.get("height") / height, ] detection = fo.Detection( label=label, bounding_box=bounding_box, confidence=confidence ) detections.append(detection) return fo.Detections(detections=detections) def get_sample_from_manifest_line(manifest_line, dataset, attr_name): """ For each line in manifest, transform annotations into Fiftyone format Args: line: manifest line Output: Fiftyone image sample """ file_name = manifest_line.get("source-ref")[5:].split("/")[-1] file_loc = f'200kFashionDatasetExportResult-16Images/data/{file_name}' sample = fo.Sample(filepath=file_loc) sample['ground_truth'] = get_bounding_box_labels( manifest_line=manifest_line, dataset=dataset, attr_name=attr_name ) sample["prediction"] = get_classification_labels( manifest_line=manifest_line, dataset=dataset, attr_name=attr_name ) return sample adjustment_dataset = fo.Dataset("adjustment-job-dataset") samples = [ get_sample_from_manifest_line( manifest_line=json.loads(manifest_line), dataset=adjustment_dataset, attr_name='smgt-fiftyone-style-adjustment-job' ) for manifest_line in adjustment_manifest_lines ] adjustment_dataset.add_samples(samples) session = fo.launch_app(adjustment_dataset)

Du kan nå se merket data av høy kvalitet fra Ground Truth i FiftyOne.

konklusjonen

I dette innlegget viste vi hvordan du kan bygge datasett av høy kvalitet ved å kombinere kraften til Femtien by voxel51, et åpen kildekodeverktøy som lar deg administrere, spore, visualisere og kuratere datasettet ditt, og Ground Truth, en datamerkingstjeneste som lar deg effektivt og nøyaktig merke datasettene som kreves for opplæring av ML-systemer ved å gi tilgang til flere bygde -i oppgavemaler og tilgang til en mangfoldig arbeidsstyrke gjennom Mechanical Turk, tredjepartsleverandører eller din egen private arbeidsstyrke.

Vi oppfordrer deg til å prøve ut denne nye funksjonaliteten ved å installere en FiftyOne-forekomst og bruke Ground Truth-konsollen for å komme i gang. For å lære mer om Ground Truth, se Etikettdata, Vanlige spørsmål om Amazon SageMaker-datamerking, og AWS maskinlæringsblogg.

Koble til Maskinlæring og AI-fellesskap hvis du har spørsmål eller tilbakemeldinger!

Bli med i FiftyOne-fellesskapet!

Bli med de tusenvis av ingeniører og dataforskere som allerede bruker FiftyOne for å løse noen av de mest utfordrende problemene innen datasyn i dag!

Om forfatterne

Shalendra Chhabra er for tiden sjef for produktadministrasjon for Amazon SageMaker Human-in-the-Loop (HIL) Services. Tidligere inkuberte og ledet Shalendra Language and Conversational Intelligence for Microsoft Teams Meetings, var EIR hos Amazon Alexa Techstars Startup Accelerator, VP of Product and Marketing hos Diskuter.io, leder for produkt og markedsføring hos Clipboard (kjøpt av Salesforce), og Lead Product Manager hos Swype (kjøpt av Nuance). Totalt har Shalendra bidratt til å bygge, sende og markedsføre produkter som har berørt mer enn en milliard liv.

Jacob Marks er en maskinlæringsingeniør og utviklerevangelist hos Voxel51, hvor han hjelper til med å bringe åpenhet og klarhet til verdens data. Før han begynte i Voxel51, grunnla Jacob en oppstart for å hjelpe nye musikere med å koble sammen og dele kreativt innhold med fans. Før det jobbet han hos Google X, Samsung Research og Wolfram Research. I et tidligere liv var Jacob en teoretisk fysiker, og fullførte sin doktorgrad ved Stanford, hvor han undersøkte kvantefaser av materie. På fritiden liker Jacob å klatre, løpe og lese science fiction-romaner.

Jason Corso er medgründer og administrerende direktør for Voxel51, hvor han styrer strategien for å bidra til å bringe åpenhet og klarhet til verdens data gjennom avansert fleksibel programvare. Han er også professor i robotikk, elektroteknikk og informatikk ved University of Michigan, hvor han fokuserer på banebrytende problemer i skjæringspunktet mellom datasyn, naturlig språk og fysiske plattformer. På fritiden liker Jason å tilbringe tid med familien, lese, være i naturen, spille brettspill og alle slags kreative aktiviteter.

Brian Moore er medgründer og CTO for Voxel51, hvor han leder teknisk strategi og visjon. Han har en doktorgrad i elektroteknikk fra University of Michigan, hvor forskningen hans var fokusert på effektive algoritmer for maskinlæringsproblemer i stor skala, med spesiell vekt på datasynsapplikasjoner. På fritiden liker han badminton, golf, fotturer og lek med tvillingene sine Yorkshire Terrier.

Zhuling Bai er programvareutviklingsingeniør hos Amazon Web Services. Hun jobber med å utvikle distribuerte systemer i stor skala for å løse maskinlæringsproblemer.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoAiStream. Web3 Data Intelligence. Kunnskap forsterket. Tilgang her.
Minting the Future med Adryenn Ashley. Tilgang her.
Kjøp og selg aksjer i PRE-IPO-selskaper med PREIPO®. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/create-high-quality-datasets-with-amazon-sagemaker-ground-truth-and-fiftyone/

Tidstempel: Kan 5, 2023

Tidstempel: Kan 19, 2022

Publisert av Platon

Lag videoundertekster med Amazon Transcribe ved å bruke denne arbeidsflyten uten kode

Generer en kontrafaktisk analyse av maisrespons på nitrogen med Amazon SageMaker JumpStart-løsninger

Trekk ut innsikt fra SAP ERP med ML-løsninger uten kode med Amazon AppFlow og Amazon SageMaker Canvas

Utfør intelligent søk på tvers av e-poster i Google-arbeidsområdet ditt ved å bruke Gmail-koblingen for Amazon Kendra

Pandas brukerdefinerte funksjoner er nå tilgjengelig i Amazon SageMaker Data Wrangler

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn