Amazon SageMaker Ground Truth 및 FiftyOne을 사용하여 고품질 데이터 세트 생성

플라톤에 의해 재발행

팔로워 : 0

이것은 AWS와 Voxel51이 공동으로 작성한 공동 게시물입니다. Voxel51은 고품질 데이터 세트 및 컴퓨터 비전 모델을 구축하기 위한 오픈 소스 툴킷인 FiftyOne의 배후에 있는 회사입니다.

소매 회사는 고객이 옷을 구매할 수 있도록 모바일 앱을 구축하고 있습니다. 이 앱을 만들려면 다양한 카테고리로 레이블이 지정된 의류 이미지가 포함된 고품질 데이터 세트가 필요합니다. 이 게시물에서는 제로샷 분류 모델을 사용하여 데이터 정리, 사전 처리 및 사전 레이블 지정을 통해 기존 데이터 세트의 용도를 변경하는 방법을 보여줍니다. 쉰한, 그리고 이러한 라벨을 다음과 같이 조정합니다. 아마존 세이지 메이커 그라운드 진실.

Ground Truth 및 FiftyOne을 사용하여 데이터 레이블 지정 프로젝트를 가속화할 수 있습니다. 두 애플리케이션을 함께 원활하게 사용하여 고품질의 레이블이 지정된 데이터 세트를 만드는 방법을 설명합니다. 예제 사용 사례의 경우 다음과 같이 작업합니다. Fashion200K 데이터 세트, ICCV 2017에서 공개되었습니다.

솔루션 개요

Ground Truth는 데이터 과학자, 기계 학습(ML) 엔지니어 및 연구원이 고품질 데이터 세트를 구축할 수 있도록 지원하는 완전 셀프 서비스 및 관리형 데이터 레이블 지정 서비스입니다. 쉰한 by 복셀 51 사용 사례를 가속화하여 더 나은 모델을 훈련하고 분석할 수 있도록 컴퓨터 비전 데이터 세트를 큐레이팅, 시각화 및 평가하기 위한 오픈 소스 도구 키트입니다.

다음 섹션에서는 다음을 수행하는 방법을 보여줍니다.

FiftyOne에서 데이터 세트 시각화
FiftyOne에서 필터링 및 이미지 중복 제거로 데이터 세트 정리
FiftyOne에서 제로 샷 분류로 정리된 데이터에 사전 레이블 지정
더 작은 선별 데이터 세트에 Ground Truth로 레이블 지정
Ground Truth에서 레이블이 지정된 결과를 FiftyOne에 주입하고 FiftyOne에서 레이블이 지정된 결과를 검토합니다.

사용 사례 개요

소매 회사를 소유하고 있고 사용자가 무엇을 입을지 결정하는 데 도움이 되는 개인화된 권장 사항을 제공하는 모바일 애플리케이션을 구축하려고 한다고 가정합니다. 잠재 사용자는 옷장에 어떤 옷이 잘 어울리는지 알려주는 애플리케이션을 찾고 있습니다. 여기에서 기회를 볼 수 있습니다. 좋은 의상을 식별할 수 있는 경우 이를 사용하여 고객이 이미 소유하고 있는 의류를 보완하는 새로운 의류 품목을 추천할 수 있습니다.

최종 사용자를 위해 가능한 한 쉽게 작업을 수행하려고 합니다. 이상적으로는 애플리케이션을 사용하는 사람이 옷장에 있는 옷 사진만 찍으면 되고 ML 모델은 보이지 않는 곳에서 마법을 발휘합니다. 범용 모델을 훈련시키거나 특정 형태의 피드백을 통해 각 사용자의 고유한 스타일에 맞게 모델을 미세 조정할 수 있습니다.

그러나 먼저 사용자가 캡처하는 의류 유형을 식별해야 합니다. 셔츠인가요? 바지? 또는 다른 것? 결국, 여러 개의 드레스나 여러 개의 모자가 있는 의상을 추천하고 싶지 않을 것입니다.

이 초기 문제를 해결하기 위해 다양한 패턴과 스타일을 가진 다양한 의류 품목의 이미지로 구성된 교육 데이터 세트를 생성하려고 합니다. 제한된 예산으로 프로토타입을 만들려면 기존 데이터 세트를 사용하여 부트스트랩하려고 합니다.

이 게시물의 프로세스를 설명하고 안내하기 위해 ICCV 200에서 발표된 Fashion2017K 데이터 세트를 사용합니다. 이 데이터 세트는 확립되고 잘 인용된 데이터 세트이지만 사용 사례에 직접 적합하지는 않습니다.

의류 품목에는 카테고리(및 하위 카테고리)로 레이블이 지정되고 원래 제품 설명에서 추출한 다양한 유용한 태그가 포함되어 있지만 데이터에는 패턴 또는 스타일 정보가 체계적으로 레이블이 지정되어 있지 않습니다. 목표는 이 기존 데이터 세트를 의류 분류 모델을 위한 강력한 훈련 데이터 세트로 바꾸는 것입니다. 스타일 레이블로 레이블 지정 스키마를 보강하여 데이터를 정리해야 합니다. 그리고 가능한 한 적은 비용으로 신속하게 작업을 수행하기를 원합니다.

데이터를 로컬로 다운로드

먼저 아래에 제공된 지침에 따라 women.tar zip 파일과 labels 폴더(모든 하위 폴더 포함)를 다운로드합니다. Fashion200K 데이터 세트 GitHub 리포지토리. 둘 다 압축을 푼 후 상위 디렉토리 fashion200k를 만들고 레이블과 여성 폴더를 여기로 이동합니다. 다행히 이러한 이미지는 객체 감지 경계 상자에 이미 잘려 있으므로 객체 감지에 대해 걱정하기보다는 분류에 집중할 수 있습니다.

이름에 "200K"가 있음에도 불구하고 우리가 추출한 여성 디렉토리에는 338,339개의 이미지가 포함되어 있습니다. 공식 Fashion200K 데이터 세트를 생성하기 위해 데이터 세트 작성자는 온라인에서 300,000개 이상의 제품을 크롤링했으며 설명이 XNUMX단어 이상 포함된 제품만 잘라냈습니다. 우리의 목적을 위해 제품 설명이 필수적이지 않은 경우 크롤링된 모든 이미지를 사용할 수 있습니다.

이 데이터가 어떻게 구성되어 있는지 살펴보겠습니다. 여성 폴더 내에서 이미지는 최상위 항목 유형(스커트, 상의, 바지, 재킷 및 드레스) 및 항목 유형 하위 범주(블라우스, 티셔츠, 긴팔)별로 정렬됩니다. 상의).

하위 범주 디렉토리 내에는 각 제품 목록에 대한 하위 디렉토리가 있습니다. 이들 각각에는 다양한 수의 이미지가 포함되어 있습니다. 예를 들어 cropped_pants 하위 범주에는 다음 제품 목록 및 관련 이미지가 포함됩니다.

레이블 폴더에는 학습 및 테스트 분할 모두에 대한 각 최상위 기사 유형에 대한 텍스트 파일이 포함되어 있습니다. 이러한 각 텍스트 파일에는 제품 설명의 상대 파일 경로, 점수 및 태그를 지정하는 각 이미지에 대한 별도의 줄이 있습니다.

데이터 세트의 용도를 변경하기 때문에 모든 훈련 및 테스트 이미지를 결합합니다. 이를 사용하여 고품질 애플리케이션별 데이터 세트를 생성합니다. 이 프로세스를 완료한 후 결과 데이터 세트를 새로운 학습 및 테스트 분할로 무작위로 분할할 수 있습니다.

FiftyOne에서 데이터 세트 삽입, 보기 및 조정

아직 설치하지 않은 경우 pip를 사용하여 오픈 소스 FiftyOne을 설치합니다.

pip install fiftyone

가장 좋은 방법은 새로운 가상(venv 또는 conda) 환경 내에서 이를 수행하는 것입니다. 그런 다음 관련 모듈을 가져옵니다. 기본 라이브러리인 fiveone, ML 메서드가 내장된 FiftyOne Brain, 제로 샷 레이블을 생성할 모델을 로드할 FiftyOne Zoo, 효율적으로 필터링할 수 있는 ViewField를 가져옵니다. 데이터 세트의 데이터:

import fiftyone as fo
import fiftyone.brain as fob
import fiftyone.zoo as foz
from fiftyone import ViewField as F

또한 glob 및 os Python 모듈을 가져와야 합니다. 그러면 디렉토리 내용에 대한 경로 및 패턴 일치 작업에 도움이 됩니다.

from glob import glob
import os

이제 데이터 세트를 FiftyOne에 로드할 준비가 되었습니다. 먼저, fashion200k라는 데이터 세트를 만들고 영구적으로 만듭니다. 이렇게 하면 계산 집약적인 작업의 결과를 저장할 수 있으므로 해당 수량을 한 번만 계산하면 됩니다.

dataset = fo.Dataset("fashion200k", persistent=True)

이제 모든 하위 범주 디렉터리를 반복하여 제품 디렉터리 내의 모든 이미지를 추가할 수 있습니다. 이미지의 최상위 기사 범주로 채워진 필드 이름이 article_type인 각 샘플에 FiftyOne 분류 레이블을 추가합니다. 또한 범주 및 하위 범주 정보를 모두 태그로 추가합니다.

# Map dir categories to article type labels
labels_map = { "dresses": "dress", "jackets": "jacket", "pants": "pants", "skirts": "skirt", "tops": "top",
} dataset_dir = "./fashion200k" for d in glob(os.path.join(dataset_dir, "women", "*", "*")): _, _, category, subcategory = d.split("/") subcategory = subcategory.replace("_", " ") label = labels_map[category] dataset.add_samples( [ fo.Sample( filepath=filepath,
tags=[category, subcategory], article_type=fo.Classification(label=label), ) for filepath in glob(os.path.join(d, "*", "*")) ] )

이 시점에서 세션을 시작하여 FiftyOne 앱에서 데이터 세트를 시각화할 수 있습니다.

session = fo.launch_app(dataset)

다음을 실행하여 Python에서 데이터 세트 요약을 인쇄할 수도 있습니다. print(dataset):

Name: fashion200k
Media type: image
Num samples: 338339
Persistent: True
Tags: []
Sample fields: id: fiftyone.core.fields.ObjectIdField filepath: fiftyone.core.fields.StringField tags: fiftyone.core.fields.ListField(fiftyone.core.fields.StringField) metadata: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.metadata.ImageMetadata) article_type: fiftyone.core.fields.EmbeddedDocumentField(fiftyone.core.labels.Classification)

에서 태그를 추가할 수도 있습니다. labels 데이터 세트의 샘플에 대한 디렉토리:

working_dir = os.getcwd() tags = {
f: set(t) for f, t in zip(*dataset.values(["filepath", "tags"]))
} for label_file in glob("fashion200k/labels/*"): with open(label_file, 'r') as f: for line in f.readlines(): line_list = line.split() fp = os.path.join( working_dir, dataset_dir, line_list[0] ) # add new tags new_tags_for_fp = line_list[2:] tags[fp].update(new_tags_for_fp) # Update tags
dataset.set_values("tags", tags, key_field="filepath")

데이터를 살펴보면 몇 가지 사항이 명확해집니다.

일부 이미지는 상당히 거칠고 해상도가 낮습니다. 이는 이러한 이미지가 개체 감지 경계 상자에서 초기 이미지를 잘라서 생성되었기 때문일 수 있습니다.
어떤 옷은 사람이 입는 옷이고, 어떤 옷은 스스로 사진을 찍는 것입니다. 이러한 세부 사항은 viewpoint 재산.
동일한 제품의 많은 이미지가 매우 유사하므로 적어도 처음에는 제품당 하나 이상의 이미지를 포함하는 것이 예측력을 크게 향상시키지 못할 수 있습니다. 대부분의 경우 각 제품의 첫 번째 이미지( _0.jpeg)가 가장 깨끗합니다.

처음에는 이러한 이미지의 제어된 하위 집합에서 의류 스타일 분류 모델을 훈련할 수 있습니다. 이를 위해 제품의 고해상도 이미지를 사용하고 제품당 하나의 대표 샘플로 보기를 제한합니다.

먼저 저해상도 이미지를 필터링합니다. 우리는 compute_metadata() 데이터 세트의 각 이미지에 대해 이미지 너비와 높이를 픽셀 단위로 계산하고 저장하는 메서드입니다. 그런 다음 FiftyOne을 사용합니다. ViewField 허용되는 최소 너비 및 높이 값을 기준으로 이미지를 필터링합니다. 다음 코드를 참조하십시오.

dataset.compute_metadata() min_width = 200
min_height = 300 width_filter = F("metadata.width") > min_width
height_filter = F("metadata.height") > min_height high_res_view = dataset.match( width_filter & height_filter
) session.view = high_res_view.view()

이 고해상도 하위 집합에는 200,000개 미만의 샘플이 있습니다.

이 보기에서 각 제품에 대해 최대 하나의 대표 샘플만 포함하는 데이터 세트에 새 보기를 만들 수 있습니다. 우리는 ViewField 다시 한 번, 다음으로 끝나는 파일 경로에 대한 패턴 일치 _0.jpeg:

representative_view = high_res_view.match( F("filepath").ends_with("_0.jpeg")
)

이 하위 집합에서 무작위로 섞인 이미지 순서를 살펴보겠습니다.

session.view = representative_view.shuffle()

데이터 세트에서 중복 이미지 제거

이 보기에는 66,297개의 이미지 또는 원본 데이터 세트의 19%가 조금 넘는 이미지가 포함되어 있습니다. 하지만 뷰를 보면 매우 유사한 제품이 많다는 것을 알 수 있습니다. 이러한 모든 복사본을 유지하면 성능이 눈에 띄게 향상되지 않고 레이블 지정 및 모델 교육에 비용만 추가될 수 있습니다. 대신, 거의 중복되는 항목을 제거하여 여전히 동일한 펀치를 포함하는 더 작은 데이터 세트를 생성해 보겠습니다.

이러한 이미지는 정확한 복제본이 아니기 때문에 픽셀 단위의 동일성을 확인할 수 없습니다. 다행히 FiftyOne Brain을 사용하여 데이터 세트를 정리할 수 있습니다. 특히 각 이미지(이미지를 나타내는 저차원 벡터)에 대한 임베딩을 계산한 다음 임베딩 벡터가 서로 가까운 이미지를 찾습니다. 벡터가 가까울수록 이미지가 더 유사합니다.

CLIP 모델을 사용하여 각 이미지에 대한 512차원 임베딩 벡터를 생성하고 이러한 임베딩을 데이터 세트의 샘플에 있는 필드 임베딩에 저장합니다.

## load model
model = foz.load_zoo_model("clip-vit-base32-torch") ## compute embeddings
representative_view.compute_embeddings(
model, embeddings_field="embedding"
)

그런 다음 다음을 사용하여 임베딩 간의 근접성을 계산합니다. 코사인 유사성, 유사성이 일부 임계값보다 큰 두 벡터는 거의 중복될 가능성이 있다고 주장합니다. 코사인 유사성 점수는 [0, 1] 범위에 있으며 데이터를 보면 thresh=0.5의 임계값 점수가 대략 맞는 것 같습니다. 다시 말하지만 이것이 완벽할 필요는 없습니다. 중복에 가까운 몇 개의 이미지는 우리의 예측 능력을 망칠 가능성이 없으며 중복되지 않은 몇 개의 이미지를 버려도 모델 성능에 실질적으로 영향을 미치지 않습니다.

results = fob.compute_similarity(
view,
embeddings="embedding",
brain_key="sim",
metric="cosine"
) results.find_duplicates(thresh=0.5)

중복된 것으로 추정되는 항목을 보고 실제로 중복되는지 확인할 수 있습니다.

## view the duplicates, paired up, ## to make sure it is doing what we think it is doing
dup_view = results.duplicates_view()
session = fo.launch_app(dup_view)

결과에 만족하고 이러한 이미지가 실제로 거의 복제되었다고 생각되면 각 유사한 샘플 세트에서 하나의 샘플을 선택하여 유지하고 나머지는 무시할 수 있습니다.

## get one image from each group of duplicates
dup_rep_ids = list(results.neighbors_map.keys()) # get ids of non-duplicates
non_dup_ids = representative_view.exclude(
dup_view.values("id")
).values("id") # ids to keep
ids = dup_rep_ids + non_dup_ids # create view from ids
non_dup_view = representative_view[ids]

이제 이 보기에는 3,729개의 이미지가 있습니다. FiftyOne은 데이터를 정리하고 Fashion200K 데이터 세트의 고품질 하위 집합을 식별함으로써 300,000개 이상의 이미지에서 4,000개 미만으로 초점을 제한하여 98% 감소를 나타냅니다. 임베딩을 사용하여 중복에 가까운 이미지만 제거하면 고려 중인 총 이미지 수가 90% 이상 감소했으며 이 데이터에 대해 학습할 모델에 거의 영향을 미치지 않았습니다.

이 하위 집합에 사전 레이블을 지정하기 전에 이미 계산한 임베딩을 시각화하여 데이터를 더 잘 이해할 수 있습니다. FiftyOne Brain에 내장된 compute_visualization() 방법은 UMAP(Uniform Manifold approximation) 기술을 사용하여 512차원 임베딩 벡터를 XNUMX차원 공간으로 투영하여 시각화할 수 있습니다.

fob.compute_visualization( non_dup_view, embeddings="embedding", brain_key="vis"
)

우리는 새로운 임베딩 패널 FiftyOne 앱에서 기사 유형별로 색상을 지정하면 이러한 임베딩이 기사 유형의 개념을 대략적으로 인코딩한다는 것을 알 수 있습니다(무엇보다도!).

이제 이 데이터에 미리 레이블을 지정할 준비가 되었습니다.

이러한 매우 고유한 고해상도 이미지를 검사하여 사전 레이블 지정 제로 샷 분류에서 클래스로 사용할 적절한 초기 스타일 목록을 생성할 수 있습니다. 이러한 이미지에 사전 레이블을 지정하는 우리의 목표는 반드시 각 이미지에 올바르게 레이블을 지정하는 것은 아닙니다. 오히려 우리의 목표는 사람 어노테이터에게 좋은 출발점을 제공하여 라벨 지정 시간과 비용을 줄이는 것입니다.

styles = [ "graphic", "lettered", "plain", "striped", "polka dot", "floral", "jersey", "checkered", "denim", "plaid", "houndstooth", "chevron", "paisley", "animal print", "quatrefoil", “camouflage”
]

그런 다음 이 애플리케이션에 대한 제로 샷 분류 모델을 인스턴스화할 수 있습니다. 우리는 이미지와 자연어 모두에 대해 훈련된 범용 모델인 CLIP 모델을 사용합니다. CLIP 모델을 "Clothing in the style"이라는 텍스트 프롬프트로 인스턴스화하여 이미지가 주어지면 모델이 "Clothing in the style [class]"가 가장 적합한 클래스를 출력합니다. CLIP은 소매 또는 패션 관련 데이터에 대해 훈련되지 않았으므로 완벽하지는 않지만 라벨 및 주석 비용을 절약할 수 있습니다.

zero_shot_model = foz.load_zoo_model( "clip-vit-base32-torch", text_prompt="Clothing in the style ", classes=styles,
)

그런 다음 이 모델을 축소된 하위 집합에 적용하고 결과를 article_style 들:

non_dup_view.apply_model(
zero_shot_model, label_field="article_style"
)

FiftyOne 앱을 다시 실행하면 예측된 스타일 레이블로 이미지를 시각화할 수 있습니다. 예측 신뢰도를 기준으로 정렬하므로 가장 자신감 있는 스타일 예측을 먼저 봅니다.

high_conf_view = non_dup_view.sort_by( "article_style.confidence", reverse=True
) session.view = high_conf_view

신뢰도가 가장 높은 예측은 "저지", "동물 프린트", "폴카 도트" 및 "글자" 스타일에 대한 것으로 보입니다. 이러한 스타일은 상대적으로 구별되기 때문에 의미가 있습니다. 또한 대부분의 경우 예측된 스타일 레이블이 정확한 것 같습니다.

신뢰도가 가장 낮은 스타일 예측도 볼 수 있습니다.

low_conf_view = non_dup_view.sort_by( "article_style.confidence"
)
session.view = low_conf_view

이러한 이미지 중 일부의 경우 제공된 목록에 적절한 스타일 카테고리가 있고 의류 항목에 잘못된 레이블이 지정되어 있습니다. 예를 들어 그리드의 첫 번째 이미지는 "쉐브론"이 아닌 "위장"이어야 합니다. 그러나 다른 경우에는 제품이 스타일 범주에 깔끔하게 맞지 않습니다. 예를 들어 두 번째 행의 두 번째 이미지에 있는 드레스는 정확히 "줄무늬"가 아니지만 동일한 레이블 지정 옵션이 제공되면 사람 어노테이터와 충돌했을 수 있습니다. 데이터세트를 구축하면서 이와 같은 엣지 케이스를 제거할지, 새로운 스타일 카테고리를 추가할지 또는 데이터세트를 보강할지 결정해야 합니다.

FiftyOne에서 최종 데이터 세트 내보내기

다음 코드를 사용하여 최종 데이터 세트를 내보냅니다.

# The directory to which to write the exported dataset
export_dir = "200kFashionDatasetExportResult" # The name of the sample field containing the label that you wish to export
# Used when exporting labeled datasets (e.g., classification or detection)
label_field = "article_style" # for example # The type of dataset to export
# Any subclass of `fiftyone.types.Dataset` is supported
dataset_type = fo.types.COCODetectionDataset # for example # Export the dataset
high_conf_view.export( export_dir=export_dir, dataset_type=dataset_type, label_field=label_field,
)

예를 들어 16개의 이미지와 같은 더 작은 데이터 세트를 폴더로 내보낼 수 있습니다. 200kFashionDatasetExportResult-16Images. 이를 사용하여 Ground Truth 조정 작업을 생성합니다.

# The directory to which to write the exported dataset
export_dir = "200kFashionDatasetExportResult-16Images" # The name of the sample field containing the label that you wish to export
# Used when exporting labeled datasets (e.g., classification or detection)
label_field = "article_style" # for example # The type of dataset to export
# Any subclass of `fiftyone.types.Dataset` is supported
dataset_type = fo.types.COCODetectionDataset # for example # Export the dataset
high_conf_view.take(16).export( export_dir=export_dir, dataset_type=dataset_type, label_field=label_field,
)

수정된 데이터 세트를 업로드하고, 레이블 형식을 Ground Truth로 변환하고, Amazon S3에 업로드하고, 조정 작업을 위한 매니페스트 파일을 생성합니다.

데이터 세트의 레이블을 변환하여 일치하도록 할 수 있습니다. 출력 매니페스트 스키마 Ground Truth 경계 상자 작업의 이미지를 아마존 단순 스토리지 서비스 (Amazon S3) 버킷을 시작합니다. Ground Truth 조정 작업:

import json
# open the labels.json file of ground truth bounding box #labels from the exported dataset
f = open('200kFashionDatasetExportResult-16Images/labels.json')
data = json.load(f) # provide your aws s3 bucket name, prefix, and aws credentials
bucket_name = 'sagemaker-your-preferred-s3-bucket'
s3_prefix = 'sagemaker-your-preferred-s3-prefix' session = boto3.Session( aws_access_key_id='<AWS_ACCESS_KEY_ID>', aws_secret_access_key='<AWS_SECRET_ACCESS_KEY>'
)
s3 = session.resource('s3') for image in data['images']: file_name = image['file_name'] file_id = file_name[:-4] image_id = image['id'] # upload the image to s3 s3.meta.client.upload_file('200kFashionDatasetExportResult-16Images/data/'+image['file_name'], bucket_name, s3_prefix+'/'+image['file_name']) gt_annotations = [] confidence = 0.00 for annotation in data['annotations']: if annotation['image_id'] == image['id']: confidence = annotation['score'] gt_annotation = { "class_id": gt_class_array.index(style_category), # convert the original ground_truth bounding box #label to predicted style label "left": annotation['bbox'][0], "top": annotation['bbox'][1], "width": annotation['bbox'][2], "height": annotation['bbox'][3] } gt_annotations.append(gt_annotation) break gt_metadata_objects = [] for gt_annotation in gt_annotations: gt_metadata_objects.append({ "confidence": confidence }) gt_label_attribute_metadata = { "class-map": gt_class_map, "objects": gt_metadata_objects, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2023-02-19T00:23:25.339582", "job-name": "labeling-job/200k-fashion-origin" } gt_output = { "source-ref": f"s3://{bucket_name}/{s3_prefix}/{image['file_name']}", "200k-fashion-origin": { "image_size": [ { "width": image['width'], "height": image['height'], "depth": 3 } ], "annotations": gt_annotations }, "200k-fashion-origin-metadata": gt_label_attribute_metadata } # write to the manifest file with open(200k-fashion-output.manifest', 'a') as output_file: output_file.write(json.dumps(gt_output) + "n")

다음 코드를 사용하여 매니페스트 파일을 Amazon S3에 업로드합니다.

s3.meta.client.upload_file(200k-fashion-output.manifest', bucket_name, s3_prefix+'/200k-fashion-output.manifest')

Ground Truth로 수정된 스타일 레이블 생성

Ground Truth를 사용하여 스타일 레이블로 데이터에 주석을 추가하려면 다음 절차에 따라 경계 상자 레이블 지정 작업을 시작하는 데 필요한 단계를 완료하십시오. Ground Truth 시작하기 동일한 S3 버킷의 데이터 세트로 안내합니다.

SageMaker 콘솔에서 Ground Truth 레이블 지정 작업을 생성합니다.
설정 입력 데이터 셋 위치 이전 단계에서 만든 매니페스트가 됩니다.
다음에 대한 S3 경로 지정 출력 데이터 세트 위치.
럭셔리 IAM 역할선택한다. 커스텀 IAM 역할 입력 ARN을 클릭한 다음 역할 ARN을 입력합니다.
럭셔리 작업 카테고리선택한다. 영상 선택 경계 상자.
왼쪽 메뉴에서 다음 보기.
. 노동자 섹션에서 사용하려는 인력 유형을 선택합니다.
통해 인력을 선택할 수 있습니다. 아마존 기계 터크, 타사 공급업체 또는 귀사의 개인 인력. 인력 옵션에 대한 자세한 내용은 다음을 참조하십시오. 인력 생성 및 관리.
펼치기 기존 라벨 표시 옵션 선택 이 작업에 대한 데이터 세트의 기존 레이블을 표시하고 싶습니다.
럭셔리 라벨 속성 이름, 조정을 위해 표시하려는 레이블에 해당하는 매니페스트에서 이름을 선택합니다.
이전 단계에서 선택한 작업 유형과 일치하는 레이블의 레이블 속성 이름만 표시됩니다.
다음에 대한 레이블을 수동으로 입력하십시오. 경계 상자 레이블 지정 도구.
레이블에는 공개 데이터 세트에서 사용되는 것과 동일한 레이블이 포함되어야 합니다. 새 레이블을 추가할 수 있습니다. 다음 스크린샷은 레이블 지정 작업을 위해 작업자를 선택하고 도구를 구성하는 방법을 보여줍니다.
왼쪽 메뉴에서 시사 이미지와 원래 주석을 미리 봅니다.

이제 Ground Truth에서 라벨링 작업을 생성했습니다. 작업이 완료되면 새로 생성된 레이블이 지정된 데이터를 FiftyOne에 로드할 수 있습니다. Ground Truth는 Ground Truth 출력 매니페스트에서 출력 데이터를 생성합니다. 출력 매니페스트 파일에 대한 자세한 내용은 다음을 참조하십시오. 경계 상자 작업 출력. 다음 코드는 이 출력 매니페스트 형식의 예를 보여줍니다.

{ "source-ref": "s3://AWSDOC-EXAMPLE-BUCKET/example_image.png", "bounding-box-attribute-name": { "image_size": [{ "width": 500, "height": 400, "depth":3}], "annotations": [ {"class_id": 0, "left": 111, "top": 134, "width": 61, "height": 128}, {"class_id": 5, "left": 161, "top": 250, "width": 30, "height": 30}, {"class_id": 5, "left": 20, "top": 20, "width": 30, "height": 30} ] }, "bounding-box-attribute-name-metadata": { "objects": [ {"confidence": 0.8}, {"confidence": 0.9}, {"confidence": 0.9} ], "class-map": { "0": "jersey", "5": "polka dot" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2018-10-18T22:18:13.527256", "job-name": "identify-fashion-set" }, "adjusted-bounding-box": { "image_size": [{ "width": 500, "height": 400, "depth":3}], "annotations": [ {"class_id": 0, "left": 110, "top": 135, "width": 61, "height": 128}, {"class_id": 5, "left": 161, "top": 250, "width": 30, "height": 30}, {"class_id": 5, "left": 10, "top": 10, "width": 30, "height": 30} ] }, "adjusted-bounding-box-metadata": { "objects": [ {"confidence": 0.8}, {"confidence": 0.9}, {"confidence": 0.9} ], "class-map": { "0": "dog", "5": "bone" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2018-11-20T22:18:13.527256", "job-name": "adjust-identify-fashion-set", "adjustment-status": "adjusted" } }

FiftyOne의 Ground Truth에서 레이블이 지정된 결과 검토

작업이 완료되면 Amazon S3에서 레이블 지정 작업의 출력 매니페스트를 다운로드합니다.

출력 매니페스트 파일을 읽습니다.

with open('<path-to-your-output.manifest>', 'r') as fh: adjustment_manifest_lines = fh.readlines()

FiftyOne 데이터 세트를 만들고 매니페스트 라인을 데이터 세트의 샘플로 변환합니다.

def get_classification_labels(manifest_line, dataset, attr_name) -> fo.Classifications: label_attribute_data = manifest_line.get(attr_name) metadata = manifest_line.get(f"{attr_name}-metadata") annotations = label_attribute_data.get("annotations") image_data = label_attribute_data.get("image_size")[0] width = image_data.get("width") height = image_data.get("height") predictions = [] for i, annotation in enumerate(annotations): label = metadata.get("class-map").get(str(annotation.get("class_id"))) confidence = metadata.get("objects")[i].get("confidence") prediction = fo.Classification(label=label, confidence=confidence) predictions.append(prediction) return fo.Classifications(classifications=predictions) def get_bounding_box_labels(manifest_line, dataset, attr_name) -> fo.Detections: label_attribute_data = manifest_line.get(attr_name) metadata = manifest_line.get(f"{attr_name}-metadata") annotations = label_attribute_data.get("annotations") image_data = label_attribute_data.get("image_size")[0] width = image_data.get("width") height = image_data.get("height") detections = [] for i, annotation in enumerate(annotations): label = metadata.get("class-map").get(str(annotation.get("class_id"))) confidence = metadata.get("objects")[i].get("confidence") # Bounding box coordinates should be relative values # in [0, 1] in the following format: # [top-left-x, top-left-y, width, height] bounding_box = [ annotation.get("left") / width, annotation.get("top") / height, annotation.get("width") / width, annotation.get("height") / height, ] detection = fo.Detection( label=label, bounding_box=bounding_box, confidence=confidence ) detections.append(detection) return fo.Detections(detections=detections) def get_sample_from_manifest_line(manifest_line, dataset, attr_name): """ For each line in manifest, transform annotations into Fiftyone format Args: line: manifest line Output: Fiftyone image sample """ file_name = manifest_line.get("source-ref")[5:].split("/")[-1] file_loc = f'200kFashionDatasetExportResult-16Images/data/{file_name}' sample = fo.Sample(filepath=file_loc) sample['ground_truth'] = get_bounding_box_labels( manifest_line=manifest_line, dataset=dataset, attr_name=attr_name ) sample["prediction"] = get_classification_labels( manifest_line=manifest_line, dataset=dataset, attr_name=attr_name ) return sample adjustment_dataset = fo.Dataset("adjustment-job-dataset") samples = [ get_sample_from_manifest_line( manifest_line=json.loads(manifest_line), dataset=adjustment_dataset, attr_name='smgt-fiftyone-style-adjustment-job' ) for manifest_line in adjustment_manifest_lines ] adjustment_dataset.add_samples(samples) session = fo.launch_app(adjustment_dataset)

이제 FiftyOne에서 Ground Truth의 고품질 레이블 데이터를 볼 수 있습니다.

결론

이 게시물에서는 다음의 힘을 결합하여 고품질 데이터 세트를 구축하는 방법을 보여주었습니다 쉰한 by 복셀 51, 데이터 세트를 관리, 추적, 시각화 및 큐레이트할 수 있는 오픈 소스 툴킷 및 구축된 여러 개에 대한 액세스를 제공하여 ML 시스템 교육에 필요한 데이터 세트에 효율적이고 정확하게 레이블을 지정할 수 있는 데이터 레이블 지정 서비스인 Ground Truth -작업 템플릿에서 Mechanical Turk, 타사 공급업체 또는 자체 개인 인력을 통해 다양한 인력에 액세스할 수 있습니다.

FiftyOne 인스턴스를 설치하고 Ground Truth 콘솔을 사용하여 이 새로운 기능을 사용해 보는 것이 좋습니다. Ground Truth에 대한 자세한 내용은 다음을 참조하십시오. 라벨 데이터, Amazon SageMaker 데이터 라벨링 FAQ및 AWS 머신 러닝 블로그.

연결 기계 학습 및 AI 커뮤니티 질문이나 의견이 있으시면!

FiftyOne 커뮤니티에 가입하세요!

이미 FiftyOne을 사용하고 있는 수천 명의 엔지니어 및 데이터 과학자와 함께 오늘날 컴퓨터 비전에서 가장 어려운 문제를 해결하십시오!

저자에 관하여

샬렌드라 차브라 현재 Amazon SageMaker Human-in-the-Loop(HIL) 서비스의 제품 관리 책임자입니다. 이전에 Shalendra는 Microsoft Teams Meetings의 언어 및 대화 인텔리전스를 인큐베이팅하고 이끌었으며 Amazon Alexa Techstars Startup Accelerator의 EIR, 제품 및 마케팅 부사장이었습니다. 토론.io, Clipboard(Salesforce에서 인수)의 제품 및 마케팅 책임자, Swype(Nuance에서 인수)의 수석 제품 관리자입니다. 전체적으로 Shalendra는 XNUMX억 명 이상의 삶에 영향을 준 제품을 제작, 배송 및 판매하는 데 도움을 주었습니다.

제이콥 막스 Voxel51의 머신 러닝 엔지니어이자 개발자 에반젤리스트로서 전 세계 데이터에 투명성과 명료성을 부여하는 데 도움을 줍니다. Voxel51에 합류하기 전에 Jacob은 신진 뮤지션이 팬들과 소통하고 창의적인 콘텐츠를 공유할 수 있도록 돕는 스타트업을 설립했습니다. 그 전에는 Google X, Samsung Research, Wolfram Research에서 근무했습니다. 전생에 Jacob은 이론 물리학자였으며 Stanford에서 박사 학위를 마쳤으며 그곳에서 물질의 양자 위상을 조사했습니다. 여가 시간에 Jacob은 등산, 달리기, 공상 과학 소설 읽기를 즐깁니다.

제이슨 코르소 Voxel51의 공동 창립자이자 CEO로서 최첨단 유연한 소프트웨어를 통해 전 세계 데이터에 투명성과 명확성을 제공하는 데 도움이 되는 전략을 지휘합니다. 그는 또한 University of Michigan의 로봇 공학, 전기 공학 및 컴퓨터 과학 교수로 컴퓨터 비전, 자연어 및 물리적 플랫폼의 교차점에서 최첨단 문제에 중점을 둡니다. 여가 시간에 제이슨은 가족과 함께 시간을 보내고, 독서하고, 자연 속에서 지내고, 보드 게임을 하고, 모든 종류의 창의적인 활동을 즐깁니다.

브라이언 무어 Voxel51의 공동 창립자이자 CTO로서 기술 전략과 비전을 이끌고 있습니다. 그는 University of Michigan에서 전기 공학 박사 학위를 취득했으며, 그의 연구는 특히 컴퓨터 비전 애플리케이션에 중점을 둔 대규모 기계 학습 문제를 위한 효율적인 알고리즘에 중점을 두었습니다. 여가 시간에는 배드민턴, 골프, 하이킹, 쌍둥이 요크셔 테리어와 노는 것을 즐깁니다.

주링 바이 Amazon Web Services의 소프트웨어 개발 엔지니어입니다. 그녀는 기계 학습 문제를 해결하기 위해 대규모 분산 시스템을 개발하고 있습니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoAiStream. Web3 데이터 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
미래 만들기 w Adryenn Ashley. 여기에서 액세스하십시오.
PREIPO®로 PRE-IPO 회사의 주식을 사고 팔 수 있습니다. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/create-high-quality-datasets-with-amazon-sagemaker-ground-truth-and-fiftyone/

타임 스탬프 : 2023 년 5 월 5 일

타임 스탬프 : 21년 2023월 XNUMX일

플라톤에 의해 재발행

Amazon Rekognition 대량 분석 및 사용자 지정 조정을 통해 콘텐츠 조정 개선 | 아마존 웹 서비스

Amazon SageMaker Hyperband 자동 모델 튜닝으로 분산 교육 수렴 문제를 효과적으로 해결 | 아마존 웹 서비스

Amazon Bedrock, Amazon DynamoDB, Amazon Kendra, Amazon Lex 및 LangChain을 사용하여 생성 AI 에이전트 구축 | 아마존 웹 서비스

Amazon SageMaker Data Wrangler 및 Amazon SageMaker Autopilot을 사용한 통합 데이터 준비, 모델 교육 및 배포 – 2부

Amazon Kendra 계층적 패싯으로 지능형 검색 경험을 한 단계 끌어 올리십시오.

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정