Amazon Machine Learning Solutions Lab(MLSL)은 최근 다음을 사용하여 명명된 엔터티 인식(NER) 및 관계 레이블로 텍스트에 주석을 달기 위한 도구를 만들었습니다. 아마존 세이지 메이커 그라운드 진실. 주석 작성자는 이 도구를 사용하여 명명된 엔터티로 텍스트에 레이블을 지정하고 해당 관계를 연결함으로써 최첨단 자연어 처리(NLP) 기계 학습(ML) 모델을 교육하기 위한 데이터 세트를 구축합니다. 가장 중요한 점은 이제 이 기능이 모든 AWS 고객에게 공개적으로 제공된다는 점입니다.
고객 사용 사례: Booking.com
Booking.com 세계 최고의 온라인 여행 플랫폼 중 하나입니다. 최고의 고객 경험을 유지하려면 플랫폼에 있는 회사의 28만 개 이상의 부동산 목록에 대해 고객이 말하는 내용을 이해하는 것이 필수적입니다. 이전에 Booking.com은 고객이 생성한 리뷰를 대규모로 해석하기 위해 전통적인 감정 분석만 활용할 수 있었습니다. 이러한 해석의 구체성을 향상시키기 위해 Booking.com은 최근 측면 기반 감정 분석 모델을 교육하기 위해 주석이 달린 사용자 정의 데이터 세트를 구축하는 데 도움을 받기 위해 MLSL을 선택했습니다.
전통적인 감정 분석은 텍스트를 긍정적, 부정적, 중립적으로 분류하는 과정입니다. 독특한 감정. 이는 사용자가 특정 경험에 만족하는지 불만족하는지를 광범위하게 이해하는 데 도움이 됩니다. 예를 들어 전통적인 감정 분석을 사용하면 다음 텍스트가 "중립"으로 분류될 수 있습니다.
호텔에서의 우리의 숙박은 좋았습니다. 직원들은 친절하고 객실은 깨끗했지만 저희 침대는 꽤 불편했습니다.
측면 기반 감정 분석은 콘텐츠에 대한 보다 미묘한 이해를 제공합니다. 부킹닷컴의 경우 고객 리뷰를 전체적으로 취합하여 분류하는 것이 아니라 리뷰 내에서 감성을 취하여 특정 측면에 할당할 수 있습니다. 예를 들어 특정 호텔에 대한 고객 리뷰는 깔끔한 수영장과 피트니스 공간을 칭찬할 수도 있지만 레스토랑과 라운지에 대해서는 비판적인 피드백을 제공할 수 있습니다.
전통적인 정서 분석에 따르면 "중립"으로 분류된 진술은 측면 기반 정서 분석을 사용하면 다음과 같습니다.
호텔에서의 우리의 숙박은 좋았습니다. 직원들은 친절하고 객실은 깨끗했지만 저희 침대는 꽤 불편했습니다.
- 호텔: 포지티브
- 직원: 긍정적
- 방: 긍정적
- 침대: 네거티브
Booking.com은 50개 이상의 측면 목록에서 고객 경험의 특정 부분이 무엇인지 알려주는 맞춤형 측면 기반 감정 분석 모델을 구축하려고 했습니다. 긍정적인, 부정및 중립의.
Booking.com은 이 모델에 대한 교육 데이터 세트를 구축하기 전에 모델에 주석을 달 수 있는 방법이 필요했습니다. MLSL의 주석 도구는 꼭 필요한 맞춤형 솔루션을 제공했습니다. 대규모 호텔 리뷰 컬렉션을 바탕으로 사람의 리뷰가 수행되었습니다. 그런 다음 주석 작성자는 적절한 범위를 함께 연결하기 전에 정서 및 게스트 경험 텍스트 범위 및 문구에 대한 명명된 엔터티 주석을 완성했습니다.
새로운 측면 기반 모델을 통해 Booking.com은 숙박 시설과 리뷰를 고객에게 맞춤화할 수 있습니다. 각 숙박 시설의 긍정적인 측면과 부정적인 측면을 강조하면 고객이 완벽한 일치를 선택할 수 있습니다. 또한 다양한 고객이 숙박 시설의 다양한 측면에 관심을 갖고 있으며 새 모델은 각 고객에게 가장 관련성이 높은 리뷰를 표시할 수 있는 기회를 열어줍니다.
라벨링 요구 사항
Ground Truth는 내장된 NER 텍스트 주석 기능을 제공하지만 엔터티를 서로 연결하는 기능은 제공하지 않습니다. 이를 염두에 두고 Booking.com과 MLSL은 새로운 명명된 엔터티 인식 텍스트 라벨링 도구에 대해 다음과 같은 높은 수준의 요구 사항을 마련했습니다.
- 입력으로 허용: 본문, 엔터티 라벨, 관계 라벨및 분류 라벨.
- 선택적으로 이전 레이블 및 관계 주석이 있는 사전 주석이 달린 데이터를 입력으로 허용합니다..
- 주석이 없거나 미리 주석이 달린 텍스트로 주석자를 표시합니다.
- 주석 작성자가 엔터티 레이블을 사용하여 임의의 텍스트를 강조 표시하고 주석을 달 수 있습니다.
- 주석자가 두 엔터티 주석 간의 관계를 생성할 수 있습니다.
- 주석자가 많은 수의 엔터티 레이블을 쉽게 탐색할 수 있습니다.
- 엔터티 라벨을 카테고리로 그룹화하는 기능을 지원합니다.
- 중복 관계를 허용합니다. 즉, 동일한 주석이 달린 텍스트 세그먼트가 둘 이상의 다른 주석이 달린 텍스트 세그먼트와 관련될 수 있음을 의미합니다.
- 중복되는 엔터티 레이블 주석을 허용합니다. 즉, 두 개의 주석이 동일한 텍스트 부분과 겹칠 수 있습니다. 예를 들어, "시애틀 스페이스 니들"이라는 텍스트에는 "시애틀" → "위치" 및 "시애틀 스페이스 니들" → "명소"라는 주석이 모두 포함될 수 있습니다.
- 출력 형식은 입력 형식과 호환되며 후속 라벨링 작업에 다시 피드백될 수 있습니다.
- 이모티콘 및 기타 멀티바이트 문자가 포함된 UTF-8 인코딩 텍스트를 지원합니다.
- 왼쪽에서 오른쪽으로 쓰는 언어를 지원합니다.
샘플 주석
다음 문서를 고려하십시오.
우리는 이 호텔의 위치가 마음에 들었습니다! 루프탑 라운지에서는 스페이스 니들을 완벽하게 볼 수 있었습니다. 파이크 플레이스 마켓과 해안가도 차로 가까운 거리에 있습니다.
음식은 룸서비스를 통해서만 제공되었는데, 이는 약간 실망스러웠지만 팬데믹 이후의 세상에서는 이해가 됩니다.
전반적으로 합리적인 가격의 경험입니다.
이 문서를 새로운 NER 주석에 로드하면 작업자에게 다음 인터페이스가 제공됩니다.
이 경우 근로자의 임무는 다음과 같습니다.
- 부동산과 관련된 항목에 라벨을 붙입니다(위치, 가격, 음식 등).
- 감정과 관련된 엔터티에 라벨을 지정합니다(긍정적, 부정적 또는 중립).
- 숙박 시설 관련 명명된 엔터티를 감정 관련 키워드에 연결하여 고객 경험을 정확하게 포착합니다.
주석 속도는 도구의 중요한 고려 사항이었습니다. 일련의 직관적인 키보드 단축키와 마우스 제스처를 사용하여 주석자는 인터페이스를 구동하고 다음을 수행할 수 있습니다.
- 명명된 엔터티 주석 추가 및 제거
- 명명된 엔터티 간의 관계 추가
- 문서의 시작과 끝으로 이동
- 서류 제출
또한 겹치는 레이블이 지원됩니다. 예를 들어, Seattle Space Needle
: 이 문구에는 Seattle
위치 자체와 명소 이름의 일부로 주석이 추가됩니다.
완성된 주석은 데이터에 대한 보다 완전하고 미묘한 분석을 제공합니다.
관계는 엔터티 범주에서 다른 엔터티 범주(예: "음식"에서 "감정"까지)까지 또는 개별 엔터티 유형 간에 다양한 수준으로 구성될 수 있습니다. 관계는 지시되므로 주석자는 음식과 같은 측면을 감정에 연결할 수 있지만 그 반대는 불가능합니다(명시적으로 활성화하지 않는 한). 관계를 그릴 때 주석 도구는 관계 레이블과 방향을 자동으로 추론합니다.
NER 주석 도구 구성
이 섹션에서는 고객별 사용 사례에 맞게 NER 주석 도구를 사용자 정의하는 방법을 다룹니다. 여기에는 다음 구성이 포함됩니다.
- 주석을 추가할 입력 텍스트
- 엔터티 라벨
- 관계 라벨
- 분류 라벨
- 사전 주석이 달린 데이터
- 작업자 지침
입력 및 출력 문서 형식의 세부 사항을 다루고 각각에 대한 몇 가지 예를 제공합니다.
입력 문서 형식
NER 주석 도구는 다음 JSON 형식의 입력 문서를 예상합니다(이름 옆에 물음표가 있는 필드는 선택 사항임).
간단히 말해서 입력 형식에는 다음과 같은 특성이 있습니다.
- 어느
entityLabels
orclassificationLabels
(또는 둘 다) 주석을 달아야 합니다. - If
entityLabels
주어진 다음relationshipLabels
추가 할 수 있습니다. - 서로 다른 엔터티/카테고리 레이블 또는 이들의 혼합 간에 관계가 허용될 수 있습니다.
- 관계의 "소스"는 방향 화살표가 시작하는 엔터티이고 "타겟"은 화살표가 향하는 곳입니다.
분야 | 타입 | 상품 설명 |
본문 | 현 | 필수의. 주석에 대한 텍스트를 입력합니다. |
토큰 행 | 끈[][] | 선택 과목. 입력 텍스트의 사용자 정의 토큰화. 문자열 배열의 배열. 최상위 배열은 텍스트의 각 행(줄 바꿈)을 나타내고 두 번째 수준 배열은 각 행의 토큰을 나타냅니다. 입력 텍스트의 모든 문자/룬은 공백을 포함하여 tokenRow에서 처리되어야 합니다. |
문서 ID | 현 | 선택 과목. 고객이 주석이 추가된 문서를 추적하기 위한 선택적 값입니다. |
엔터티 라벨 | 물체[] | classificationLabels가 비어 있는 경우 필수입니다. 엔터티 라벨의 배열입니다. |
엔터티 라벨[].이름 | 현 | 필수의. 엔터티 레이블 표시 이름입니다. |
엔터티라벨[].category | 현 | 선택 과목. 엔터티 라벨 카테고리 이름입니다. |
엔터티 라벨[].shortName | 현 | 선택 과목. 전체 이름이 아닌 주석이 달린 엔터티 위에 이 텍스트를 표시합니다. |
엔터티 라벨[].shortCategory | 현 | 선택 과목. 카테고리 이름의 처음 네 글자 대신 엔터티 주석 선택 드롭다운에 이 텍스트를 표시합니다. |
엔터티 라벨.색상 | 현 | 선택 과목. "#" 접두사가 붙은 XNUMX진수 색상 코드입니다. 비어 있으면 엔터티 레이블에 색상이 자동으로 할당됩니다. |
관계라벨 | 물체[] | 선택 과목. 관계 라벨의 배열입니다. |
관계 라벨[].이름 | 현 | 필수의. 관계 레이블 표시 이름입니다. |
관계 라벨[].allowedRelationships | 물체[] | 선택 과목. 이 관계를 할당할 수 있는 소스 및 대상 엔터티 레이블의 유형을 제한하는 값 배열입니다. 배열의 각 항목은 함께 "OR"됩니다. |
관계 라벨[].allowedRelationships[].sourceEntityLabelCategories | 끈[] | sourceEntityLabelCategories 또는 sourceEntityLabels(또는 둘 다)를 설정하는 데 필요합니다. 이 관계에 대한 법적 소스 엔터티 레이블 카테고리 유형 목록입니다. |
관계 라벨[].allowedRelationships[].targetEntityLabelCategories | 끈[] | targetEntityLabelCategories 또는 targetEntityLabels(또는 둘 다)를 설정하는 데 필요합니다. 이 관계에 대한 법적 대상 엔터티 레이블 범주 유형 목록입니다. |
관계 라벨[].allowedRelationships[].sourceEntityLabels | 끈[] | sourceEntityLabelCategories 또는 sourceEntityLabels(또는 둘 다)를 설정하는 데 필요합니다. 이 관계에 대한 법적 소스 엔터티 라벨 유형 목록입니다. |
관계 라벨[].allowedRelationships[].sourceEntityLabels | 끈[] | targetEntityLabelCategories 또는 targetEntityLabels(또는 둘 다)를 설정하는 데 필요합니다. 이 관계에 대한 법적 대상 엔터티 레이블 유형 목록입니다. |
분류라벨 | 끈[] | 엔터티 라벨이 비어 있는 경우 필수입니다. 문서 수준 분류 라벨 목록입니다. |
엔터티 주석 | 물체[] | 선택 과목. 입력 텍스트에 사전 주석을 달기 위한 엔터티 주석 배열입니다. |
엔터티 주석[].id | 현 | 필수의. 이 엔터티 주석의 고유 식별자입니다. RelationshipAnnotations에서 이 엔터티를 참조하는 데 사용됩니다. |
엔터티 주석[].start | 번호 | 필수의. 이 개체 주석의 룬 오프셋을 시작합니다. |
엔터티 주석[].end | 번호 | 필수의. 이 개체 주석의 끝 룬 오프셋입니다. |
엔터티 주석[].text | 현 | 필수의. 시작 및 끝 룬 오프셋 사이의 텍스트 콘텐츠입니다. |
엔터티 주석[].레이블 | 현 | 필수의. 연관된 엔터티 레이블 이름(entityLabels의 이름에서 따옴) |
엔터티 주석[].labelCategory | 현 | 선택 사항. 관련 엔터티 레이블 범주(entityLabels의 범주에서). |
관계주석 | 물체[] | 선택 과목. 관계 주석의 배열입니다. |
관계주석[].sourceEntityAnnotationId | 현 | 필수의. 이 관계의 소스 엔터티 주석 ID입니다. |
관계Annotations[].targetEntityAnnotationId | 현 | 필수의. 이 관계에 대한 대상 엔터티 주석 ID입니다. |
관계주석[].label | 현 | 필수의. 연관된 관계 레이블 이름입니다. |
분류주석 | 끈[] | 선택 과목. 문서에 사전 주석을 추가할 분류 배열입니다. |
메타 | 대상 | 선택 과목. 추가 구성 매개변수. |
메타 명령어 | 현 | 선택 과목. Markdown 형식의 라벨링 주석에 대한 지침입니다. |
Meta.disableSubmitConfirmation | 부울 | 선택 과목. 제출 확인 모달을 비활성화하려면 true로 설정합니다. |
메타.다중분류 | 부울 | 선택 과목. classificationLabels에 대해 다중 레이블 모드를 활성화하려면 true로 설정합니다. |
이 입력 형식을 더 잘 이해할 수 있는 몇 가지 샘플 문서는 다음과 같습니다.
이 스키마를 준수하는 문서는 입력 매니페스트의 개별 항목으로 Ground Truth에 제공됩니다.
출력 문서 형식
출력 형식은 새로운 주석 작업에 쉽게 피드백되도록 설계되었습니다. 출력 문서의 선택 필드는 입력 문서에도 설정된 경우 설정됩니다. 입력 형식과 출력 형식의 유일한 차이점은 meta
목적.
분야 | 타입 | 상품 설명 |
메타 거부됨 | 부울 | 주석자가 이 문서를 거부한 경우 true로 설정됩니다. |
Meta.rejectedReason | 현 | 문서를 거부한 주석 작성자의 이유입니다. |
메타.룬 | 끈[] | 입력 텍스트의 모든 문자를 설명하는 룬 배열입니다. 도면요소 주석 시작 및 끝 오프셋을 계산하는 데 사용됩니다. |
다음은 주석이 달린 샘플 출력 문서입니다.
룬 참고:
이 맥락에서 "룬"은 이모티콘과 같은 멀티바이트 문자를 포함하여 텍스트에서 강조 표시할 수 있는 단일 문자입니다.
- 프로그래밍 언어마다 멀티바이트 문자를 다르게 표현하기 때문에 "룬"을 사용하여 강조 표시 가능한 모든 문자를 단일 원자 요소로 정의하면 주어진 텍스트 선택을 명확하게 설명할 수 있는 방법이 있습니다.
- 예를 들어 Python은 스웨덴 국기를 네 문자로 처리합니다.
하지만 JavaScript는 동일한 이모티콘을 두 문자로 취급합니다.
모호함을 없애기 위해 스웨덴 국기(및 기타 모든 이모티콘 및 멀티바이트 문자)를 단일 원자 요소로 처리합니다.
- 오프셋: 입력 텍스트를 기준으로 한 룬 위치(인덱스 0부터 시작)
Ground Truth로 NER 주석 수행
완전 관리형 데이터 라벨링 서비스인 Ground Truth는 ML용 교육 데이터 세트를 구축합니다. 이 사용 사례에서는 Ground Truth를 사용하여 주석을 위한 텍스트 문서 모음을 작업자 풀에 보냅니다. 마지막으로 품질을 검토합니다.
새로운 NER 도구를 사용자 정의 템플릿으로 사용하여 데이터 라벨링 작업을 구축하도록 Ground Truth를 구성할 수 있습니다.
구체적으로 다음을 수행합니다.
- 주석 작업을 수행할 작업자의 자체 라벨링 인력을 만듭니다.
- 주석을 추가하려는 문서로 Ground Truth 입력 매니페스트를 만든 다음 업로드합니다. Amazon Simple Storage Service(Amazon S3)
- 사전 레이블 지정 작업 및 사후 레이블 지정 작업 생성 Lambda 함수
- 사용자 정의 NER 템플릿을 사용하여 Ground Truth 라벨링 작업 생성
- 문서에 주석 달기
- 결과 검토
NER 도구 리소스
참조 리소스 및 샘플 문서의 전체 목록은 다음 차트에서 확인할 수 있습니다.
인력 창출 라벨링
Ground Truth는 SageMaker 라벨링 인력을 사용하여 작업자를 관리하고 작업을 배포합니다. ner-worker-team이라는 작업자 팀인 개인 인력을 만들고 다음 지침에 따라 자신을 팀에 할당합니다. 개인 인력 생성 (Amazon SageMaker 콘솔).
개인 인력에 자신을 추가하고 이메일을 확인한 후 AWS Management Console의 작업자 포털 URL을 기록해 두십시오.
- 로 이동
SageMaker
- 로 이동
Ground Truth → Labeling workforces
- 선택
Private
탭 - URL을 참고하세요
Labeling portal sign-in URL
작업자 포털에 로그인하여 라벨링 작업을 보고 시작하세요.
입력 매니페스트
Ground Truth 입력 데이터 매니페스트는 각 줄에 단일 작업자 작업이 포함된 JSON 줄 파일입니다. 우리의 경우 각 줄에는 주석을 추가하려는 텍스트와 NER 주석 스키마가 포함된 단일 JSON 인코딩 입력 문서가 포함됩니다.
샘플 입력 매니페스트 다운로드 reviews.manifest
에 https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest
주의 사항: 입력 매니페스트의 각 행에는 최상위 키가 필요합니다. source
or source-ref
. 자세한 내용은 다음에서 확인할 수 있습니다. 입력 매니페스트 파일 사용 Amazon SageMaker 개발자 안내서에 있습니다.
Amazon S3에 입력 매니페스트 업로드
AWS Management Console을 사용하거나 명령줄에서 이 입력 매니페스트를 S3 버킷에 업로드하여 교체합니다. your-bucket
실제 버킷 이름으로.
커스텀 작업자 템플릿 다운로드
NER 도구 맞춤형 작업자 템플릿을 다음에서 다운로드하세요. https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html 소스를 보고 내용을 로컬로 저장하거나 명령줄에서:
사전 레이블 지정 작업 및 사후 레이블 지정 작업 생성 Lambda 함수
샘플 사전 레이블 지정 작업 다운로드 Lambda 함수: smgt-ner-pre-labeling-task-lambda.py
에 https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py
샘플 사전 레이블 지정 작업 다운로드 Lambda 함수: smgt-ner-post-labeling-task-lambda.py
에 https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py
- AWS Management Console에서 사전 레이블 지정 작업 Lambda 함수를 생성합니다.
- 로 이동
Lambda
- 선택
Create function
- 지정
Function name
assmgt-ner-pre-labeling-task-lambda
- 선택
Runtime
→Python 3.6
- 선택
Create function
- In
Function code
→lambda_hanadler.py
, 내용을 붙여넣으세요.smgt-ner-pre-labeling-task-lambda.py
- 선택
Deploy
- 로 이동
- AWS Management Console에서 사후 레이블 지정 작업 Lambda 함수를 생성합니다.
- 로 이동
Lambda
- 선택
Create function
- 지정
Function name
assmgt-ner-post-labeling-task-lambda
- 선택
Runtime
→Python 3.6
- 펼치기
Change default execution role
- 선택
Create a new role from AWS policy templates
- 입력
Role name
:smgt-ner-post-labeling-task-lambda-role
- 선택
Create function
- 선택
Permissions
탭 - 선택
Role name
:smgt-ner-post-labeling-task-lambda-role
IAM 콘솔을 열려면 - 역할에 두 개의 정책 추가
- 선택
Attach policies
- 첨부
AmazonS3FullAccess
정책 - 선택
Add inline policy
- 선택
JSON
탭 - 다음 인라인 정책을 붙여넣습니다.
- 선택
- 다시
smgt-ner-post-labeling-task-lambda
Lambda 함수 구성 페이지 - 선택
Configuration
탭 - In
Function code
→ 내가ambda_hanadler.py
, 내용을 붙여넣으세요.smgt-ner-post-labeling-task-lambda.py
- 선택
Deploy
- 로 이동
Ground Truth 레이블 지정 작업 만들기
AWS 관리 콘솔에서:
- 로 이동
Amazon SageMaker
서비스 - 로 이동
Ground Truth
→Labeling Jobs
. - 선택
Create labeling job
- 지정
Job Name
- 선택
Manual Data Setup
- 이전에 입력 매니페스트를 업로드한 입력 데이터 세트 위치를 지정합니다(예:
3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl
) - 동일한 버킷의 다른 폴더를 가리키도록 출력 데이터 세트 위치를 지정합니다(예:
s3://your-bucket/ner-output/
) - 지정
IAM Role
선택하여Create new role
- 다음을 선택하여 이 역할이 모든 S3 버킷에 액세스하도록 허용합니다.
S3 buckets you specify
→Any S3 bucket
정책을 만들 때 - 새로운 AWS Management Console 창에서 다음을 엽니다.
IAM
콘솔 및 선택Roles
- 방금 생성한 역할의 이름을 검색합니다(예:
AmazonSageMaker-ExecutionRole-20210301T154158
) - 콘솔에서 역할을 열려면 역할 이름을 선택하세요.
- 다음 세 가지 정책을 연결합니다.
- 정책 연결을 선택하세요.
- 첨부
AWSLambda_FullAccess
역할에 - 선택
Trust Relationships
→Edit Trust Relationships
- 신뢰 관계 JSON을 편집합니다.
- 교체
YOUR_ACCOUNT_NUMBER
숫자로 된 AWS 계정 번호를 사용하면 다음 내용을 읽을 수 있습니다. - 신뢰 관계 저장
- 다음을 선택하여 이 역할이 모든 S3 버킷에 액세스하도록 허용합니다.
- 이전 AWS Management Console 창에서 새로운 Ground Truth 작업으로 돌아갑니다.
Task Category
, 고르다Custom
- 선택
Next
- 선택
Worker types
:Private
- 선택
Private team
:ner-worker-team
이전 섹션에서 생성된 - .
Custom labeling task setup
텍스트 영역에서 기본 내용을 지우고worker-template.liquid.html
이전에 얻은 파일 - 지정
Pre-labeling task Lambda function
이전에 생성된 함수를 사용하여:smgt-ner-pre-labeling
- 지정
Post-labeling task Lambda function
이전에 만든 함수를 사용하면 다음과 같습니다.smgt-ner-post-labeling
- 선택
Create
문서에 주석 달기
Ground Truth 작업이 생성되면 문서에 주석을 달 수 있습니다. 이전에 생성한 인력을 위한 작업자 포털을 엽니다(AWS Management Console에서 SageMaker
, Ground Truth → Labeling workforces
, Private
을 열고 Labeling portal sign-in URL
)
로그인하고 표에서 첫 번째 라벨링 작업을 선택한 다음 "작업 시작"을 선택하여 주석을 엽니다. 주석을 수행하고 세 가지 샘플 문서 모두에 대해 제출을 선택합니다.
결과 검토
Ground Truth 주석자가 작업을 완료하면 출력 S3 버킷에서 결과를 사용할 수 있습니다.
라벨링 작업에 대한 모든 작업이 완료되면 통합된 출력을 다음에서 사용할 수 있습니다. output.manifest
여기에 있는 파일:
이 출력 매니페스트는 이전에 지정한 "출력 문서 형식"으로 한 줄에 하나의 주석이 달린 텍스트 문서가 포함된 JSON 줄 파일입니다. 이 파일은 "입력 문서 형식"과 호환되며 또 다른 주석 라운드를 위해 후속 Ground Truth 작업에 직접 공급될 수 있습니다. 또는 구문 분석하여 ML 학습 작업으로 보낼 수 있습니다. 두 번째 주석을 사용할 수 있는 몇 가지 시나리오는 다음과 같습니다.
- 주석 프로세스를 첫 번째 주석자가 엔터티 주석을 식별하고 두 번째 주석자가 관계를 그리는 두 단계로 나눕니다.
- 우리의 샘플을 복용
output.manifest
품질 관리 확인을 위해 검토를 위해 경험이 풍부한 두 번째 주석자에게 보냅니다.
맞춤형 Ground Truth 주석 템플릿
이 문서에 설명된 NER 주석 도구는 사용자 정의 Ground Truth 주석 템플릿으로 구현됩니다. AWS 고객은 여기에 있는 지침을 사용하여 자신만의 사용자 지정 주석 인터페이스를 구축할 수 있습니다.
결론
Booking.com과 Amazon MLSL은 협력을 통해 복잡한 명명된 엔터티 인식 및 관계 주석을 생성할 수 있는 강력한 텍스트 주석 도구를 개발할 수 있었습니다.
NER 텍스트 주석 사용 사례를 사용하는 AWS 고객은 이 게시물에 설명된 도구를 사용해 보시기 바랍니다. 귀하의 제품 및 서비스에서 ML 사용을 가속화하는 데 도움이 필요한 경우 다음 연락처로 문의하세요. 아마존 머신 러닝 솔루션 랩.
저자에 관하여
댄 노블 Amazon의 소프트웨어 개발 엔지니어로 즐거운 사용자 경험을 구축하는 데 도움을 줍니다. 여가 시간에는 가족과 함께 독서, 운동, 모험을 즐깁니다.
프리 노니스 Amazon ML Solutions Lab의 딥 러닝 아키텍트입니다. 여기에서 다양한 업종의 고객과 협력하여 고객이 클라우드 마이그레이션 여정을 가속화하고 최첨단 솔루션 및 기술을 사용하여 ML 문제를 해결할 수 있도록 지원합니다.
니하리카 자얀티 그녀는 AWS의 프런트 엔드 엔지니어로 Amazon SageMaker 고객을 위한 맞춤형 주석 솔루션을 개발합니다. 업무 외에는 박물관 관람과 운동을 즐깁니다.
아미트 베카 의 기계 학습 관리자입니다. Booking.com, 소프트웨어 개발 및 기계 학습 분야에서 15년 이상의 경험을 보유하고 있습니다. 그는 사람과 언어에 매료되어 있으며, 컴퓨터가 여전히 두 가지 모두에 대해 의아해하는 방식을 알고 있습니다.
- '
- 100
- 11
- 7
- 소개
- ACCESS
- 계정
- 회계
- 가로질러
- 동작
- 또한
- 추가
- All
- 아마존
- 아마존 머신 러닝
- 아마존 세이지 메이커
- 모호
- 분석
- 지역
- 가능
- 모두에게 가능
- AWS
- 처음
- 존재
- 빌드
- 건물
- 한
- 가지 경우
- 분류
- 클라우드
- 암호
- 수집
- 복잡한
- 컴퓨터
- 구성
- 고려
- 콘솔에서
- 함유량
- 내용
- 수
- 만들기
- 임계
- 고객 경험
- 고객
- 데이터
- 깊은 학습
- 개발
- 개발자
- 개발
- 다른
- 서류
- 하지 않습니다
- 용이하게
- 효과
- 이메일
- 이모티콘
- 격려
- 기사
- 등
- 예
- 실행
- ~을 기대하는
- 경험
- 체험
- 가족
- 연방 준비 은행
- 피드백
- Fields
- 최종적으로
- 먼저,
- 피트니스
- 식품
- 체재
- 발견
- 가득 찬
- 기능
- 지프
- 가는
- 손님
- 안내
- 도움
- 도움이
- 여기에서 지금 확인해 보세요.
- 강조
- 호텔
- 방법
- How To
- HTTPS
- IAM
- 구현
- 중대한
- 포함
- 색인
- 개인
- IT
- 자바 스크립트
- 일
- 여행
- 키
- 레이블링
- 레이블
- 언어
- 언어
- 넓은
- 지도
- 배우다
- 배우기
- 이용약관
- 레벨
- 레벨
- 라인
- LINK
- 리퀴드
- 명부
- 목록
- 장소 상에서
- 위치
- 찾고
- 기계 학습
- 구축
- 표
- 시장
- 경기
- 메타
- 신경
- ML
- 모델
- 배우기
- 박물관
- 이름
- 자연어
- 자연 언어 처리
- 필요
- nlp
- 숫자
- 제공
- 오프셋
- 온라인
- 열 수
- 열립니다
- 기회
- 기타
- 사람들
- 구문
- 플랫폼
- 플랫폼
- 정책
- 정책
- 풀
- 포털
- 유행성 후유증
- 강한
- 가격
- 교장
- 사설
- 방법
- 제품
- 프로그램 작성
- 프로그래밍 언어
- 재산
- 제공
- 제공
- Python
- 품질
- 문제
- 읽기
- 관계
- 요구조건 니즈
- 의지
- 자료
- RESTAURANT
- 결과
- 리뷰
- 리뷰
- 객실
- 현자
- 절약
- 규모
- 감각
- 감정
- 서비스
- 세트
- 짧은
- 단순, 간단, 편리
- So
- 소프트웨어
- 소프트웨어 개발
- 솔루션
- 풀다
- 스페이스 버튼
- 속도
- 스타트
- 성명서
- 유지
- 저장
- SUPPORT
- 목표
- 기술
- 소스
- 시간
- 함께
- 토큰 화
- 토큰
- 수단
- 상단
- 최고 수준
- 선로
- 전통적인
- 트레이닝
- 여행
- 치료
- 취급
- 믿어
- us
- 사용자
- 가치
- 버전
- 관측
- 뭐
- 이내
- 작업
- 일
- 근로자
- 인력
- 일하는
- 운동
- 일
- 세계
- 세계
- 겠지
- 년