Gắn nhãn văn bản để phân tích cảm xúc dựa trên khía cạnh bằng cách sử dụng SageMaker Ground Truth

Được xuất bản lại bởi Plato

Người theo dõi: 0

Phòng thí nghiệm Giải pháp Máy học Amazon (MLSL) gần đây đã tạo ra một công cụ để chú thích văn bản với nhận dạng thực thể có tên (NER) và các nhãn mối quan hệ bằng cách sử dụng Sự thật về mặt đất của Amazon SageMaker. Người chú thích sử dụng công cụ này để gắn nhãn văn bản với các thực thể được đặt tên và liên kết các mối quan hệ của chúng, từ đó xây dựng tập dữ liệu để đào tạo mô hình máy học xử lý ngôn ngữ tự nhiên (NLP) (ML) tiên tiến nhất. Quan trọng nhất, điều này hiện được cung cấp công khai cho tất cả khách hàng AWS.

Trường hợp sử dụng của khách hàng: Booking.com

Booking.com là một trong những nền tảng du lịch trực tuyến hàng đầu thế giới. Hiểu khách hàng đang nói gì về danh sách hơn 28 triệu tài sản của công ty trên nền tảng này là điều cần thiết để duy trì trải nghiệm khách hàng hàng đầu. Trước đây, Booking.com chỉ có thể sử dụng phân tích tâm lý truyền thống để giải thích các đánh giá do khách hàng tạo ra trên quy mô lớn. Tìm cách nâng cấp tính cụ thể của những diễn giải này, Booking.com gần đây đã chuyển sang MLSL để được trợ giúp trong việc xây dựng tập dữ liệu có chú thích tùy chỉnh để đào tạo mô hình phân tích tình cảm dựa trên khía cạnh.

Phân tích tình cảm truyền thống là quá trình phân loại một đoạn văn bản là tích cực, tiêu cực hoặc trung tính như tình cảm đơn lẻ. Điều này có tác dụng hiểu một cách rộng rãi là người dùng hài lòng hay không hài lòng với một trải nghiệm cụ thể. Ví dụ: với phân tích tình cảm truyền thống, văn bản sau có thể được phân loại là "trung lập":

Kỳ nghỉ của chúng tôi tại khách sạn là tốt đẹp. Nhân viên thân thiện và phòng sạch sẽ, nhưng giường của chúng tôi khá khó chịu.

Phân tích tình cảm dựa trên khía cạnh cung cấp sự hiểu biết nhiều sắc thái hơn về nội dung. Trong trường hợp của Booking.com, thay vì xem xét toàn bộ đánh giá của khách hàng và phân loại nó một cách rõ ràng, nó có thể lấy cảm tính từ bên trong đánh giá và gán nó vào các khía cạnh cụ thể. Ví dụ: đánh giá của khách hàng về một khách sạn nhất định có thể khen ngợi khu vực tập thể dục và hồ bơi đẹp, nhưng đưa ra phản hồi quan trọng về nhà hàng và phòng chờ.

Tuyên bố mà lẽ ra đã được phân tích là "trung lập" bởi phân tích tình cảm truyền thống, với phân tích tình cảm dựa trên khía cạnh, sẽ trở thành:

Kỳ nghỉ của chúng tôi tại khách sạn là tốt đẹp. Nhân viên thân thiện và phòng sạch sẽ, nhưng giường của chúng tôi khá khó chịu.

Khách sạn: Tích cực
Nhân viên: Tích cực
Phòng: Tích cực
Giường: âm

Booking.com đã tìm cách xây dựng một mô hình phân tích tình cảm dựa trên khía cạnh tùy chỉnh sẽ cho họ biết những phần cụ thể nào của trải nghiệm khách (từ danh sách hơn 50 khía cạnh) là tích cực, tiêu cực, hoặc là trung lập.

Trước khi Booking.com có thể xây dựng tập dữ liệu đào tạo cho mô hình này, họ cần một cách để chú thích nó. Công cụ chú thích của MLSL đã cung cấp giải pháp tùy chỉnh rất cần thiết. Đánh giá của con người được thực hiện trên một bộ sưu tập lớn các đánh giá khách sạn. Sau đó, các chuyên gia chú thích đã hoàn thành chú thích thực thể có tên về các khoảng và cụm từ trong văn bản cảm nhận và trải nghiệm của khách trước khi liên kết các khoảng thích hợp với nhau.

Mô hình dựa trên khía cạnh mới cho phép Booking.com cá nhân hóa cả chỗ ở và đánh giá cho khách hàng của mình. Làm nổi bật những mặt tích cực và tiêu cực của mỗi chỗ ở cho phép khách hàng lựa chọn phù hợp nhất với họ. Ngoài ra, các khách hàng khác nhau quan tâm đến các khía cạnh khác nhau của chỗ ở và mô hình mới mở ra cơ hội để hiển thị các đánh giá phù hợp nhất cho từng chỗ ở.

Yêu cầu về Ghi nhãn

Mặc dù Ground Truth cung cấp khả năng chú thích văn bản NER tích hợp, nhưng nó không cung cấp khả năng liên kết các thực thể với nhau. Với suy nghĩ này, Booking.com và MLSL đã đưa ra các yêu cầu cấp cao sau đây đối với công cụ gắn nhãn văn bản nhận dạng thực thể được đặt tên mới:

Chấp nhận làm đầu vào: văn bản, nhãn thực thể, nhãn quan hệvà nhãn phân loại.
Tùy chọn chấp nhận làm dữ liệu đầu vào được chú thích trước với nhãn trước đó và chú thích mối quan hệ.
Trình bày chú thích bằng văn bản không chú thích hoặc chú thích trước.
Cho phép người chú thích đánh dấu và chú thích văn bản tùy ý bằng nhãn thực thể.
Cho phép người chú thích tạo mối quan hệ giữa hai chú thích thực thể.
Cho phép người chú thích dễ dàng điều hướng số lượng lớn các nhãn thực thể.
Hỗ trợ nhóm các nhãn thực thể thành các danh mục.
Cho phép các mối quan hệ chồng chéo, có nghĩa là cùng một đoạn văn bản được chú thích có thể liên quan đến nhiều hơn một đoạn văn bản được chú thích khác.
Cho phép chú thích nhãn đối tượng chồng chéo, có nghĩa là hai chú thích có thể chồng lên cùng một đoạn văn bản. Ví dụ: văn bản “Seattle Space Needle” có thể có cả chú thích “Seattle” → “địa điểm” và “Seattle Space Needle” → “điểm tham quan”.
Định dạng đầu ra tương thích với định dạng đầu vào và nó có thể được đưa trở lại các tác vụ ghi nhãn tiếp theo.
Hỗ trợ văn bản được mã hóa UTF-8 chứa biểu tượng cảm xúc và các ký tự nhiều byte khác.
Hỗ trợ các ngôn ngữ từ trái sang phải.

Chú thích mẫu

Hãy xem xét tài liệu sau:

Chúng tôi yêu thích vị trí của khách sạn này! Sảnh khách trên sân thượng đã cho chúng tôi một cái nhìn hoàn hảo về kim không gian. Nó cũng cách chợ pike place và bờ sông một quãng lái xe ngắn.
Thức ăn chỉ được cung cấp thông qua dịch vụ phòng, điều này hơi thất vọng nhưng có ý nghĩa trong thế giới hậu đại dịch này.
Nhìn chung, một trải nghiệm giá cả hợp lý.

Việc tải tài liệu này vào chú thích NER mới sẽ trình bày một worker với giao diện sau:

Người lao động được trình bày với một tài liệu không có chú thích

Trong trường hợp này, công việc của người lao động là:

Gắn nhãn các thực thể liên quan đến tài sản (vị trí, giá cả, thực phẩm, v.v.)
Gắn nhãn các thực thể liên quan đến tình cảm (tích cực, tiêu cực hoặc trung tính)
Liên kết các thực thể được đặt tên liên quan đến tài sản với các từ khóa liên quan đến tình cảm để nắm bắt chính xác trải nghiệm của khách

Công nhân thực hiện chú thích

Tốc độ chú thích là một yếu tố quan trọng của công cụ. Sử dụng một chuỗi các phím tắt và cử chỉ chuột trực quan, trình chú thích có thể điều khiển giao diện và:

Thêm và xóa chú thích đối tượng được đặt tên
Thêm mối quan hệ giữa các thực thể được đặt tên
Chuyển đến đầu và cuối tài liệu
Gửi tài liệu

Ngoài ra, có hỗ trợ cho các nhãn chồng chéo. Ví dụ, Seattle Space Needle: trong cụm từ này, Seattle được chú thích vừa là địa điểm vừa là một phần của tên điểm tham quan.

Chú thích đã hoàn thành cung cấp phân tích dữ liệu đầy đủ hơn, nhiều sắc thái hơn:

Tài liệu đã hoàn thành

Mối quan hệ có thể được định cấu hình ở nhiều cấp độ, từ danh mục thực thể đến danh mục thực thể khác (ví dụ: từ “thực phẩm” đến “tình cảm”) hoặc giữa các loại thực thể riêng lẻ. Mối quan hệ được định hướng, vì vậy người chú thích có thể liên kết một khía cạnh như thức ăn với tình cảm, nhưng không thể ngược lại (trừ khi được bật rõ ràng). Khi vẽ các mối quan hệ, công cụ chú thích sẽ tự động suy ra nhãn và hướng của mối quan hệ.

Định cấu hình Công cụ chú thích NER

Trong phần này, chúng tôi đề cập đến cách tùy chỉnh công cụ chú thích NER cho các trường hợp sử dụng cụ thể của khách hàng. Điều này bao gồm cấu hình:

Văn bản đầu vào để chú thích
Nhãn thực thể
Nhãn mối quan hệ
Nhãn phân loại
Dữ liệu được chú thích trước
Hướng dẫn công nhân

Chúng tôi sẽ trình bày chi tiết cụ thể của các định dạng tài liệu đầu vào và đầu ra, cũng như cung cấp một số ví dụ về mỗi định dạng.

Định dạng tài liệu đầu vào

Công cụ chú thích NER yêu cầu tài liệu đầu vào được định dạng JSON sau (Các trường có dấu chấm hỏi bên cạnh tên là tùy chọn).

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; classificationLabels?: string[]; relationshipLabels?: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; entityAnnotations?: { id: string; start: number; end: number; text: string; label: string; labelCategory?: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta?: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; };
}

Tóm lại, định dạng đầu vào có các đặc điểm sau:

Hay entityLabels or classificationLabels (hoặc cả hai) được yêu cầu để chú thích.
If entityLabels được đưa ra, sau đó relationshipLabels có thể được thêm.
Mối quan hệ có thể được cho phép giữa các nhãn thực thể / danh mục khác nhau hoặc kết hợp các nhãn này.
“Nguồn” của mối quan hệ là thực thể mà mũi tên có hướng bắt đầu, trong khi “đích” là nơi nó hướng tới.

Phần	Kiểu	Mô tả
văn bản	chuỗi	Yêu cầu. Nhập văn bản cho chú thích.
mã thông báoHàng	sợi dây[][]	Không bắt buộc. Mã hóa tùy chỉnh của văn bản đầu vào. Mảng của mảng của chuỗi. Mảng cấp cao nhất đại diện cho mỗi hàng văn bản (ngắt dòng) và mảng cấp hai biểu thị mã thông báo trên mỗi hàng. Tất cả các ký tự / rune trong văn bản đầu vào phải được tính trong tokenRows, bao gồm bất kỳ khoảng trắng nào.
ID tài liệu	chuỗi	Không bắt buộc. Giá trị tùy chọn cho khách hàng để theo dõi tài liệu được chú thích.
thực thểNhãn	vật[]	Bắt buộc nếu phân loại Nhãn trống. Mảng nhãn thực thể.
entityLabels []. name	chuỗi	Yêu cầu. Tên hiển thị nhãn thực thể.
entityLabels []. danh mục	chuỗi	Không bắt buộc. Tên danh mục nhãn thực thể.
entityLabels []. shortName	chuỗi	Không bắt buộc. Hiển thị văn bản này trên các thực thể được chú thích thay vì tên đầy đủ.
entityLabels []. shortCategory	chuỗi	Không bắt buộc. Hiển thị văn bản này trong menu thả xuống chọn chú thích thực thể thay vì bốn chữ cái đầu tiên của tên danh mục.
thực thểLabels.color	chuỗi	Không bắt buộc. Mã màu hệ lục phân với tiền tố “#”. Nếu để trống, nó sẽ tự động gán màu cho nhãn thực thể.
mối quan hệ	vật[]	Không bắt buộc. Mảng nhãn quan hệ.
mối quan hệLabels []. name	chuỗi	Yêu cầu. Tên hiển thị nhãn quan hệ.
RelationsLabels []. allowRelationships	vật[]	Không bắt buộc. Mảng giá trị hạn chế loại nhãn thực thể nguồn và đích mà mối quan hệ này có thể được gán cho. Mỗi mục trong mảng là "HOẶC" cùng nhau.
RelationsLabels []. allowRelationships []. sourceEntityLabelCategories	dây[]	Bắt buộc phải đặt sourceEntityLabelCategories hoặc sourceEntityLabels (hoặc cả hai). Danh sách các loại nhãn thực thể nguồn hợp pháp cho mối quan hệ này.
RelationsLabels []. allowRelationships []. targetEntityLabelCategories	dây[]	Bắt buộc phải đặt targetEntityLabelCategories hoặc targetEntityLabels (hoặc cả hai). Danh sách các loại nhãn thực thể mục tiêu hợp pháp cho mối quan hệ này.
RelationsLabels []. allowRelationships []. sourceEntityLabels	dây[]	Bắt buộc phải đặt sourceEntityLabelCategories hoặc sourceEntityLabels (hoặc cả hai). Danh sách các loại nhãn pháp nhân nguồn hợp pháp cho mối quan hệ này.
RelationsLabels []. allowRelationships []. sourceEntityLabels	dây[]	Bắt buộc phải đặt targetEntityLabelCategories hoặc targetEntityLabels (hoặc cả hai). Danh sách các loại nhãn thực thể mục tiêu hợp pháp cho mối quan hệ này.
phân loại	dây[]	Bắt buộc nếu entityLabels trống. Danh sách các nhãn phân loại cấp độ tài liệu.
thực thểChú thích	vật[]	Không bắt buộc. Mảng chú thích thực thể để chú thích trước văn bản đầu vào với.
entityAnnotations []. id	chuỗi	Yêu cầu. Định danh duy nhất cho chú thích thực thể này. Được sử dụng để tham chiếu đến thực thể này trong RelationsAnnotations.
entityAnnotations []. start	con số	Yêu cầu. Bắt đầu bù rune của chú thích thực thể này.
entityAnnotations []. end	con số	Yêu cầu. Kết thúc phần bù rune của chú thích thực thể này.
entityAnnotations []. text	chuỗi	Yêu cầu. Nội dung văn bản giữa phần bù rune bắt đầu và kết thúc.
nhãn entityAnnotations [].	chuỗi	Yêu cầu. Tên nhãn thực thể được liên kết (từ các tên trong entityLabels).
entityAnnotations []. labelCategory	chuỗi	Tùy chọn. Danh mục nhãn thực thể liên kết (từ các danh mục trong entityLabels).
mối quan hệ	vật[]	Không bắt buộc. Mảng chú thích mối quan hệ.
mối quan hệAnnotations []. sourceEntityAnnotationId	chuỗi	Yêu cầu. ID chú thích thực thể nguồn cho mối quan hệ này.
RelationsAnnotations []. targetEntityAnnotationId	chuỗi	Yêu cầu. Nhắm mục tiêu ID chú thích thực thể cho mối quan hệ này.
mối quan hệAnnotations []. nhãn	chuỗi	Yêu cầu. Tên nhãn mối quan hệ liên kết.
phân loại	dây[]	Không bắt buộc. Mảng phân loại để chú thích trước tài liệu.
meta	vật	Không bắt buộc. Các thông số cấu hình bổ sung.
meta.hướng dẫn	chuỗi	Không bắt buộc. Hướng dẫn cho chú thích gắn nhãn ở định dạng Markdown.
meta.disableSubmitXác nhận	boolean	Không bắt buộc. Đặt thành true để tắt phương thức xác nhận gửi.
phân loại meta.multi	boolean	Không bắt buộc. Đặt thành true để bật chế độ nhiều nhãn cho các Nhãn phân loại.

Dưới đây là một số tài liệu mẫu để hiểu rõ hơn về định dạng đầu vào này

Các tài liệu tuân theo giản đồ này được cung cấp cho Ground Truth dưới dạng các mục hàng riêng lẻ trong một tệp kê khai đầu vào.

Định dạng tài liệu đầu ra

Định dạng đầu ra được thiết kế để phản hồi dễ dàng về tác vụ chú thích mới. Các trường tùy chọn trong tài liệu đầu ra được đặt nếu chúng cũng được đặt trong tài liệu đầu vào. Sự khác biệt duy nhất giữa các định dạng đầu vào và đầu ra là meta vật.

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; relationshipLabels: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; classificationLabels?: string[]; entityAnnotations?: { id: string; start: number; end: number; text: string; labelCategory?: string; label: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; runes: string[]; rejected: boolean; rejectedReason: string; }
}

Phần	Kiểu	Mô tả
meta.rejected	boolean	Được đặt thành true nếu người chú thích từ chối tài liệu này.
meta.rejectedLý do	chuỗi	Người chú thích đưa ra lý do từ chối tài liệu.
meta.runes	dây[]	Mảng rune chiếm tất cả các ký tự trong văn bản đầu vào. Được sử dụng để tính toán hiệu số bắt đầu và kết thúc của chú thích đối tượng.

Đây là tài liệu đầu ra mẫu đã được chú thích:

Lưu ý Runes:

“Rune” trong ngữ cảnh này là một ký tự có thể đánh dấu duy nhất trong văn bản, bao gồm các ký tự nhiều byte như biểu tượng cảm xúc.

Bởi vì các ngôn ngữ lập trình khác nhau biểu thị các ký tự nhiều byte một cách khác nhau, việc sử dụng “Runes” để xác định mọi ký tự có thể đánh dấu là một phần tử nguyên tử duy nhất có nghĩa là chúng ta có một cách rõ ràng để mô tả bất kỳ lựa chọn văn bản nhất định nào.
Ví dụ: Python coi cờ Thụy Điển là bốn ký tự:

Nhưng JavaScript xử lý cùng một biểu tượng cảm xúc như hai ký tự

Để loại bỏ bất kỳ sự mơ hồ nào, chúng tôi sẽ coi cờ Thụy Điển (và tất cả các biểu tượng cảm xúc và ký tự nhiều byte khác) như một phần tử nguyên tử duy nhất.

Offset: Vị trí rune liên quan đến Văn bản đầu vào (bắt đầu bằng chỉ mục 0)

Thực hiện chú thích NER với sự thật cơ bản

Là một dịch vụ ghi nhãn dữ liệu được quản lý hoàn toàn, Ground Truth xây dựng bộ dữ liệu đào tạo cho ML. Đối với trường hợp sử dụng này, chúng tôi sử dụng Ground Truth để gửi một bộ sưu tập các tài liệu văn bản đến một nhóm công nhân để chú thích. Cuối cùng, chúng tôi xem xét chất lượng.

Ground Truth có thể được định cấu hình để xây dựng công việc ghi nhãn dữ liệu bằng cách sử dụng công cụ NER mới làm mẫu tùy chỉnh.

Cụ thể, chúng tôi sẽ:

Tạo lực lượng lao động gắn nhãn riêng gồm các công nhân để thực hiện tác vụ chú thích
Tạo tệp kê khai đầu vào Sự thật cơ bản với các tài liệu chúng tôi muốn chú thích và sau đó tải nó lên Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3)
Tạo tác vụ dán nhãn trước và tác vụ dán nhãn sau Các chức năng của Lambda
Tạo công việc gắn nhãn Sự thật về mặt đất bằng cách sử dụng mẫu NER tùy chỉnh
Chú thích tài liệu
Xem lại kết quả

Tài nguyên công cụ NER

Có thể tìm thấy danh sách đầy đủ các nguồn tài liệu tham khảo và tài liệu mẫu trong biểu đồ sau:

Dán nhãn Tạo lực lượng lao động

Ground Truth sử dụng lực lượng lao động gắn nhãn SageMaker để quản lý công nhân và phân phối nhiệm vụ. Tạo một lực lượng lao động riêng, một nhóm công nhân được gọi là ner-worker-team và chỉ định bạn vào nhóm bằng cách sử dụng các hướng dẫn có trong Tạo lực lượng lao động riêng (Amazon SageMaker Console).

Sau khi bạn đã tự thêm mình vào lực lượng lao động tư nhân và xác nhận email của mình, hãy lưu ý URL cổng công nhân từ Bảng điều khiển quản lý AWS:

Hướng đến SageMaker
Hướng đến Ground Truth → Labeling workforces
Chọn hình ba gạch Private chuyển hướng
Lưu ý URL Labeling portal sign-in URL

Đăng nhập vào cổng công nhân để xem và bắt đầu công việc trên các tác vụ dán nhãn.

Tệp kê khai đầu vào

Tệp kê khai dữ liệu đầu vào Ground Truth là một tệp JSON-lines trong đó mỗi dòng chứa một tác vụ worker duy nhất. Trong trường hợp của chúng tôi, mỗi dòng sẽ chứa một Tài liệu đầu vào được mã hóa JSON chứa văn bản mà chúng tôi muốn chú thích và lược đồ chú thích NER.

Tải xuống tệp kê khai đầu vào mẫu reviews.manifest từ https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest

Chú thích: mỗi hàng trong tệp kê khai đầu vào cần một khóa cấp cao nhất source or source-ref. Bạn có thể tìm hiểu thêm trong Sử dụng tệp kê khai đầu vào trong Hướng dẫn dành cho nhà phát triển Amazon SageMaker.

Tải tệp kê khai đầu vào lên Amazon S3

Tải tệp kê khai đầu vào này lên nhóm S3 bằng Bảng điều khiển quản lý AWS hoặc từ dòng lệnh, do đó thay thế your-bucket với một tên nhóm thực tế.

aws s3 cp reviews.manifest s3://your-bucket/ner-input/reviews.manifest

Tải xuống mẫu nhân viên tùy chỉnh

Tải xuống mẫu công cụ tùy chỉnh của công cụ NER từ https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html bằng cách xem nguồn và lưu nội dung cục bộ hoặc từ dòng lệnh:

wget https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html

Tạo tác vụ dán nhãn trước và tác vụ dán nhãn sau Các chức năng của Lambda

Tải xuống tác vụ ghi nhãn trước mẫu Hàm Lambda: smgt-ner-pre-labeling-task-lambda.py từ https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py

Tải xuống tác vụ ghi nhãn trước mẫu Hàm Lambda: smgt-ner-post-labeling-task-lambda.py từ https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py

Tạo chức năng Lambda nhiệm vụ gắn nhãn trước từ Bảng điều khiển quản lý AWS:
- Hướng đến Lambda
- Chọn Create function
- Chỉ định Function name as smgt-ner-pre-labeling-task-lambda
- Chọn Runtime → Python 3.6
- Chọn Create function
- In Function code → lambda_hanadler.py, dán nội dung của smgt-ner-pre-labeling-task-lambda.py
- Chọn Deploy
Tạo tác vụ sau gắn nhãn Hàm Lambda từ Bảng điều khiển quản lý AWS:
- Hướng đến Lambda
- Chọn Create function
- Chỉ định Function name as smgt-ner-post-labeling-task-lambda
- Chọn Runtime → Python 3.6
- Mở rộng Change default execution role
- Chọn Create a new role from AWS policy templates
- Nhập Role name: smgt-ner-post-labeling-task-lambda-role
- Chọn Create function
- Chọn hình ba gạch Permissions chuyển hướng
- Chọn hình ba gạch Role name: smgt-ner-post-labeling-task-lambda-role để mở bảng điều khiển IAM
- Thêm hai chính sách cho vai trò
  - Chọn Attach policies
  - Đính kèm AmazonS3FullAccess điều luật
  - Chọn Add inline policy
  - Chọn hình ba gạch JSON chuyển hướng
  - Dán chính sách nội tuyến sau:
```
{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/AmazonSageMaker-ExecutionRole-*" }
}
```
- Điều hướng trở lại smgt-ner-post-labeling-task-lambda Trang cấu hình hàm Lambda
- Chọn hình ba gạch Configuration chuyển hướng
- In Function code → tôiambda_hanadler.py, dán nội dung của smgt-ner-post-labeling-task-lambda.py
- Chọn Deploy

Tạo công việc gắn nhãn Sự thật trên mặt đất

Từ Bảng điều khiển quản lý AWS:

Điều hướng đến Amazon SageMaker dịch vụ
Hướng đến Ground Truth → Labeling Jobs.
Chọn Create labeling job
Chỉ định một Job Name
Chọn Manual Data Setup
Chỉ định vị trí Tập dữ liệu đầu vào nơi bạn đã tải lên tệp kê khai đầu vào trước đó (ví dụ: s3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl)
Chỉ định vị trí tập dữ liệu đầu ra để trỏ đến một thư mục khác trong cùng một nhóm (ví dụ: s3://your-bucket/ner-output/)
Chỉ định một IAM Role bằng việc lựa chọn Create new role
- Cho phép vai trò này truy cập bất kỳ nhóm S3 nào bằng cách chọn S3 buckets you specify → Any S3 bucket khi tạo chính sách
- Trong cửa sổ Bảng điều khiển quản lý AWS mới, hãy mở IAM bảng điều khiển và chọn Roles
- Tìm kiếm tên của vai trò mà bạn vừa tạo (ví dụ: AmazonSageMaker-ExecutionRole-20210301T154158)
- Chọn tên vai trò để mở vai trò trong bảng điều khiển
- Đính kèm ba chính sách sau:
  - Chọn Đính kèm chính sách
  - Đính kèm AWSLambda_FullAccess đến vai trò
  - Chọn Trust Relationships → Edit Trust Relationships
  - Chỉnh sửa mối quan hệ tin cậy JSON,
  - Thay thế YOUR_ACCOUNT_NUMBER với số Tài khoản AWS bằng số của bạn, để đọc:
```
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": "sts:AssumeRole" }, { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/smgt-ner-post-labeling-task-lambda-role" }, "Action": "sts:AssumeRole" } ]
}
```
  - Lưu giữ mối quan hệ tin cậy
Quay lại công việc Ground Truth mới trong cửa sổ Bảng điều khiển quản lý AWS trước đó: trong Task Category, lựa chọn Custom
Chọn Next
Chọn Worker types: Private
Chọn hình ba gạch Private team : ner-worker-team đã được tạo trong phần trước
Trong tạp chí Custom labeling task setup vùng văn bản, xóa nội dung mặc định và dán vào nội dung của worker-template.liquid.html tệp thu được trước đó
Xác định Pre-labeling task Lambda function với chức năng đã tạo trước đó: smgt-ner-pre-labeling
Xác định Post-labeling task Lambda function với hàm đã tạo trước đó: smgt-ner-post-labeling
Chọn Create

Chú thích tài liệu

Sau khi công việc Ground Truth được tạo, chúng tôi có thể bắt đầu chú thích tài liệu. Mở cổng công nhân cho lực lượng lao động của chúng tôi đã tạo trước đó (Trong Bảng điều khiển quản lý AWS, điều hướng đến SageMaker , Ground Truth → Labeling workforces, Privatevà mở Labeling portal sign-in URL )

Đăng nhập và chọn tác vụ gắn nhãn đầu tiên trong bảng, sau đó chọn “Bắt đầu làm việc” để mở chú thích. Thực hiện các chú thích của bạn và chọn gửi trên cả ba tài liệu mẫu.

Xem lại kết quả

Khi các trình chú thích của Ground Truth hoàn thành nhiệm vụ, kết quả sẽ có sẵn trong nhóm S3 đầu ra:

s3://your-bucket/path-to-your-ner-job/annotations/worker-response/iteration-1/0/

Khi tất cả các nhiệm vụ cho một công việc gắn nhãn đã hoàn tất, kết quả tổng hợp sẽ có sẵn trong output.manifest tệp nằm ở đây:

s3://your-bucket/path-to-your-ner-job/manifests/output/output.manifest

Tệp kê khai đầu ra này là một tệp JSON-dòng với một tài liệu văn bản được chú thích trên mỗi dòng trong “Định dạng tài liệu đầu ra” được chỉ định trước đó. Tệp này tương thích với “Định dạng tài liệu đầu vào” và nó có thể được đưa trực tiếp vào công việc Ground Truth tiếp theo cho một vòng chú thích khác. Ngoài ra, nó có thể được phân tích cú pháp và gửi đến một công việc đào tạo ML. Một số tình huống mà chúng tôi có thể sử dụng vòng chú thích thứ hai là:

Chia quy trình chú thích thành hai bước trong đó chú thích đầu tiên xác định các chú thích thực thể và chú thích thứ hai vẽ các mối quan hệ
Lấy một mẫu của chúng tôi output.manifest và gửi nó đến người chú thích thứ hai, có kinh nghiệm hơn để xem xét như một kiểm tra kiểm soát chất lượng

Các mẫu chú thích sự thật về nền tảng tùy chỉnh

Công cụ chú thích NER được mô tả trong tài liệu này được triển khai dưới dạng một mẫu chú thích Sự thật nền tùy chỉnh. Khách hàng AWS có thể xây dựng giao diện chú thích tùy chỉnh của riêng họ bằng cách sử dụng các hướng dẫn được tìm thấy tại đây:

Kết luận

Bằng cách làm việc cùng nhau, Booking.com và Amazon MLSL đã có thể phát triển một công cụ chú thích văn bản mạnh mẽ có khả năng tạo các chú thích mối quan hệ và nhận dạng thực thể có tên phức tạp.

Chúng tôi khuyến khích khách hàng AWS có trường hợp sử dụng chú thích văn bản NER dùng thử công cụ được mô tả trong bài đăng này. Nếu bạn muốn giúp đẩy nhanh việc sử dụng ML trong các sản phẩm và dịch vụ của mình, vui lòng liên hệ với Phòng thí nghiệm Giải pháp Máy học của Amazon.

Về các tác giả

Đan cao quý là Kỹ sư phát triển phần mềm tại Amazon, nơi anh ấy giúp xây dựng trải nghiệm người dùng thú vị. Khi rảnh rỗi, anh ấy thích đọc sách, tập thể dục và có những chuyến phiêu lưu cùng gia đình.

Pri nonis là Kiến trúc sư Học tập sâu tại Amazon ML Solutions Lab, nơi anh ấy làm việc với khách hàng trên nhiều ngành dọc khác nhau và giúp họ đẩy nhanh hành trình di chuyển qua đám mây cũng như giải quyết các vấn đề ML của họ bằng cách sử dụng các giải pháp và công nghệ hiện đại.

Niharika Jayanthi là Kỹ sư Front End tại AWS, nơi cô phát triển các giải pháp chú thích tùy chỉnh cho khách hàng của Amazon SageMaker. Ngoài công việc, cô ấy thích đến viện bảo tàng và rèn luyện sức khỏe.

Amit Beka là Người quản lý Máy học tại Booking.com, với hơn 15 năm kinh nghiệm trong phát triển phần mềm và máy học. Anh ấy bị cuốn hút bởi con người và ngôn ngữ, và cách máy tính vẫn còn khiến cả hai phân vân.

Nguồn: https://aws.amazon.com/blogs/machine-learning/labeling-text-for-aspect-based-sentiment-analysis-using-sagemaker-ground-truth/

Dấu thời gian: 14 Tháng một, 2022

Dấu thời gian: Tháng Mười Một 11, 2021

Gắn nhãn văn bản để phân tích tình cảm dựa trên khía cạnh bằng cách sử dụng SageMaker Ground Truth

Được xuất bản lại bởi Plato

Trường hợp sử dụng của khách hàng: Booking.com

Yêu cầu về Ghi nhãn

Chú thích mẫu

Định cấu hình Công cụ chú thích NER

Định dạng tài liệu đầu vào

Định dạng tài liệu đầu ra

Lưu ý Runes:

Thực hiện chú thích NER với sự thật cơ bản

Tài nguyên công cụ NER

Dán nhãn Tạo lực lượng lao động

Tệp kê khai đầu vào

Tải tệp kê khai đầu vào lên Amazon S3

Tải xuống mẫu nhân viên tùy chỉnh

Tạo tác vụ dán nhãn trước và tác vụ dán nhãn sau Các chức năng của Lambda

Tạo công việc gắn nhãn Sự thật trên mặt đất

Chú thích tài liệu

Xem lại kết quả

Các mẫu chú thích sự thật về nền tảng tùy chỉnh

Kết luận

Về các tác giả

Thêm từ Blog Học máy AWS

Sử dụng hình ảnh vùng chứa để chạy mô hình TensorFlow trong AWS Lambda

Tích hợp Amazon Polly với các hệ thống IVR cũ bằng cách chuyển đổi đầu ra sang định dạng WAV

Chạy AlphaFold v2.0 trên Amazon EC2

Amazon Forecast hiện cung cấp thời gian chạy ước tính cho các công việc tạo dự báo, cho phép bạn quản lý thời gian của mình một cách hiệu quả

Nâng cao sự phát triển máy học của bạn bằng cách sử dụng kiến trúc mô-đun với các dự án Amazon SageMaker

Tham gia mai mối tại các sự kiện ảo với Amazon Personalize

Truy cập an toàn vào Amazon SageMaker Studio với AWS SSO và ứng dụng SAML

Cách TourRadar tự động hóa quy trình dịch bằng Amazon EventBridge và Amazon Translate

Tùy chỉnh đầu ra của Amazon Dịch để đáp ứng vốn từ vựng cụ thể cho miền và tổ chức của bạn

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản