Phòng thí nghiệm Giải pháp Máy học Amazon (MLSL) gần đây đã tạo ra một công cụ để chú thích văn bản với nhận dạng thực thể có tên (NER) và các nhãn mối quan hệ bằng cách sử dụng Sự thật về mặt đất của Amazon SageMaker. Người chú thích sử dụng công cụ này để gắn nhãn văn bản với các thực thể được đặt tên và liên kết các mối quan hệ của chúng, từ đó xây dựng tập dữ liệu để đào tạo mô hình máy học xử lý ngôn ngữ tự nhiên (NLP) (ML) tiên tiến nhất. Quan trọng nhất, điều này hiện được cung cấp công khai cho tất cả khách hàng AWS.
Trường hợp sử dụng của khách hàng: Booking.com
Booking.com là một trong những nền tảng du lịch trực tuyến hàng đầu thế giới. Hiểu khách hàng đang nói gì về danh sách hơn 28 triệu tài sản của công ty trên nền tảng này là điều cần thiết để duy trì trải nghiệm khách hàng hàng đầu. Trước đây, Booking.com chỉ có thể sử dụng phân tích tâm lý truyền thống để giải thích các đánh giá do khách hàng tạo ra trên quy mô lớn. Tìm cách nâng cấp tính cụ thể của những diễn giải này, Booking.com gần đây đã chuyển sang MLSL để được trợ giúp trong việc xây dựng tập dữ liệu có chú thích tùy chỉnh để đào tạo mô hình phân tích tình cảm dựa trên khía cạnh.
Phân tích tình cảm truyền thống là quá trình phân loại một đoạn văn bản là tích cực, tiêu cực hoặc trung tính như tình cảm đơn lẻ. Điều này có tác dụng hiểu một cách rộng rãi là người dùng hài lòng hay không hài lòng với một trải nghiệm cụ thể. Ví dụ: với phân tích tình cảm truyền thống, văn bản sau có thể được phân loại là "trung lập":
Kỳ nghỉ của chúng tôi tại khách sạn là tốt đẹp. Nhân viên thân thiện và phòng sạch sẽ, nhưng giường của chúng tôi khá khó chịu.
Phân tích tình cảm dựa trên khía cạnh cung cấp sự hiểu biết nhiều sắc thái hơn về nội dung. Trong trường hợp của Booking.com, thay vì xem xét toàn bộ đánh giá của khách hàng và phân loại nó một cách rõ ràng, nó có thể lấy cảm tính từ bên trong đánh giá và gán nó vào các khía cạnh cụ thể. Ví dụ: đánh giá của khách hàng về một khách sạn nhất định có thể khen ngợi khu vực tập thể dục và hồ bơi đẹp, nhưng đưa ra phản hồi quan trọng về nhà hàng và phòng chờ.
Tuyên bố mà lẽ ra đã được phân tích là "trung lập" bởi phân tích tình cảm truyền thống, với phân tích tình cảm dựa trên khía cạnh, sẽ trở thành:
Kỳ nghỉ của chúng tôi tại khách sạn là tốt đẹp. Nhân viên thân thiện và phòng sạch sẽ, nhưng giường của chúng tôi khá khó chịu.
- Khách sạn: Tích cực
- Nhân viên: Tích cực
- Phòng: Tích cực
- Giường: âm
Booking.com đã tìm cách xây dựng một mô hình phân tích tình cảm dựa trên khía cạnh tùy chỉnh sẽ cho họ biết những phần cụ thể nào của trải nghiệm khách (từ danh sách hơn 50 khía cạnh) là tích cực, tiêu cực, hoặc là trung lập.
Trước khi Booking.com có thể xây dựng tập dữ liệu đào tạo cho mô hình này, họ cần một cách để chú thích nó. Công cụ chú thích của MLSL đã cung cấp giải pháp tùy chỉnh rất cần thiết. Đánh giá của con người được thực hiện trên một bộ sưu tập lớn các đánh giá khách sạn. Sau đó, các chuyên gia chú thích đã hoàn thành chú thích thực thể có tên về các khoảng và cụm từ trong văn bản cảm nhận và trải nghiệm của khách trước khi liên kết các khoảng thích hợp với nhau.
Mô hình dựa trên khía cạnh mới cho phép Booking.com cá nhân hóa cả chỗ ở và đánh giá cho khách hàng của mình. Làm nổi bật những mặt tích cực và tiêu cực của mỗi chỗ ở cho phép khách hàng lựa chọn phù hợp nhất với họ. Ngoài ra, các khách hàng khác nhau quan tâm đến các khía cạnh khác nhau của chỗ ở và mô hình mới mở ra cơ hội để hiển thị các đánh giá phù hợp nhất cho từng chỗ ở.
Yêu cầu về Ghi nhãn
Mặc dù Ground Truth cung cấp khả năng chú thích văn bản NER tích hợp, nhưng nó không cung cấp khả năng liên kết các thực thể với nhau. Với suy nghĩ này, Booking.com và MLSL đã đưa ra các yêu cầu cấp cao sau đây đối với công cụ gắn nhãn văn bản nhận dạng thực thể được đặt tên mới:
- Chấp nhận làm đầu vào: văn bản, nhãn thực thể, nhãn quan hệvà nhãn phân loại.
- Tùy chọn chấp nhận làm dữ liệu đầu vào được chú thích trước với nhãn trước đó và chú thích mối quan hệ.
- Trình bày chú thích bằng văn bản không chú thích hoặc chú thích trước.
- Cho phép người chú thích đánh dấu và chú thích văn bản tùy ý bằng nhãn thực thể.
- Cho phép người chú thích tạo mối quan hệ giữa hai chú thích thực thể.
- Cho phép người chú thích dễ dàng điều hướng số lượng lớn các nhãn thực thể.
- Hỗ trợ nhóm các nhãn thực thể thành các danh mục.
- Cho phép các mối quan hệ chồng chéo, có nghĩa là cùng một đoạn văn bản được chú thích có thể liên quan đến nhiều hơn một đoạn văn bản được chú thích khác.
- Cho phép chú thích nhãn đối tượng chồng chéo, có nghĩa là hai chú thích có thể chồng lên cùng một đoạn văn bản. Ví dụ: văn bản “Seattle Space Needle” có thể có cả chú thích “Seattle” → “địa điểm” và “Seattle Space Needle” → “điểm tham quan”.
- Định dạng đầu ra tương thích với định dạng đầu vào và nó có thể được đưa trở lại các tác vụ ghi nhãn tiếp theo.
- Hỗ trợ văn bản được mã hóa UTF-8 chứa biểu tượng cảm xúc và các ký tự nhiều byte khác.
- Hỗ trợ các ngôn ngữ từ trái sang phải.
Chú thích mẫu
Hãy xem xét tài liệu sau:
Chúng tôi yêu thích vị trí của khách sạn này! Sảnh khách trên sân thượng đã cho chúng tôi một cái nhìn hoàn hảo về kim không gian. Nó cũng cách chợ pike place và bờ sông một quãng lái xe ngắn.
Thức ăn chỉ được cung cấp thông qua dịch vụ phòng, điều này hơi thất vọng nhưng có ý nghĩa trong thế giới hậu đại dịch này.
Nhìn chung, một trải nghiệm giá cả hợp lý.
Việc tải tài liệu này vào chú thích NER mới sẽ trình bày một worker với giao diện sau:
Trong trường hợp này, công việc của người lao động là:
- Gắn nhãn các thực thể liên quan đến tài sản (vị trí, giá cả, thực phẩm, v.v.)
- Gắn nhãn các thực thể liên quan đến tình cảm (tích cực, tiêu cực hoặc trung tính)
- Liên kết các thực thể được đặt tên liên quan đến tài sản với các từ khóa liên quan đến tình cảm để nắm bắt chính xác trải nghiệm của khách
Tốc độ chú thích là một yếu tố quan trọng của công cụ. Sử dụng một chuỗi các phím tắt và cử chỉ chuột trực quan, trình chú thích có thể điều khiển giao diện và:
- Thêm và xóa chú thích đối tượng được đặt tên
- Thêm mối quan hệ giữa các thực thể được đặt tên
- Chuyển đến đầu và cuối tài liệu
- Gửi tài liệu
Ngoài ra, có hỗ trợ cho các nhãn chồng chéo. Ví dụ, Seattle Space Needle
: trong cụm từ này, Seattle
được chú thích vừa là địa điểm vừa là một phần của tên điểm tham quan.
Chú thích đã hoàn thành cung cấp phân tích dữ liệu đầy đủ hơn, nhiều sắc thái hơn:
Mối quan hệ có thể được định cấu hình ở nhiều cấp độ, từ danh mục thực thể đến danh mục thực thể khác (ví dụ: từ “thực phẩm” đến “tình cảm”) hoặc giữa các loại thực thể riêng lẻ. Mối quan hệ được định hướng, vì vậy người chú thích có thể liên kết một khía cạnh như thức ăn với tình cảm, nhưng không thể ngược lại (trừ khi được bật rõ ràng). Khi vẽ các mối quan hệ, công cụ chú thích sẽ tự động suy ra nhãn và hướng của mối quan hệ.
Định cấu hình Công cụ chú thích NER
Trong phần này, chúng tôi đề cập đến cách tùy chỉnh công cụ chú thích NER cho các trường hợp sử dụng cụ thể của khách hàng. Điều này bao gồm cấu hình:
- Văn bản đầu vào để chú thích
- Nhãn thực thể
- Nhãn mối quan hệ
- Nhãn phân loại
- Dữ liệu được chú thích trước
- Hướng dẫn công nhân
Chúng tôi sẽ trình bày chi tiết cụ thể của các định dạng tài liệu đầu vào và đầu ra, cũng như cung cấp một số ví dụ về mỗi định dạng.
Định dạng tài liệu đầu vào
Công cụ chú thích NER yêu cầu tài liệu đầu vào được định dạng JSON sau (Các trường có dấu chấm hỏi bên cạnh tên là tùy chọn).
Tóm lại, định dạng đầu vào có các đặc điểm sau:
- Hay
entityLabels
orclassificationLabels
(hoặc cả hai) được yêu cầu để chú thích. - If
entityLabels
được đưa ra, sau đórelationshipLabels
có thể được thêm. - Mối quan hệ có thể được cho phép giữa các nhãn thực thể / danh mục khác nhau hoặc kết hợp các nhãn này.
- “Nguồn” của mối quan hệ là thực thể mà mũi tên có hướng bắt đầu, trong khi “đích” là nơi nó hướng tới.
Phần | Kiểu | Mô tả |
văn bản | chuỗi | Yêu cầu. Nhập văn bản cho chú thích. |
mã thông báoHàng | sợi dây[][] | Không bắt buộc. Mã hóa tùy chỉnh của văn bản đầu vào. Mảng của mảng của chuỗi. Mảng cấp cao nhất đại diện cho mỗi hàng văn bản (ngắt dòng) và mảng cấp hai biểu thị mã thông báo trên mỗi hàng. Tất cả các ký tự / rune trong văn bản đầu vào phải được tính trong tokenRows, bao gồm bất kỳ khoảng trắng nào. |
ID tài liệu | chuỗi | Không bắt buộc. Giá trị tùy chọn cho khách hàng để theo dõi tài liệu được chú thích. |
thực thểNhãn | vật[] | Bắt buộc nếu phân loại Nhãn trống. Mảng nhãn thực thể. |
entityLabels []. name | chuỗi | Yêu cầu. Tên hiển thị nhãn thực thể. |
entityLabels []. danh mục | chuỗi | Không bắt buộc. Tên danh mục nhãn thực thể. |
entityLabels []. shortName | chuỗi | Không bắt buộc. Hiển thị văn bản này trên các thực thể được chú thích thay vì tên đầy đủ. |
entityLabels []. shortCategory | chuỗi | Không bắt buộc. Hiển thị văn bản này trong menu thả xuống chọn chú thích thực thể thay vì bốn chữ cái đầu tiên của tên danh mục. |
thực thểLabels.color | chuỗi | Không bắt buộc. Mã màu hệ lục phân với tiền tố “#”. Nếu để trống, nó sẽ tự động gán màu cho nhãn thực thể. |
mối quan hệ | vật[] | Không bắt buộc. Mảng nhãn quan hệ. |
mối quan hệLabels []. name | chuỗi | Yêu cầu. Tên hiển thị nhãn quan hệ. |
RelationsLabels []. allowRelationships | vật[] | Không bắt buộc. Mảng giá trị hạn chế loại nhãn thực thể nguồn và đích mà mối quan hệ này có thể được gán cho. Mỗi mục trong mảng là "HOẶC" cùng nhau. |
RelationsLabels []. allowRelationships []. sourceEntityLabelCategories | dây[] | Bắt buộc phải đặt sourceEntityLabelCategories hoặc sourceEntityLabels (hoặc cả hai). Danh sách các loại nhãn thực thể nguồn hợp pháp cho mối quan hệ này. |
RelationsLabels []. allowRelationships []. targetEntityLabelCategories | dây[] | Bắt buộc phải đặt targetEntityLabelCategories hoặc targetEntityLabels (hoặc cả hai). Danh sách các loại nhãn thực thể mục tiêu hợp pháp cho mối quan hệ này. |
RelationsLabels []. allowRelationships []. sourceEntityLabels | dây[] | Bắt buộc phải đặt sourceEntityLabelCategories hoặc sourceEntityLabels (hoặc cả hai). Danh sách các loại nhãn pháp nhân nguồn hợp pháp cho mối quan hệ này. |
RelationsLabels []. allowRelationships []. sourceEntityLabels | dây[] | Bắt buộc phải đặt targetEntityLabelCategories hoặc targetEntityLabels (hoặc cả hai). Danh sách các loại nhãn thực thể mục tiêu hợp pháp cho mối quan hệ này. |
phân loại | dây[] | Bắt buộc nếu entityLabels trống. Danh sách các nhãn phân loại cấp độ tài liệu. |
thực thểChú thích | vật[] | Không bắt buộc. Mảng chú thích thực thể để chú thích trước văn bản đầu vào với. |
entityAnnotations []. id | chuỗi | Yêu cầu. Định danh duy nhất cho chú thích thực thể này. Được sử dụng để tham chiếu đến thực thể này trong RelationsAnnotations. |
entityAnnotations []. start | con số | Yêu cầu. Bắt đầu bù rune của chú thích thực thể này. |
entityAnnotations []. end | con số | Yêu cầu. Kết thúc phần bù rune của chú thích thực thể này. |
entityAnnotations []. text | chuỗi | Yêu cầu. Nội dung văn bản giữa phần bù rune bắt đầu và kết thúc. |
nhãn entityAnnotations []. | chuỗi | Yêu cầu. Tên nhãn thực thể được liên kết (từ các tên trong entityLabels). |
entityAnnotations []. labelCategory | chuỗi | Tùy chọn. Danh mục nhãn thực thể liên kết (từ các danh mục trong entityLabels). |
mối quan hệ | vật[] | Không bắt buộc. Mảng chú thích mối quan hệ. |
mối quan hệAnnotations []. sourceEntityAnnotationId | chuỗi | Yêu cầu. ID chú thích thực thể nguồn cho mối quan hệ này. |
RelationsAnnotations []. targetEntityAnnotationId | chuỗi | Yêu cầu. Nhắm mục tiêu ID chú thích thực thể cho mối quan hệ này. |
mối quan hệAnnotations []. nhãn | chuỗi | Yêu cầu. Tên nhãn mối quan hệ liên kết. |
phân loại | dây[] | Không bắt buộc. Mảng phân loại để chú thích trước tài liệu. |
meta | vật | Không bắt buộc. Các thông số cấu hình bổ sung. |
meta.hướng dẫn | chuỗi | Không bắt buộc. Hướng dẫn cho chú thích gắn nhãn ở định dạng Markdown. |
meta.disableSubmitXác nhận | boolean | Không bắt buộc. Đặt thành true để tắt phương thức xác nhận gửi. |
phân loại meta.multi | boolean | Không bắt buộc. Đặt thành true để bật chế độ nhiều nhãn cho các Nhãn phân loại. |
Dưới đây là một số tài liệu mẫu để hiểu rõ hơn về định dạng đầu vào này
Các tài liệu tuân theo giản đồ này được cung cấp cho Ground Truth dưới dạng các mục hàng riêng lẻ trong một tệp kê khai đầu vào.
Định dạng tài liệu đầu ra
Định dạng đầu ra được thiết kế để phản hồi dễ dàng về tác vụ chú thích mới. Các trường tùy chọn trong tài liệu đầu ra được đặt nếu chúng cũng được đặt trong tài liệu đầu vào. Sự khác biệt duy nhất giữa các định dạng đầu vào và đầu ra là meta
vật.
Phần | Kiểu | Mô tả |
meta.rejected | boolean | Được đặt thành true nếu người chú thích từ chối tài liệu này. |
meta.rejectedLý do | chuỗi | Người chú thích đưa ra lý do từ chối tài liệu. |
meta.runes | dây[] | Mảng rune chiếm tất cả các ký tự trong văn bản đầu vào. Được sử dụng để tính toán hiệu số bắt đầu và kết thúc của chú thích đối tượng. |
Đây là tài liệu đầu ra mẫu đã được chú thích:
Lưu ý Runes:
“Rune” trong ngữ cảnh này là một ký tự có thể đánh dấu duy nhất trong văn bản, bao gồm các ký tự nhiều byte như biểu tượng cảm xúc.
- Bởi vì các ngôn ngữ lập trình khác nhau biểu thị các ký tự nhiều byte một cách khác nhau, việc sử dụng “Runes” để xác định mọi ký tự có thể đánh dấu là một phần tử nguyên tử duy nhất có nghĩa là chúng ta có một cách rõ ràng để mô tả bất kỳ lựa chọn văn bản nhất định nào.
- Ví dụ: Python coi cờ Thụy Điển là bốn ký tự:
Nhưng JavaScript xử lý cùng một biểu tượng cảm xúc như hai ký tự
Để loại bỏ bất kỳ sự mơ hồ nào, chúng tôi sẽ coi cờ Thụy Điển (và tất cả các biểu tượng cảm xúc và ký tự nhiều byte khác) như một phần tử nguyên tử duy nhất.
- Offset: Vị trí rune liên quan đến Văn bản đầu vào (bắt đầu bằng chỉ mục 0)
Thực hiện chú thích NER với sự thật cơ bản
Là một dịch vụ ghi nhãn dữ liệu được quản lý hoàn toàn, Ground Truth xây dựng bộ dữ liệu đào tạo cho ML. Đối với trường hợp sử dụng này, chúng tôi sử dụng Ground Truth để gửi một bộ sưu tập các tài liệu văn bản đến một nhóm công nhân để chú thích. Cuối cùng, chúng tôi xem xét chất lượng.
Ground Truth có thể được định cấu hình để xây dựng công việc ghi nhãn dữ liệu bằng cách sử dụng công cụ NER mới làm mẫu tùy chỉnh.
Cụ thể, chúng tôi sẽ:
- Tạo lực lượng lao động gắn nhãn riêng gồm các công nhân để thực hiện tác vụ chú thích
- Tạo tệp kê khai đầu vào Sự thật cơ bản với các tài liệu chúng tôi muốn chú thích và sau đó tải nó lên Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3)
- Tạo tác vụ dán nhãn trước và tác vụ dán nhãn sau Các chức năng của Lambda
- Tạo công việc gắn nhãn Sự thật về mặt đất bằng cách sử dụng mẫu NER tùy chỉnh
- Chú thích tài liệu
- Xem lại kết quả
Tài nguyên công cụ NER
Có thể tìm thấy danh sách đầy đủ các nguồn tài liệu tham khảo và tài liệu mẫu trong biểu đồ sau:
Dán nhãn Tạo lực lượng lao động
Ground Truth sử dụng lực lượng lao động gắn nhãn SageMaker để quản lý công nhân và phân phối nhiệm vụ. Tạo một lực lượng lao động riêng, một nhóm công nhân được gọi là ner-worker-team và chỉ định bạn vào nhóm bằng cách sử dụng các hướng dẫn có trong Tạo lực lượng lao động riêng (Amazon SageMaker Console).
Sau khi bạn đã tự thêm mình vào lực lượng lao động tư nhân và xác nhận email của mình, hãy lưu ý URL cổng công nhân từ Bảng điều khiển quản lý AWS:
- Hướng đến
SageMaker
- Hướng đến
Ground Truth → Labeling workforces
- Chọn hình ba gạch
Private
chuyển hướng - Lưu ý URL
Labeling portal sign-in URL
Đăng nhập vào cổng công nhân để xem và bắt đầu công việc trên các tác vụ dán nhãn.
Tệp kê khai đầu vào
Tệp kê khai dữ liệu đầu vào Ground Truth là một tệp JSON-lines trong đó mỗi dòng chứa một tác vụ worker duy nhất. Trong trường hợp của chúng tôi, mỗi dòng sẽ chứa một Tài liệu đầu vào được mã hóa JSON chứa văn bản mà chúng tôi muốn chú thích và lược đồ chú thích NER.
Tải xuống tệp kê khai đầu vào mẫu reviews.manifest
từ https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest
Chú thích: mỗi hàng trong tệp kê khai đầu vào cần một khóa cấp cao nhất source
or source-ref
. Bạn có thể tìm hiểu thêm trong Sử dụng tệp kê khai đầu vào trong Hướng dẫn dành cho nhà phát triển Amazon SageMaker.
Tải tệp kê khai đầu vào lên Amazon S3
Tải tệp kê khai đầu vào này lên nhóm S3 bằng Bảng điều khiển quản lý AWS hoặc từ dòng lệnh, do đó thay thế your-bucket
với một tên nhóm thực tế.
Tải xuống mẫu nhân viên tùy chỉnh
Tải xuống mẫu công cụ tùy chỉnh của công cụ NER từ https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html bằng cách xem nguồn và lưu nội dung cục bộ hoặc từ dòng lệnh:
Tạo tác vụ dán nhãn trước và tác vụ dán nhãn sau Các chức năng của Lambda
Tải xuống tác vụ ghi nhãn trước mẫu Hàm Lambda: smgt-ner-pre-labeling-task-lambda.py
từ https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py
Tải xuống tác vụ ghi nhãn trước mẫu Hàm Lambda: smgt-ner-post-labeling-task-lambda.py
từ https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py
- Tạo chức năng Lambda nhiệm vụ gắn nhãn trước từ Bảng điều khiển quản lý AWS:
- Hướng đến
Lambda
- Chọn
Create function
- Chỉ định
Function name
assmgt-ner-pre-labeling-task-lambda
- Chọn
Runtime
→Python 3.6
- Chọn
Create function
- In
Function code
→lambda_hanadler.py
, dán nội dung củasmgt-ner-pre-labeling-task-lambda.py
- Chọn
Deploy
- Hướng đến
- Tạo tác vụ sau gắn nhãn Hàm Lambda từ Bảng điều khiển quản lý AWS:
- Hướng đến
Lambda
- Chọn
Create function
- Chỉ định
Function name
assmgt-ner-post-labeling-task-lambda
- Chọn
Runtime
→Python 3.6
- Mở rộng
Change default execution role
- Chọn
Create a new role from AWS policy templates
- Nhập
Role name
:smgt-ner-post-labeling-task-lambda-role
- Chọn
Create function
- Chọn hình ba gạch
Permissions
chuyển hướng - Chọn hình ba gạch
Role name
:smgt-ner-post-labeling-task-lambda-role
để mở bảng điều khiển IAM - Thêm hai chính sách cho vai trò
- Chọn
Attach policies
- Đính kèm
AmazonS3FullAccess
điều luật - Chọn
Add inline policy
- Chọn hình ba gạch
JSON
chuyển hướng - Dán chính sách nội tuyến sau:
- Chọn
- Điều hướng trở lại
smgt-ner-post-labeling-task-lambda
Trang cấu hình hàm Lambda - Chọn hình ba gạch
Configuration
chuyển hướng - In
Function code
→ tôiambda_hanadler.py
, dán nội dung củasmgt-ner-post-labeling-task-lambda.py
- Chọn
Deploy
- Hướng đến
Tạo công việc gắn nhãn Sự thật trên mặt đất
Từ Bảng điều khiển quản lý AWS:
- Điều hướng đến
Amazon SageMaker
dịch vụ - Hướng đến
Ground Truth
→Labeling Jobs
. - Chọn
Create labeling job
- Chỉ định một
Job Name
- Chọn
Manual Data Setup
- Chỉ định vị trí Tập dữ liệu đầu vào nơi bạn đã tải lên tệp kê khai đầu vào trước đó (ví dụ: s
3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl
) - Chỉ định vị trí tập dữ liệu đầu ra để trỏ đến một thư mục khác trong cùng một nhóm (ví dụ:
s3://your-bucket/ner-output/
) - Chỉ định một
IAM Role
bằng việc lựa chọnCreate new role
- Cho phép vai trò này truy cập bất kỳ nhóm S3 nào bằng cách chọn
S3 buckets you specify
→Any S3 bucket
khi tạo chính sách - Trong cửa sổ Bảng điều khiển quản lý AWS mới, hãy mở
IAM
bảng điều khiển và chọnRoles
- Tìm kiếm tên của vai trò mà bạn vừa tạo (ví dụ:
AmazonSageMaker-ExecutionRole-20210301T154158
) - Chọn tên vai trò để mở vai trò trong bảng điều khiển
- Đính kèm ba chính sách sau:
- Chọn Đính kèm chính sách
- Đính kèm
AWSLambda_FullAccess
đến vai trò - Chọn
Trust Relationships
→Edit Trust Relationships
- Chỉnh sửa mối quan hệ tin cậy JSON,
- Thay thế
YOUR_ACCOUNT_NUMBER
với số Tài khoản AWS bằng số của bạn, để đọc: - Lưu giữ mối quan hệ tin cậy
- Cho phép vai trò này truy cập bất kỳ nhóm S3 nào bằng cách chọn
- Quay lại công việc Ground Truth mới trong cửa sổ Bảng điều khiển quản lý AWS trước đó: trong
Task Category
, lựa chọnCustom
- Chọn
Next
- Chọn
Worker types
:Private
- Chọn hình ba gạch
Private team
:ner-worker-team
đã được tạo trong phần trước - Trong tạp chí
Custom labeling task setup
vùng văn bản, xóa nội dung mặc định và dán vào nội dung củaworker-template.liquid.html
tệp thu được trước đó - Xác định
Pre-labeling task Lambda function
với chức năng đã tạo trước đó:smgt-ner-pre-labeling
- Xác định
Post-labeling task Lambda function
với hàm đã tạo trước đó:smgt-ner-post-labeling
- Chọn
Create
Chú thích tài liệu
Sau khi công việc Ground Truth được tạo, chúng tôi có thể bắt đầu chú thích tài liệu. Mở cổng công nhân cho lực lượng lao động của chúng tôi đã tạo trước đó (Trong Bảng điều khiển quản lý AWS, điều hướng đến SageMaker
, Ground Truth → Labeling workforces
, Private
và mở Labeling portal sign-in URL
)
Đăng nhập và chọn tác vụ gắn nhãn đầu tiên trong bảng, sau đó chọn “Bắt đầu làm việc” để mở chú thích. Thực hiện các chú thích của bạn và chọn gửi trên cả ba tài liệu mẫu.
Xem lại kết quả
Khi các trình chú thích của Ground Truth hoàn thành nhiệm vụ, kết quả sẽ có sẵn trong nhóm S3 đầu ra:
Khi tất cả các nhiệm vụ cho một công việc gắn nhãn đã hoàn tất, kết quả tổng hợp sẽ có sẵn trong output.manifest
tệp nằm ở đây:
Tệp kê khai đầu ra này là một tệp JSON-dòng với một tài liệu văn bản được chú thích trên mỗi dòng trong “Định dạng tài liệu đầu ra” được chỉ định trước đó. Tệp này tương thích với “Định dạng tài liệu đầu vào” và nó có thể được đưa trực tiếp vào công việc Ground Truth tiếp theo cho một vòng chú thích khác. Ngoài ra, nó có thể được phân tích cú pháp và gửi đến một công việc đào tạo ML. Một số tình huống mà chúng tôi có thể sử dụng vòng chú thích thứ hai là:
- Chia quy trình chú thích thành hai bước trong đó chú thích đầu tiên xác định các chú thích thực thể và chú thích thứ hai vẽ các mối quan hệ
- Lấy một mẫu của chúng tôi
output.manifest
và gửi nó đến người chú thích thứ hai, có kinh nghiệm hơn để xem xét như một kiểm tra kiểm soát chất lượng
Các mẫu chú thích sự thật về nền tảng tùy chỉnh
Công cụ chú thích NER được mô tả trong tài liệu này được triển khai dưới dạng một mẫu chú thích Sự thật nền tùy chỉnh. Khách hàng AWS có thể xây dựng giao diện chú thích tùy chỉnh của riêng họ bằng cách sử dụng các hướng dẫn được tìm thấy tại đây:
Kết luận
Bằng cách làm việc cùng nhau, Booking.com và Amazon MLSL đã có thể phát triển một công cụ chú thích văn bản mạnh mẽ có khả năng tạo các chú thích mối quan hệ và nhận dạng thực thể có tên phức tạp.
Chúng tôi khuyến khích khách hàng AWS có trường hợp sử dụng chú thích văn bản NER dùng thử công cụ được mô tả trong bài đăng này. Nếu bạn muốn giúp đẩy nhanh việc sử dụng ML trong các sản phẩm và dịch vụ của mình, vui lòng liên hệ với Phòng thí nghiệm Giải pháp Máy học của Amazon.
Về các tác giả
Đan cao quý là Kỹ sư phát triển phần mềm tại Amazon, nơi anh ấy giúp xây dựng trải nghiệm người dùng thú vị. Khi rảnh rỗi, anh ấy thích đọc sách, tập thể dục và có những chuyến phiêu lưu cùng gia đình.
Pri nonis là Kiến trúc sư Học tập sâu tại Amazon ML Solutions Lab, nơi anh ấy làm việc với khách hàng trên nhiều ngành dọc khác nhau và giúp họ đẩy nhanh hành trình di chuyển qua đám mây cũng như giải quyết các vấn đề ML của họ bằng cách sử dụng các giải pháp và công nghệ hiện đại.
Niharika Jayanthi là Kỹ sư Front End tại AWS, nơi cô phát triển các giải pháp chú thích tùy chỉnh cho khách hàng của Amazon SageMaker. Ngoài công việc, cô ấy thích đến viện bảo tàng và rèn luyện sức khỏe.
Amit Beka là Người quản lý Máy học tại Booking.com, với hơn 15 năm kinh nghiệm trong phát triển phần mềm và máy học. Anh ấy bị cuốn hút bởi con người và ngôn ngữ, và cách máy tính vẫn còn khiến cả hai phân vân.
- '
- 100
- 11
- 7
- Giới thiệu
- truy cập
- Tài khoản
- Kế toán
- ngang qua
- Hoạt động
- Ngoài ra
- thêm vào
- Tất cả
- đàn bà gan dạ
- Học máy Amazon
- Amazon SageMaker
- Sự mơ hồ
- phân tích
- KHU VỰC
- có sẵn
- Có sẵn cho tất cả
- AWS
- Bắt đầu
- được
- xây dựng
- Xây dựng
- mà
- trường hợp
- phân loại
- đám mây
- mã
- bộ sưu tập
- phức tạp
- máy tính
- Cấu hình
- xem xét
- An ủi
- nội dung
- nội dung
- có thể
- Tạo
- quan trọng
- kinh nghiệm khach hang
- khách hàng
- dữ liệu
- học kĩ càng
- phát triển
- Nhà phát triển
- Phát triển
- khác nhau
- tài liệu
- Không
- dễ dàng
- hiệu lực
- Emoji
- khuyến khích
- ky sư
- vv
- ví dụ
- thực hiện
- kỳ vọng
- kinh nghiệm
- Kinh nghiệm
- gia đình
- Fed
- thông tin phản hồi
- Lĩnh vực
- Cuối cùng
- Tên
- phòng tập thể dục
- thực phẩm
- định dạng
- tìm thấy
- Full
- chức năng
- gif
- đi
- Khách
- hướng dẫn
- giúp đỡ
- giúp
- tại đây
- Đánh dấu
- khách sạn
- Độ đáng tin của
- Hướng dẫn
- HTTPS
- IAM
- thực hiện
- quan trọng
- Bao gồm
- chỉ số
- hệ thống riêng biệt,
- IT
- JavaScript
- Việc làm
- cuộc hành trình
- Key
- ghi nhãn
- Nhãn
- Ngôn ngữ
- Ngôn ngữ
- lớn
- hàng đầu
- LEARN
- học tập
- Hợp pháp
- Cấp
- niveaux
- Dòng
- LINK
- Chất lỏng
- Danh sách
- Các bảng liệt kê
- tại địa phương
- địa điểm thư viện nào
- tìm kiếm
- học máy
- quản lý
- dấu
- thị trường
- Trận đấu
- Siêu dữ liệu
- tâm
- ML
- kiểu mẫu
- chi tiết
- Viện Bảo tàng
- tên
- Ngôn ngữ tự nhiên
- Xử lý ngôn ngữ tự nhiên
- cần thiết
- nlp
- số
- Cung cấp
- bù đắp
- Trực tuyến
- mở
- mở ra
- Cơ hội
- Nền tảng khác
- người
- cụm từ
- nền tảng
- Nền tảng
- Chính sách
- điều luật
- hồ bơi
- Portal
- hậu đại dịch
- mạnh mẽ
- giá
- Hiệu trưởng
- riêng
- quá trình
- Sản phẩm
- Lập trình
- ngôn ngữ lập trình
- tài sản
- cho
- cung cấp
- Python
- chất lượng
- câu hỏi
- Reading
- Mối quan hệ
- Yêu cầu
- tài nguyên
- Thông tin
- nhà hàng
- Kết quả
- xem xét
- Đánh giá
- phòng
- nhà làm hiền triết
- tiết kiệm
- Quy mô
- ý nghĩa
- tình cảm
- DỊCH VỤ
- định
- ngắn
- Đơn giản
- So
- Phần mềm
- phát triển phần mềm
- Giải pháp
- động SOLVE
- Không gian
- tốc độ
- Bắt đầu
- Tuyên bố
- ở lại
- là gắn
- hỗ trợ
- Mục tiêu
- Công nghệ
- Nguồn
- thời gian
- bên nhau
- Mã thông báo
- Tokens
- công cụ
- hàng đầu
- cấp cao nhất
- theo dõi
- truyền thống
- Hội thảo
- đi du lịch
- điều trị
- xử lý
- NIỀM TIN
- us
- Người sử dụng
- giá trị
- phiên bản
- Xem
- Điều gì
- ở trong
- Công việc
- làm việc
- công nhân
- Lực lượng lao động
- đang làm việc
- tập thể dục
- công trinh
- thế giới
- thế giới
- sẽ
- năm