Hỗ trợ định dạng dữ liệu mở rộng mới trong Amazon Kendra

Hỗ trợ định dạng dữ liệu mở rộng mới trong Amazon Kendra

Nút nguồn: 1962736

Các doanh nghiệp trên toàn cầu đang tìm cách sử dụng nhiều nguồn dữ liệu để triển khai trải nghiệm tìm kiếm thống nhất cho nhân viên và khách hàng cuối của họ. Xem xét khối lượng lớn dữ liệu cần được kiểm tra và lập chỉ mục, tốc độ truy xuất, khả năng mở rộng giải pháp và hiệu suất tìm kiếm trở thành những yếu tố chính cần xem xét khi chọn giải pháp tìm kiếm thông minh cho doanh nghiệp. Ngoài ra, các nguồn dữ liệu duy nhất này bao gồm các kho lưu trữ nội dung có cấu trúc và không có cấu trúc—bao gồm các loại tệp khác nhau—có thể gây ra sự cố tương thích.

Amazon Kendra là một dịch vụ tìm kiếm thông minh và có độ chính xác cao cho phép người dùng tìm kiếm câu trả lời cho câu hỏi của họ từ dữ liệu có cấu trúc và phi cấu trúc của bạn bằng cách sử dụng các thuật toán xử lý ngôn ngữ tự nhiên và tìm kiếm nâng cao. Nó trả về các câu trả lời cụ thể cho các câu hỏi, mang đến cho người dùng trải nghiệm gần giống như tương tác với một chuyên gia về con người.

Hôm nay, Amazon Kendra đã ra mắt bảy tùy chọn hỗ trợ định dạng dữ liệu bổ sung để bạn sử dụng. Điều này cho phép bạn dễ dàng tích hợp các nguồn dữ liệu hiện có của mình và thực hiện tìm kiếm thông minh trên nhiều kho lưu trữ nội dung.

Trong bài đăng này, chúng tôi thảo luận về các định dạng dữ liệu mới được hỗ trợ và cách sử dụng chúng.

Các định dạng dữ liệu được hỗ trợ mới

Trước đây, Amazon Kendra tài liệu được hỗ trợ bao gồm văn bản có cấu trúc ở dạng câu hỏi và câu trả lời thường gặp, cũng như văn bản phi cấu trúc ở dạng tệp HTML, bản trình bày Microsoft PowerPoint, tài liệu Microsoft Word, tài liệu văn bản thuần túy và PDF.

Với lần ra mắt này, Amazon Kendra hiện cung cấp hỗ trợ cho bảy định dạng dữ liệu bổ sung:

  • Định dạng văn bản có định dạng (RTF)
  • Ký hiệu đối tượng JavaScript (JSON)
  • Đánh dấu (MD)
  • Các giá trị được phân tách bằng dấu phẩy (CSV)
  • Microsoft Excel (MS Excel)
  • Ngôn ngữ đánh dấu mở rộng
  • Chuyển đổi ngôn ngữ biểu định kiểu có thể mở rộng (XSLT)

Người dùng Amazon Kendra có thể nhập các tài liệu này với các định dạng dữ liệu khác nhau vào chỉ mục của họ theo hai cách sau:

Tổng quan về giải pháp

Trong các phần sau, chúng tôi sẽ hướng dẫn các bước để thêm tài liệu từ nguồn dữ liệu và thực hiện tìm kiếm trên các tài liệu đó.

Sơ đồ sau đây cho thấy kiến ​​trúc giải pháp của chúng tôi.

Để thử nghiệm giải pháp này cho bất kỳ định dạng được hỗ trợ nào, bạn cần sử dụng dữ liệu của riêng mình. Bạn có thể kiểm tra bằng cách tải các tài liệu có định dạng giống hoặc khác nhau lên bộ chứa S3.

Tạo chỉ mục Amazon Kendra

Để biết hướng dẫn tạo chỉ mục Amazon Kendra của bạn, hãy tham khảo Tạo chỉ mục.

Bạn có thể bỏ qua bước này nếu bạn đã có sẵn chỉ mục để sử dụng cho bản trình diễn này.

Tải tài liệu lên bộ chứa S3 và nhập vào chỉ mục bằng trình kết nối S3

Hoàn thành các bước sau để kết nối bộ chứa S3 với chỉ mục của bạn:

  1. Tạo một thùng S3 để lưu trữ tài liệu của bạn.
  2. Tạo một thư mục được đặt tên là dữ liệu mẫu.
  3. Tải lên các tài liệu mà bạn muốn kiểm tra vào thư mục.
  4. Trên bảng điều khiển Amazon Kendra, hãy chuyển đến chỉ mục của bạn và chọn Nguồn dữ liệu.
  5. Chọn Thêm nguồn dữ liệu.
  6. Theo Nguồn dữ liệu có sẵn, lựa chọn S3 Và chọn Thêm trình kết nối.
  7. Nhập tên cho trình kết nối của bạn (chẳng hạn như Demo_S3_connector) và lựa chọn Sau.
  8. Chọn Duyệt qua S3 và chọn bộ chứa S3 mà bạn đã tải tài liệu lên.
  9. Trong Vai trò IAM, tạo một vai trò mới.
  10. Trong Đặt lịch chạy đồng bộ hóa, lựa chọn Chạy theo yêu cầu.
  11. Chọn Sau.
  12. trên Xem lại và tạo trang, chọn Thêm nguồn dữ liệu.
  13. Sau khi quá trình tạo hoàn tất, chọn Đồng bộ hóa ngay bây giờ.

Bây giờ bạn đã nhập một số tài liệu, bạn có thể điều hướng đến bảng điều khiển tìm kiếm tích hợp để kiểm tra các truy vấn.

Tìm kiếm tài liệu của bạn với bảng điều khiển tìm kiếm Amazon Kendra

Trên bảng điều khiển Amazon Kendra, chọn Tìm kiếm nội dung được lập chỉ mục trong khung điều hướng.

Sau đây là ví dụ về các kết quả từ việc tìm kiếm các loại tài liệu khác nhau:

  • RTF – Nhập dữ liệu ở định dạng RTF được tải lên bộ chứa S3 và đồng bộ hóa nguồn dữ liệu:

Ảnh chụp màn hình sau đây hiển thị kết quả tìm kiếm.

  • JSON – Nhập dữ liệu ở định dạng JSON được tải lên bộ chứa S3 và đồng bộ hóa nguồn dữ liệu:

Ảnh chụp màn hình sau đây hiển thị kết quả tìm kiếm.

  • Markdown – Nhập dữ liệu ở định dạng MD được tải lên bộ chứa S3 và đồng bộ hóa nguồn dữ liệu:

Ảnh chụp màn hình sau đây hiển thị kết quả tìm kiếm.

  • CSV – Nhập dữ liệu ở định dạng CSV được tải lên bộ chứa S3 và đồng bộ hóa nguồn dữ liệu:

Ảnh chụp màn hình sau đây hiển thị kết quả tìm kiếm.

  • Excel – Nhập dữ liệu ở định dạng Excel được tải lên bộ chứa S3 và đồng bộ hóa nguồn dữ liệu:

Ảnh chụp màn hình sau đây hiển thị kết quả tìm kiếm.

  • XML – Nhập dữ liệu ở định dạng XML được tải lên bộ chứa S3 và đồng bộ hóa nguồn dữ liệu:

Ảnh chụp màn hình sau đây hiển thị kết quả tìm kiếm.

  • XSLT – Nhập dữ liệu ở định dạng XSLT được tải lên bộ chứa S3 và đồng bộ hóa nguồn dữ liệu:

Ảnh chụp màn hình sau đây hiển thị kết quả tìm kiếm.

Làm sạch

Để tránh phát sinh chi phí trong tương lai, hãy dọn dẹp các tài nguyên bạn đã tạo như một phần của giải pháp này bằng các bước sau:

  1. Trên bảng điều khiển Amazon Kendra, chọn Chỉ số trong khung điều hướng.
  2. Chọn chỉ mục chứa nguồn dữ liệu cần xóa.
  3. Trong ngăn dẫn hướng, chọn Nguồn dữ liệu.
  4. Chọn nguồn dữ liệu để xóa, sau đó chọn Xóa bỏ.

Khi bạn xóa nguồn dữ liệu, Amazon Kendra sẽ xóa tất cả thông tin được lưu trữ về nguồn dữ liệu. Amazon Kendra xóa tất cả dữ liệu tài liệu được lưu trữ trong chỉ mục cũng như tất cả lịch sử chạy và chỉ số được liên kết với nguồn dữ liệu. Xóa nguồn dữ liệu không xóa tài liệu gốc khỏi bộ lưu trữ của bạn.

  1. Trên bảng điều khiển Amazon Kendra, chọn Các chỉ mục trong ngăn điều hướng.
  2. Chọn chỉ mục cần xóa, sau đó chọn Xóa bỏ.

Tham khảo Xóa chỉ mục và nguồn dữ liệu để biết thêm chi tiết.

  1. Trên bảng điều khiển Amazon S3, chọn trong khung điều hướng.
  2. Chọn nhóm bạn muốn xóa, sau đó chọn Xóa bỏ.
  3. Nhập tên của bộ chứa để xác nhận xóa, sau đó chọn Xóa nhóm.

Nếu nhóm chứa bất kỳ đối tượng nào, bạn sẽ nhận được cảnh báo lỗi. Làm trống bộ chứa trước khi xóa nó bằng cách chọn liên kết trong thông báo lỗi và làm theo hướng dẫn trên thùng rỗng trang. Sau đó quay trở lại Xóa nhóm trang và xóa nhóm.

  1. Để xác minh rằng bạn đã xóa bộ chứa, hãy mở trang và nhập tên của bộ chứa mà bạn đã xóa. Nếu không tìm thấy thùng, nghĩa là bạn đã xóa thành công.

Tham khảo Xóa một trang nhóm để biết thêm chi tiết.

Kết luận

Trong bài đăng này, chúng tôi đã thảo luận về các định dạng dữ liệu mới mà Amazon Kendra hiện hỗ trợ. Ngoài ra, chúng ta đã thảo luận về cách sử dụng Amazon Kendra để nhập và thực hiện tìm kiếm trên các loại tài liệu mới này được lưu trữ trong bộ chứa S3. Để tìm hiểu thêm về các định dạng dữ liệu khác nhau được hỗ trợ, hãy tham khảo Các loại tài liệu.

Chúng tôi đã giới thiệu cho bạn những điều cơ bản, nhưng có nhiều tính năng bổ sung mà chúng tôi không trình bày trong bài đăng này, chẳng hạn như những tính năng sau:

  • Bạn có thể kích hoạt kiểm soát truy cập dựa trên người dùng cho chỉ mục Amazon Kendra của mình và hạn chế quyền truy cập đối với những người dùng và nhóm mà bạn định cấu hình.
  • Bạn có thể ánh xạ các trường bổ sung tới các thuộc tính chỉ mục của Amazon Kendra và kích hoạt chúng để chia cạnh, tìm kiếm và hiển thị trong kết quả tìm kiếm.
  • Bạn có thể tích hợp các trình kết nối nguồn dữ liệu bên thứ ba khác nhau như Service Now và Salesforce với khả năng Làm giàu tài liệu tùy chỉnh (CDE) trong Amazon Kendra để thực hiện logic ánh xạ thuộc tính bổ sung và thậm chí chuyển đổi nội dung tùy chỉnh trong quá trình nhập. Để biết danh sách đầy đủ các trình kết nối được hỗ trợ, hãy tham khảo Kết nối.

Để tìm hiểu về những khả năng này và hơn thế nữa, hãy tham khảo Hướng dẫn dành cho nhà phát triển Amazon Kendra.


Giới thiệu về tác giả

Rishabh Yadav là kiến ​​trúc sư Giải pháp đối tác tại AWS với kiến ​​thức chuyên sâu về DevOps và các dịch vụ Bảo mật tại AWS. Anh ấy làm việc với các đối tác ASEAN để cung cấp hướng dẫn về việc áp dụng đám mây doanh nghiệp và đánh giá kiến ​​trúc cùng với việc xây dựng thực tiễn AWS thông qua việc triển khai Khung kiến ​​trúc tối ưu. Ngoài công việc, anh ấy thích dành thời gian cho lĩnh vực thể thao và chơi game FPS.

Kruthi Jayasimha Rao là Kiến trúc sư giải pháp đối tác tập trung vào AI và ML. Cô cung cấp hướng dẫn kỹ thuật cho Đối tác AWS trong việc tuân theo các phương pháp hay nhất để xây dựng các giải pháp an toàn, linh hoạt và có tính sẵn sàng cao trong Đám mây AWS.

Keerthi Kumar Kallur là Kỹ sư phát triển phần mềm tại AWS. Anh ấy đã làm việc với nhóm AWS Kendra trong 2 năm qua và làm việc với nhiều tính năng cũng như khách hàng. Khi rảnh rỗi, anh ấy thích tham gia các hoạt động ngoài trời như đi bộ đường dài, các môn thể thao như bóng chuyền.

Dấu thời gian:

Thêm từ Học máy AWS