Khuyến nghị mạnh mẽ và tìm kiếm bằng sơ đồ tri thức IMDb

Được xuất bản lại bởi Plato

Người theo dõi: 0

Loạt bài gồm ba phần này trình bày cách sử dụng mạng lưới thần kinh đồ thị (GNN) và Sao Hải vương Amazon để tạo các đề xuất phim bằng cách sử dụng IMDb và Box Office Mojo Phim/TV/OTT gói dữ liệu có thể cấp phép, cung cấp nhiều loại siêu dữ liệu giải trí, bao gồm hơn 1 tỷ xếp hạng của người dùng; tín dụng cho hơn 11 triệu diễn viên và thành viên phi hành đoàn; 9 triệu tựa phim, truyền hình và giải trí; và dữ liệu báo cáo phòng vé toàn cầu từ hơn 60 quốc gia. Nhiều khách hàng phương tiện và giải trí AWS cấp phép cho dữ liệu IMDb thông qua Trao đổi dữ liệu AWS để cải thiện khả năng khám phá nội dung và tăng mức độ tương tác cũng như giữ chân khách hàng.

In Phần 1, chúng tôi đã thảo luận về các ứng dụng của GNN cũng như cách chuyển đổi và chuẩn bị dữ liệu IMDb của chúng tôi để truy vấn. Trong bài đăng này, chúng tôi thảo luận về quy trình sử dụng Neptune để tạo các nhúng được sử dụng để tiến hành tìm kiếm ngoài danh mục của chúng tôi trong Phần 3 . Chúng tôi cũng đi qua Amazon Sao Hải Vương ML, tính năng học máy (ML) của Neptune và mã chúng tôi sử dụng trong quá trình phát triển của mình. Trong Phần 3 , chúng ta sẽ tìm hiểu cách áp dụng các nhúng sơ đồ tri thức vào trường hợp sử dụng tìm kiếm ngoài danh mục.

Tổng quan về giải pháp

Các tập dữ liệu lớn được kết nối thường chứa thông tin có giá trị khó có thể trích xuất bằng các truy vấn chỉ dựa trên trực giác của con người. Các kỹ thuật ML có thể giúp tìm ra các mối tương quan ẩn trong biểu đồ với hàng tỷ mối quan hệ. Những mối tương quan này có thể hữu ích cho việc giới thiệu sản phẩm, dự đoán giá trị tín dụng, xác định gian lận và nhiều trường hợp sử dụng khác.

Neptune ML cho phép xây dựng và đào tạo các mô hình ML hữu ích trên các biểu đồ lớn trong vài giờ thay vì vài tuần. Để thực hiện điều này, Neptune ML sử dụng công nghệ GNN được hỗ trợ bởi Amazon SageMaker và Thư viện đồ thị sâu (DGL) (đó là mã nguồn mở). GNN là một lĩnh vực mới nổi trong trí tuệ nhân tạo (ví dụ, xem Khảo sát Toàn diện về Mạng Neural Đồ thị). Để có hướng dẫn thực hành về cách sử dụng GNN với DGL, hãy xem Học mạng lưới thần kinh đồ thị với Thư viện đồ thị sâu.

Trong bài đăng này, chúng tôi trình bày cách sử dụng Neptune trong hệ thống của chúng tôi để tạo nhúng.

Sơ đồ sau mô tả toàn bộ luồng dữ liệu IMDb từ tải xuống đến tạo nhúng.

Chúng tôi sử dụng các dịch vụ AWS sau để triển khai giải pháp:

Trong bài đăng này, chúng tôi hướng dẫn bạn qua các bước cấp cao sau:

Thiết lập biến môi trường
Tạo một công việc xuất khẩu.
Tạo một công việc xử lý dữ liệu.
Gửi một công việc đào tạo.
Tải về nhúng.

Mã cho các lệnh Neptune ML

Chúng tôi sử dụng các lệnh sau đây như một phần của việc triển khai giải pháp này:

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

Chúng tôi sử dụng neptune_ml export để kiểm tra trạng thái hoặc bắt đầu quy trình xuất Neptune ML và neptune_ml training để bắt đầu và kiểm tra trạng thái của công việc đào tạo người mẫu Neptune ML.

Để biết thêm thông tin về các lệnh này và các lệnh khác, hãy tham khảo Sử dụng ma thuật bàn làm việc của Neptune trong sổ ghi chép của bạn.

Điều kiện tiên quyết

Để làm theo cùng với bài đăng này, bạn nên có những điều sau đây:

An Tài khoản AWS
Quen thuộc với SageMaker, Amazon S3 và AWS CloudFormation
Dữ liệu đồ thị được tải vào cụm Sao Hải Vương (xem Phần 1 để biết thêm thông tin)

Thiết lập biến môi trường

Trước khi chúng tôi bắt đầu, bạn sẽ cần thiết lập môi trường của mình bằng cách đặt các biến sau: s3_bucket_uri và processed_folder. s3_bucket_uri là tên của thùng được sử dụng trong Phần 1 và processed_folder là vị trí Amazon S3 cho đầu ra từ tác vụ xuất .

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

Tạo một công việc xuất khẩu

Trong Phần 1, chúng ta đã tạo sổ ghi chép SageMaker và dịch vụ xuất để xuất dữ liệu từ cụm Neptune DB sang Amazon S3 ở định dạng bắt buộc.

Bây giờ dữ liệu của chúng tôi đã được tải và dịch vụ xuất đã được tạo, chúng tôi cần tạo một công việc xuất để bắt đầu dịch vụ đó. Để làm điều này, chúng tôi sử dụng NeptuneExportApiUri và tạo tham số cho công việc xuất. Trong đoạn mã sau, chúng tôi sử dụng các biến expo và export_params. Bộ expo để của bạn NeptuneExportApiUri giá trị mà bạn có thể tìm thấy trên Kết quả đầu ra tab của ngăn xếp CloudFormation của bạn. Vì export_params, chúng tôi sử dụng điểm cuối của cụm Sao Hải Vương của bạn và cung cấp giá trị cho outputS3path, là vị trí Amazon S3 cho đầu ra từ tác vụ xuất.

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

Để gửi công việc xuất sử dụng lệnh sau:

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

Để kiểm tra trạng thái của tác vụ xuất, hãy sử dụng lệnh sau:

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

Sau khi công việc của bạn hoàn tất, hãy đặt processed_folder biến để cung cấp vị trí Amazon S3 của kết quả được xử lý:

export_results['processed_location']= processed_folder

Tạo một công việc xử lý dữ liệu

Bây giờ, quá trình xuất đã hoàn tất, chúng tôi tạo một công việc xử lý dữ liệu để chuẩn bị dữ liệu cho quy trình đào tạo Neptune ML. Điều này có thể được thực hiện một vài cách khác nhau. Đối với bước này, bạn có thể thay đổi job_name và modelType các biến, nhưng tất cả các tham số khác phải giữ nguyên. Phần chính của mã này là modelType tham số, có thể là các mô hình đồ thị không đồng nhất (heterogeneous) hoặc đồ thị tri thức (kge).

Công việc xuất khẩu còn bao gồm training-data-configuration.json. Sử dụng tệp này để thêm hoặc xóa bất kỳ nút hoặc cạnh nào mà bạn không muốn cung cấp cho quá trình đào tạo (ví dụ: nếu bạn muốn dự đoán liên kết giữa hai nút, bạn có thể xóa liên kết đó trong tệp cấu hình này). Đối với bài đăng trên blog này, chúng tôi sử dụng tệp cấu hình ban đầu. Để biết thêm thông tin, xem Chỉnh sửa tệp cấu hình đào tạo.

Tạo công việc xử lý dữ liệu của bạn với đoạn mã sau:

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

Để kiểm tra trạng thái của tác vụ xuất, hãy sử dụng lệnh sau:

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

Gửi một công việc đào tạo

Sau khi công việc xử lý hoàn tất, chúng tôi có thể bắt đầu công việc đào tạo của mình, đây là nơi chúng tôi tạo các phần nhúng của mình. Chúng tôi khuyên dùng loại phiên bản ml.m5.24xlarge nhưng bạn có thể thay đổi loại này để phù hợp với nhu cầu sử dụng máy tính của mình. Xem đoạn mã sau:

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

Chúng tôi in biến training_results để lấy ID cho công việc đào tạo. Sử dụng lệnh sau để kiểm tra trạng thái công việc của bạn:

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

Tải xuống nhúng

Sau khi công việc đào tạo của bạn hoàn tất, bước cuối cùng là tải xuống các bản nhúng thô của bạn. Các bước sau đây chỉ cho bạn cách tải xuống các nhúng được tạo bằng KGE (bạn có thể sử dụng quy trình tương tự cho RGCN).

Trong đoạn mã sau, chúng tôi sử dụng neptune_ml.get_mapping() và get_embeddings() để tải xuống tệp ánh xạ (mapping.info) và tệp nhúng thô (entity.npy). Sau đó, chúng ta cần ánh xạ các phần nhúng phù hợp với ID tương ứng của chúng.

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

Để tải xuống RGCN, hãy làm theo quy trình tương tự với tên công việc đào tạo mới bằng cách xử lý dữ liệu với tham số modelType được đặt thành heterogeneous, sau đó đào tạo mô hình của bạn với tham số modelName được đặt thành rgcn xem tại đây để biết thêm chi tiết. Khi đã xong, hãy gọi cho get_mapping và get_embeddings các chức năng để tải xuống mới của bạn map.info và thực thể.npy các tập tin. Sau khi bạn có thực thể và tệp ánh xạ, quá trình tạo tệp CSV giống hệt nhau.

Cuối cùng, tải các phần nhúng của bạn lên vị trí Amazon S3 mong muốn:

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

Hãy chắc chắn rằng bạn nhớ vị trí S3 này, bạn sẽ cần sử dụng nó trong Phần 3.

Làm sạch

Khi bạn sử dụng xong giải pháp, hãy nhớ dọn sạch mọi tài nguyên để tránh bị tính phí liên tục.

Kết luận

Trong bài đăng này, chúng tôi đã thảo luận cách sử dụng Neptune ML để đào tạo các nhúng GNN từ dữ liệu IMDb.

Một số ứng dụng liên quan của nhúng biểu đồ tri thức là các khái niệm như tìm kiếm ngoài danh mục, đề xuất nội dung, quảng cáo được nhắm mục tiêu, dự đoán các liên kết bị thiếu, tìm kiếm chung và phân tích theo nhóm. Tìm kiếm ngoài danh mục là quá trình tìm kiếm nội dung mà bạn không sở hữu và tìm hoặc đề xuất nội dung trong danh mục của bạn gần với nội dung người dùng đã tìm kiếm nhất có thể. Chúng ta sẽ tìm hiểu sâu hơn về tìm kiếm ngoài danh mục trong Phần 3.

Về các tác giả

Matthew Rhodes là Nhà khoa học dữ liệu, tôi làm việc trong Phòng thí nghiệm giải pháp ML của Amazon. Anh ấy chuyên xây dựng các quy trình Machine Learning liên quan đến các khái niệm như Xử lý ngôn ngữ tự nhiên và Thị giác máy tính.

Divya Bhargavi là Nhà khoa học dữ liệu và Trưởng nhóm ngành truyền thông và giải trí tại Phòng thí nghiệm giải pháp máy học của Amazon, nơi cô giải quyết các vấn đề kinh doanh có giá trị cao cho khách hàng AWS bằng Machine Learning. Cô ấy nghiên cứu về hiểu biết hình ảnh/video, hệ thống đề xuất sơ đồ tri thức, các trường hợp sử dụng quảng cáo dự đoán.

Gaurav phát hành là Nhà khoa học dữ liệu tại Amazon ML Solution Lab, nơi ông làm việc với khách hàng AWS trên các ngành dọc khác nhau để đẩy nhanh việc sử dụng máy học và các dịch vụ Đám mây AWS để giải quyết các thách thức kinh doanh của họ.

Karan Sindwani là Nhà khoa học dữ liệu tại Phòng thí nghiệm giải pháp học máy của Amazon, nơi anh xây dựng và triển khai các mô hình học sâu. Ông chuyên về lĩnh vực thị giác máy tính. Trong thời gian rảnh rỗi, anh ấy thích đi bộ đường dài.

Soji Adeshina là Nhà khoa học ứng dụng tại AWS, nơi ông phát triển các mô hình dựa trên mạng thần kinh đồ thị cho máy học trên các tác vụ đồ thị với các ứng dụng chống gian lận & lạm dụng, đồ thị tri thức, hệ thống đề xuất và khoa học đời sống. Trong thời gian rảnh rỗi, anh ấy thích đọc sách và nấu ăn.

Vidya Sagar Ravipati là Người quản lý tại Phòng thí nghiệm giải pháp máy học của Amazon, nơi anh tận dụng kinh nghiệm dày dặn của mình trong các hệ thống phân tán quy mô lớn và niềm đam mê học máy của mình để giúp khách hàng AWS trên các ngành dọc khác nhau đẩy nhanh quá trình áp dụng AI và đám mây của họ.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

Dấu thời gian: 20 Tháng mười hai, 2022

Dấu thời gian: Tháng Tư 24, 2023

Được xuất bản lại bởi Plato

AWS và Hugging Face hợp tác để giúp AI tổng quát dễ tiếp cận hơn và tiết kiệm chi phí

Xây dựng chương trình phụ trợ tóm tắt cuộc họp serverless với các mô hình ngôn ngữ lớn trên Amazon SageMaker JumpStart | Dịch vụ web của Amazon

Cơ sở Kiến thức trong Amazon Bedrock giờ đây đơn giản hóa việc đặt câu hỏi trên một tài liệu duy nhất | Dịch vụ web của Amazon

Đẩy nhanh vòng đời phát triển chatbot Amazon Lex với Test Workbench | Dịch vụ web của Amazon

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản