IMDb ナレッジグラフを使用した推奨電力と検索

プラトン再発行

フォロワー： 0

この XNUMX 部構成のシリーズでは、グラフニューラルネットワーク (GNN) とアマゾン海王星を使用して映画のおすすめを生成する IMDb とボックスオフィス Mojo 映画/TV/OTT ライセンス可能なデータパッケージ。1 億を超えるユーザー評価を含む幅広いエンターテイメントメタデータを提供します。 11 万人を超えるキャストとスタッフのクレジット。 9 万の映画、テレビ、エンターテイメントタイトル。および 60 か国以上からのグローバル興行レポートデータ。多くの AWS メディアおよびエンターテイメントのお客様は、IMDb データのライセンスを AWSデータ交換コンテンツの発見を改善し、顧客の関与と維持を向上させます。

In 第1部では、GNN のアプリケーションと、クエリ用に IMDb データを変換して準備する方法について説明しました。この投稿では、Neptune を使用して、パート 3 でカタログ外検索を実行するために使用される埋め込みを生成するプロセスについて説明します。私たちも行きますアマゾンネプチューンML、Neptune の機械学習 (ML) 機能、および開発プロセスで使用するコードです。パート 3 では、ナレッジグラフの埋め込みをカタログ外検索のユースケースに適用する方法について説明します。

ソリューションの概要

接続された大規模なデータセットには、人間の直感だけに基づくクエリを使用して抽出するのが難しい貴重な情報が含まれていることがよくあります。 ML 手法は、数十億の関係を持つグラフの隠れた相関関係を見つけるのに役立ちます。これらの相関関係は、製品の推奨、信用度の予測、詐欺の特定、およびその他の多くのユースケースに役立ちます。

Neptune ML を使用すると、大規模なグラフで有用な ML モデルを数週間ではなく数時間で構築およびトレーニングできます。これを達成するために、Neptune ML は、アマゾンセージメーカーとディープグラフライブラリ（DGL）（これはオープンソースの）。 GNN は、人工知能の新たな分野です (例については、グラフニューラルネットワークに関する総合調査）。 DGL での GNN の使用に関する実践的なチュートリアルについては、次を参照してください。ディープグラフライブラリを使用したグラフニューラルネットワークの学習.

この投稿では、パイプラインで Neptune を使用して埋め込みを生成する方法を示します。

次の図は、ダウンロードから埋め込み生成までの IMDb データの全体的な流れを示しています。

以下の AWS サービスを使用してソリューションを実装します。

この投稿では、次の高レベルの手順について説明します。

環境変数を設定する
エクスポートジョブを作成します。
データ処理ジョブを作成します。
トレーニングジョブを送信します。
埋め込みをダウンロードします。

Neptune ML コマンドのコード

このソリューションの実装の一環として、次のコマンドを使用します。

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

を使用しております neptune_ml export ステータスを確認するか、Neptune ML エクスポートプロセスを開始します。 neptune_ml training Neptune ML モデルトレーニングジョブを開始してステータスを確認します。

これらおよびその他のコマンドの詳細については、次を参照してください。ノートブックで Neptune ワークベンチマジックを使用する.

前提条件

この記事を進めるには、次のものが必要です。

An AWSアカウント
SageMaker、Amazon S3、および AWS CloudFormation に精通していること
Neptune クラスターにロードされたグラフデータ (参照第1部詳細については）

環境変数を設定する

始める前に、次の変数を設定して環境をセットアップする必要があります。 s3_bucket_uri & processed_folder. s3_bucket_uri はパート 1 で使用したバケットの名前です。 processed_folder は、エクスポートジョブからの出力の Amazon S3 の場所です。

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

エクスポートジョブを作成する

パート 1 では、SageMaker ノートブックとエクスポートサービスを作成して、必要な形式でデータを Neptune DB クラスターから Amazon S3 にエクスポートしました。

データが読み込まれ、エクスポートサービスが作成されたので、エクスポートジョブを作成して開始する必要があります。これを行うには、 NeptuneExportApiUri エクスポートジョブのパラメータを作成します。次のコードでは、変数を使用します expo & export_params。セットする expo あなたへ NeptuneExportApiUri 値は、出力 CloudFormation スタックのタブ。為に export_params、Neptune クラスターのエンドポイントを使用して、 outputS3path、これは、エクスポートジョブからの出力の Amazon S3 の場所です。

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

エクスポートジョブを送信するには、次のコマンドを使用します。

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

エクスポートジョブのステータスを確認するには、次のコマンドを使用します。

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

ジョブが完了したら、 processed_folder 処理された結果の Amazon S3 の場所を提供する変数:

export_results['processed_location']= processed_folder

データ処理ジョブを作成する

エクスポートが完了したので、データ処理ジョブを作成して、Neptune ML トレーニングプロセス用のデータを準備します。これにはいくつかの方法があります。このステップでは、 job_name & modelType ただし、他のすべてのパラメーターは同じままにする必要があります。このコードの主要部分は、 modelType 異種グラフモデル (heterogeneous) またはナレッジグラフ (kge).

エクスポートジョブには、 training-data-configuration.json. このファイルを使用して、トレーニングに提供したくないノードまたはエッジを追加または削除します (たとえば、XNUMX つのノード間のリンクを予測する場合は、この構成ファイルでそのリンクを削除できます)。このブログ投稿では、元の構成ファイルを使用します。詳細については、次を参照してください。トレーニング構成ファイルの編集.

次のコードを使用してデータ処理ジョブを作成します。

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

エクスポートジョブのステータスを確認するには、次のコマンドを使用します。

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

トレーニングジョブを送信する

処理ジョブが完了したら、埋め込みを作成するトレーニングジョブを開始できます。 ml.m5.24xlarge のインスタンスタイプをお勧めしますが、コンピューティングのニーズに合わせてこれを変更できます。次のコードを参照してください。

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

training_results 変数を出力して、トレーニングジョブの ID を取得します。次のコマンドを使用して、ジョブのステータスを確認します。

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

埋め込みをダウンロード

トレーニングジョブが完了したら、最後のステップは未加工の埋め込みをダウンロードすることです。次の手順は、KGE を使用して作成された埋め込みをダウンロードする方法を示しています (RGCN にも同じプロセスを使用できます)。

次のコードでは、 neptune_ml.get_mapping() & get_embeddings() マッピングファイルをダウンロードします (mapping.info) と生の埋め込みファイル (entity.npy）。次に、適切な埋め込みを対応する ID にマップする必要があります。

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

RGCN をダウンロードするには、modelType パラメーターを heterogeneous、次に modelName パラメーターをに設定してモデルをトレーニングします。 rgcn こちら詳細については。それが終わったら、 get_mapping & get_embeddings 新しいダウンロード機能 マッピング情報 & エンティティ.npy ファイル。エンティティファイルとマッピングファイルを取得したら、CSV ファイルを作成するプロセスは同じです。

最後に、埋め込みを目的の Amazon S3 の場所にアップロードします。

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

この S3 の場所を覚えておいてください。パート 3 で使用する必要があります。

クリーンアップ

ソリューションの使用が終了したら、リソースをクリーンアップして、継続的な料金が発生しないようにしてください。

まとめ

この投稿では、Neptune ML を使用して IMDb データから GNN 埋め込みをトレーニングする方法について説明しました。

ナレッジグラフ埋め込みの関連アプリケーションには、カタログ外検索、コンテンツレコメンデーション、ターゲット広告、ミッシングリンクの予測、一般的な検索、コホート分析などの概念があります。カタログ外検索は、自分が所有していないコンテンツを検索し、ユーザーが検索したものにできるだけ近いカタログ内のコンテンツを見つけたり、推奨したりするプロセスです。パート 3 では、カタログ外検索について詳しく説明します。

著者について

マシューローズ 私は Amazon ML Solutions Lab で働いているデータサイエンティストです。彼は、自然言語処理やコンピュータービジョンなどの概念を含む機械学習パイプラインの構築を専門としています。

ディヴィヤ・バルガヴィ Amazon ML Solutions Lab のデータサイエンティストであり、メディアとエンターテイメントの垂直リーダーであり、機械学習を使用して AWS のお客様の価値の高いビジネス上の問題を解決しています。彼女は、画像/ビデオの理解、ナレッジグラフ推奨システム、予測広告のユースケースに取り組んでいます。

ガウラヴ・レレ はAmazonML Solution Labのデータサイエンティストであり、さまざまな業種のAWSのお客様と協力して、機械学習とAWSクラウドサービスの使用を加速し、ビジネス上の課題を解決しています。

カランシンドワニ Amazon ML Solutions Lab のデータサイエンティストであり、深層学習モデルの構築とデプロイを行っています。彼はコンピュータビジョンの分野を専門としています。余暇には、ハイキングを楽しんでいます。

アデシナ宗司 AWS の応用科学者であり、グラフタスクで機械学習を行うためのグラフニューラルネットワークベースのモデルを開発し、詐欺や悪用、ナレッジグラフ、レコメンダーシステム、ライフサイエンスへの応用を行っています。余暇には、読書と料理を楽しんでいます。

ヴィディヤ・サーガル・ラヴィパティ Amazon ML Solutions Lab のマネージャーであり、大規模な分散システムでの豊富な経験と機械学習への情熱を活用して、さまざまな業種の AWS のお客様が AI とクラウドの採用を加速できるよう支援しています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

タイムスタンプ： 2022 年 12 月 20 日

タイムスタンプ： 2022 年 6 月 13 日

プラトン再発行

AmazonLexを使用して住所を取得する

Amazon SageMaker モデル並列ライブラリの新しいパフォーマンスの改善

Amazon SageMaker の Hugging Face を使用した電子メール分類を通じてクライアントの成功管理を加速する | アマゾンウェブサービス

Amazon Lookout for Metricsを使用して、ビジネスクリティカルな異常の潜在的な根本原因を特定します

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー