Recommandations de puissance et recherche à l'aide d'un Knowledge Graph IMDb

Republié par Platon

Suiveurs: 0

Cette série en trois parties montre comment utiliser les réseaux de neurones graphiques (GNN) et Amazone Neptune pour générer des recommandations de films à l'aide de IMDb et Box Office Mojo Films/TV/OTT un ensemble de données sous licence, qui fournit un large éventail de métadonnées de divertissement, y compris plus d'un milliard d'évaluations d'utilisateurs ; des crédits pour plus de 1 millions de membres de la distribution et de l'équipe ; 11 millions de titres de films, de télévision et de divertissement ; et des données de rapports sur le box-office mondial de plus de 9 pays. De nombreux clients de médias et de divertissement d'AWS autorisent les données IMDb via Échange de données AWS pour améliorer la découverte de contenu et accroître l'engagement et la fidélisation des clients.

In Partie 1, nous avons discuté des applications des GNN et de la façon de transformer et de préparer nos données IMDb pour l'interrogation. Dans cet article, nous discutons du processus d'utilisation de Neptune pour générer des représentations vectorielles continues utilisées pour effectuer notre recherche hors catalogue dans la partie 3 . Nous passons également Amazon Neptune ML, la fonctionnalité d'apprentissage automatique (ML) de Neptune et le code que nous utilisons dans notre processus de développement. Dans la partie 3 , nous expliquons comment appliquer nos représentations incorporées de graphes de connaissances à un cas d'utilisation de recherche hors catalogue.

Vue d'ensemble de la solution

Les grands ensembles de données connectés contiennent souvent des informations précieuses qui peuvent être difficiles à extraire à l'aide de requêtes basées uniquement sur l'intuition humaine. Les techniques de ML peuvent aider à trouver des corrélations cachées dans des graphiques avec des milliards de relations. Ces corrélations peuvent être utiles pour recommander des produits, prédire la solvabilité, identifier la fraude et de nombreux autres cas d'utilisation.

Neptune ML permet de créer et d'entraîner des modèles ML utiles sur de grands graphiques en quelques heures au lieu de plusieurs semaines. Pour ce faire, Neptune ML utilise la technologie GNN optimisée par Amazon Sage Maker et par Bibliothèque de graphes profonds (DGL) (lequel est open-source). Les GNN sont un domaine émergent de l'intelligence artificielle (pour un exemple, voir Une enquête complète sur les réseaux de neurones graphiques). Pour un tutoriel pratique sur l'utilisation des GNN avec le DGL, voir Apprentissage des réseaux de neurones de graphes avec Deep Graph Library.

Dans cet article, nous montrons comment utiliser Neptune dans notre pipeline pour générer des intégrations.

Le schéma suivant illustre le flux global des données IMDb, du téléchargement à la génération de l'intégration.

Nous utilisons les services AWS suivants pour mettre en œuvre la solution :

Dans cet article, nous vous expliquons les étapes de haut niveau suivantes :

Configurer les variables d'environnement
Créez une tâche d'exportation.
Créez une tâche de traitement de données.
Soumettre une tâche de formation.
Télécharger les intégrations.

Code pour les commandes Neptune ML

Nous utilisons les commandes suivantes dans le cadre de la mise en œuvre de cette solution :

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

Nous utilisons neptune_ml export pour vérifier l'état ou démarrer un processus d'exportation Neptune ML, et neptune_ml training pour démarrer et vérifier l'état d'une tâche d'entraînement de modèle Neptune ML.

Pour plus d'informations sur ces commandes et d'autres, reportez-vous à Utiliser les magies de l'établi Neptune dans vos cahiers.

Pré-requis

Pour suivre cet article, vous devriez avoir les éléments suivants :

An Compte AWS
Familiarité avec SageMaker, Amazon S3 et AWS CloudFormation
Données de graphe chargées dans le cluster Neptune (voir Partie 1 pour plus d'informations)

Configurer les variables d'environnement

Avant de commencer, vous devez configurer votre environnement en définissant les variables suivantes : s3_bucket_uri ainsi que processed_folder. s3_bucket_uri est le nom du seau utilisé dans la partie 1 et processed_folder est l'emplacement Amazon S3 pour la sortie de la tâche d'exportation.

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

Créer une tâche d'exportation

Dans la partie 1, nous avons créé un bloc-notes SageMaker et un service d'exportation pour exporter nos données du cluster Neptune DB vers Amazon S3 dans le format requis.

Maintenant que nos données sont chargées et que le service d'exportation est créé, nous devons créer une tâche d'exportation pour la démarrer. Pour ce faire, nous utilisons NeptuneExportApiUri et créer des paramètres pour la tâche d'exportation. Dans le code suivant, nous utilisons les variables expo ainsi que export_params. Ensemble expo à ta NeptuneExportApiUri valeur, que vous pouvez trouver sur le Sortie onglet de votre pile CloudFormation. Pour export_params, nous utilisons le point de terminaison de votre cluster Neptune et fournissons la valeur pour outputS3path, qui est l'emplacement Amazon S3 pour la sortie de la tâche d'exportation.

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

Pour envoyer la tâche d'exportation, utilisez la commande suivante :

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

Pour vérifier l'état de la tâche d'exportation, utilisez la commande suivante :

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

Une fois votre travail terminé, définissez le processed_folder variable pour fournir l'emplacement Amazon S3 des résultats traités :

export_results['processed_location']= processed_folder

Créer une tâche de traitement de données

Maintenant que l'exportation est terminée, nous créons une tâche de traitement de données pour préparer les données pour le processus de formation Neptune ML. Cela peut être fait de différentes manières. Pour cette étape, vous pouvez modifier le job_name ainsi que modelType variables, mais tous les autres paramètres doivent rester les mêmes. La partie principale de ce code est la modelType paramètre, qui peut être soit des modèles de graphes hétérogènes (heterogeneous) ou des graphes de connaissances (kge).

La tâche d'exportation comprend également training-data-configuration.json. Utilisez ce fichier pour ajouter ou supprimer des nœuds ou des arêtes que vous ne souhaitez pas fournir pour la formation (par exemple, si vous souhaitez prédire le lien entre deux nœuds, vous pouvez supprimer ce lien dans ce fichier de configuration). Pour cet article de blog, nous utilisons le fichier de configuration d'origine. Pour plus d'informations, voir Modification d'un fichier de configuration d'entraînement.

Créez votre tâche de traitement de données avec le code suivant :

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

Pour vérifier l'état de la tâche d'exportation, utilisez la commande suivante :

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

Soumettre une tâche de formation

Une fois le travail de traitement terminé, nous pouvons commencer notre travail de formation, où nous créons nos représentations vectorielles continues. Nous recommandons un type d'instance ml.m5.24xlarge, mais vous pouvez le modifier en fonction de vos besoins informatiques. Voir le code suivant :

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

Nous imprimons la variable training_results pour obtenir l'ID de la tâche d'entraînement. Utilisez la commande suivante pour vérifier l'état de votre tâche :

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

Télécharger les intégrations

Une fois votre tâche d'entraînement terminée, la dernière étape consiste à télécharger vos représentations vectorielles brutes. Les étapes suivantes vous montrent comment télécharger les intégrations créées à l'aide de KGE (vous pouvez utiliser le même processus pour RGCN).

Dans le code suivant, nous utilisons neptune_ml.get_mapping() ainsi que get_embeddings() pour télécharger le fichier de mappage (mapping.info) et le fichier d'incorporations brutes (entity.npy). Ensuite, nous devons mapper les incorporations appropriées à leurs ID correspondants.

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

Pour télécharger les RGCN, suivez le même processus avec un nouveau nom de tâche d'entraînement en traitant les données avec le paramètre modelType défini sur heterogeneous, puis entraînez votre modèle avec le paramètre modelName défini sur rgcn sur le lien ici pour plus de détails. Une fois cela terminé, appelez le get_mapping ainsi que get_embeddings fonctions pour télécharger votre nouveau mappage.info ainsi que entité.npy des dossiers. Une fois que vous avez les fichiers d'entité et de mappage, le processus de création du fichier CSV est identique.

Enfin, chargez vos intégrations à l'emplacement Amazon S3 de votre choix :

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

Assurez-vous de vous souvenir de cet emplacement S3, vous devrez l'utiliser dans la partie 3.

Nettoyer

Lorsque vous avez terminé d'utiliser la solution, assurez-vous de nettoyer toutes les ressources pour éviter les frais permanents.

Conclusion

Dans cet article, nous avons expliqué comment utiliser Neptune ML pour former les intégrations GNN à partir des données IMDb.

Certaines applications connexes des incorporations de graphes de connaissances sont des concepts tels que la recherche hors catalogue, les recommandations de contenu, la publicité ciblée, la prédiction des liens manquants, la recherche générale et l'analyse de cohorte. La recherche hors catalogue est le processus de recherche de contenu qui ne vous appartient pas et de recherche ou de recommandation de contenu dans votre catalogue qui est aussi proche que possible de ce que l'utilisateur a recherché. Nous approfondissons la recherche hors catalogue dans la partie 3.

À propos des auteurs

Matthieu Rhodes est un Data Scientist qui travaille au Amazon ML Solutions Lab. Il se spécialise dans la construction de pipelines d'apprentissage automatique qui impliquent des concepts tels que le traitement du langage naturel et la vision par ordinateur.

Divya Bhargavi est Data Scientist et Media and Entertainment Vertical Lead au Amazon ML Solutions Lab, où elle résout des problèmes commerciaux de grande valeur pour les clients AWS à l'aide de Machine Learning. Elle travaille sur la compréhension des images/vidéos, les systèmes de recommandation de graphes de connaissances, les cas d'utilisation de la publicité prédictive.

Gaurav Relé est un Data Scientist au Amazon ML Solution Lab, où il travaille avec les clients AWS dans différents secteurs verticaux pour accélérer leur utilisation de l'apprentissage automatique et des services AWS Cloud pour résoudre leurs défis commerciaux.

Karan Sindwani est Data Scientist chez Amazon ML Solutions Lab, où il construit et déploie des modèles d'apprentissage en profondeur. Il est spécialisé dans le domaine de la vision par ordinateur. Dans ses temps libres, il aime faire de la randonnée.

Soji Adeshina est un scientifique appliqué chez AWS où il développe des modèles basés sur des réseaux de neurones graphiques pour l'apprentissage automatique sur des tâches de graphes avec des applications à la fraude et à l'abus, aux graphes de connaissances, aux systèmes de recommandation et aux sciences de la vie. Dans ses temps libres, il aime lire et cuisiner.

Vidya Sagar Ravipati est responsable chez Amazon ML Solutions Lab, où il met à profit sa vaste expérience des systèmes distribués à grande échelle et sa passion pour l'apprentissage automatique pour aider les clients AWS de différents secteurs verticaux à accélérer leur adoption de l'IA et du cloud.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
Platoblockchain. Intelligence métaverse Web3. Connaissance Amplifiée. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

Horodatage: 20 décembre 2022

Horodatage: 31 mai 2023

Republié par Platon

Réduisez la consommation d'énergie de vos charges de travail de machine learning jusqu'à 90 % grâce aux accélérateurs spécialement conçus par AWS | Services Web Amazon

Annonce de la mise à jour du connecteur Salesforce (V2) pour Amazon Kendra

Annonce de la mise à jour du connecteur Microsoft OneDrive (V2) pour Amazon Kendra

L'instance Amazon EC2 DL2q pour une inférence d'IA rentable et hautes performances est désormais généralement disponible | Services Web Amazon

Intégrez les plates-formes SaaS à Amazon SageMaker pour activer les applications alimentées par ML | Services Web Amazon

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte