Vermogensaanbevelingen en zoeken met behulp van een IMDb-kennisgrafiek

Heruitgegeven door Plato

volgers: 0

Deze driedelige serie demonstreert het gebruik van Graph Neural Networks (GNN's) en Amazone Neptunus om filmaanbevelingen te genereren met behulp van de IMDb en Box Office Mojo Movies/TV/OTT licentieerbaar datapakket, dat een breed scala aan entertainmentmetadata biedt, waaronder meer dan 1 miljard gebruikersbeoordelingen; credits voor meer dan 11 miljoen cast- en crewleden; 9 miljoen film-, tv- en amusementstitels; en wereldwijde box office-rapportagegegevens uit meer dan 60 landen. Veel AWS media- en entertainmentklanten geven licenties voor IMDb-gegevens via AWS-gegevensuitwisseling om de ontdekking van inhoud te verbeteren en de betrokkenheid en retentie van klanten te vergroten.

In Deel 1, bespraken we de toepassingen van GNN's en hoe we onze IMDb-gegevens kunnen transformeren en voorbereiden voor query's. In dit bericht bespreken we het proces van het gebruik van Neptune om inbeddingen te genereren die worden gebruikt om onze zoekopdracht buiten de catalogus in deel 3 uit te voeren. Wij gaan ook over Amazon Neptunus ML, de machine learning (ML)-functie van Neptune en de code die we gebruiken in ons ontwikkelingsproces. In deel 3 laten we zien hoe we onze inbedding van kennisgrafieken kunnen toepassen op een out-of-catalog search use case.

Overzicht oplossingen

Grote verbonden datasets bevatten vaak waardevolle informatie die moeilijk te extraheren is met behulp van query's die alleen op menselijke intuïtie zijn gebaseerd. ML-technieken kunnen helpen bij het vinden van verborgen correlaties in grafieken met miljarden relaties. Deze correlaties kunnen nuttig zijn voor het aanbevelen van producten, het voorspellen van kredietwaardigheid, het identificeren van fraude en vele andere use-cases.

Neptune ML maakt het mogelijk om in uren in plaats van weken bruikbare ML-modellen op grote grafieken te bouwen en te trainen. Om dit te bereiken, maakt Neptune ML gebruik van GNN-technologie aangedreven door Amazon Sage Maker en Diepe Grafiekbibliotheek (DGL) (dat is open source). GNN's zijn een opkomend gebied in kunstmatige intelligentie (zie voor een voorbeeld Een uitgebreid onderzoek naar neurale netwerken van grafieken). Zie voor een praktijkgerichte zelfstudie over het gebruik van GNN's met de DGL Grafische neurale netwerken leren met Deep Graph Library.

In dit bericht laten we zien hoe we Neptune in onze pijplijn kunnen gebruiken om inbeddingen te genereren.

Het volgende diagram geeft de algehele stroom van IMDb-gegevens weer, van het downloaden tot het genereren van inbedding.

We gebruiken de volgende AWS-services om de oplossing te implementeren:

In dit bericht leiden we u door de volgende stappen op hoog niveau:

Stel omgevingsvariabelen in
Maak een exporttaak aan.
Maak een gegevensverwerkingstaak aan.
Dien een opleidingsopdracht in.
Inbeddingen downloaden.

Code voor Neptune ML-commando's

We gebruiken de volgende opdrachten als onderdeel van het implementeren van deze oplossing:

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

Wij gebruiken neptune_ml export om de status te controleren of een Neptune ML-exportproces te starten, en neptune_ml training om de status van een Neptune ML-modeltrainingsopdracht te starten en te controleren.

Raadpleeg voor meer informatie over deze en andere opdrachten Neptune-werkbankmagie gebruiken in uw notitieboekjes.

Voorwaarden

Om dit bericht te volgen, zou je het volgende moeten hebben:

An AWS-account
Bekendheid met SageMaker, Amazon S3 en AWS CloudFormation
Grafiekgegevens geladen in de Neptune-cluster (zie Deel 1 voor meer informatie)

Stel omgevingsvariabelen in

Voordat we beginnen, moet u uw omgeving instellen door de volgende variabelen in te stellen: s3_bucket_uri en processed_folder. s3_bucket_uri is de naam van de emmer die in deel 1 wordt gebruikt en processed_folder is de Amazon S3-locatie voor de uitvoer van de exporttaak.

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

Maak een exporttaak aan

In deel 1 hebben we een SageMaker-notebook en exportservice gemaakt om onze gegevens van het Neptune DB-cluster naar Amazon S3 in het vereiste formaat te exporteren.

Nu onze gegevens zijn geladen en de exportservice is gemaakt, moeten we een exporttaak maken om deze te starten. Hiervoor gebruiken we NeptuneExportApiUri en maak parameters voor de exporttaak. In de volgende code gebruiken we de variabelen expo en export_params. reeks expo aan jouw NeptuneExportApiUri waarde, die u kunt vinden op de Uitgangen tabblad van uw CloudFormation-stack. Voor export_params, gebruiken we het eindpunt van uw Neptune-cluster en geven we de waarde voor outputS3path, de Amazon S3-locatie voor de uitvoer van de exporttaak.

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

Gebruik de volgende opdracht om de exporttaak in te dienen:

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

Gebruik de volgende opdracht om de status van de exporttaak te controleren:

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

Nadat uw taak is voltooid, stelt u de processed_folder variabele om de Amazon S3-locatie van de verwerkte resultaten te geven:

export_results['processed_location']= processed_folder

Maak een gegevensverwerkingstaak aan

Nu de export is voltooid, maken we een gegevensverwerkingstaak om de gegevens voor te bereiden op het Neptune ML-trainingsproces. Dit kan op een aantal verschillende manieren. Voor deze stap kunt u de job_name en modelType variabelen, maar alle andere parameters moeten hetzelfde blijven. Het belangrijkste deel van deze code is de modelType parameter, die ofwel heterogene grafiekmodellen kunnen zijn (heterogeneous) of kennisgrafieken (kge).

De exporttaak omvat ook training-data-configuration.json. Gebruik dit bestand om knooppunten of randen toe te voegen of te verwijderen die u niet voor training wilt gebruiken (als u bijvoorbeeld de koppeling tussen twee knooppunten wilt voorspellen, kunt u die koppeling in dit configuratiebestand verwijderen). Voor deze blogpost gebruiken we het originele configuratiebestand. Voor meer informatie, zie Een trainingsconfiguratiebestand bewerken.

Maak uw gegevensverwerkingstaak aan met de volgende code:

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

Gebruik de volgende opdracht om de status van de exporttaak te controleren:

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

Dien een opleidingsopdracht in

Nadat de verwerkingstaak is voltooid, kunnen we beginnen met onze trainingstaak, waar we onze inbeddingen maken. We raden het instantietype ml.m5.24xlarge aan, maar u kunt dit aanpassen aan uw computerbehoeften. Zie de volgende code:

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

We drukken de variabele training_results af om de ID voor de trainingstaak te krijgen. Gebruik de volgende opdracht om de status van uw taak te controleren:

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

Inbeddingen downloaden

Nadat uw trainingstaak is voltooid, is de laatste stap het downloaden van uw onbewerkte inbeddingen. De volgende stappen laten zien hoe u insluitingen kunt downloaden die zijn gemaakt met KGE (u kunt hetzelfde proces gebruiken voor RGCN).

In de volgende code gebruiken we neptune_ml.get_mapping() en get_embeddings() om het toewijzingsbestand te downloaden (mapping.info) en het bestand met onbewerkte inbeddingen (entity.npy). Vervolgens moeten we de juiste inbeddingen toewijzen aan hun overeenkomstige ID's.

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

Om RGCN's te downloaden, volgt u hetzelfde proces met een nieuwe trainingstaaknaam door de gegevens te verwerken met de parameter modelType ingesteld op heterogeneous, en train vervolgens uw model met de parameter modelName ingesteld op rgcn zien hier voor meer details. Als dat klaar is, belt u de get_mapping en get_embeddings functies om uw nieuwe te downloaden mapping.info en entiteit.npy bestanden. Nadat u de entiteits- en toewijzingsbestanden hebt, is het proces voor het maken van het CSV-bestand identiek.

Upload ten slotte uw inbeddingen naar uw gewenste Amazon S3-locatie:

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

Zorg ervoor dat u deze S3-locatie onthoudt, u zult deze in deel 3 moeten gebruiken.

Opruimen

Wanneer u klaar bent met het gebruik van de oplossing, moet u alle bronnen opschonen om lopende kosten te voorkomen.

Conclusie

In dit bericht hebben we besproken hoe Neptune ML kan worden gebruikt om GNN-inbeddingen van IMDb-gegevens te trainen.

Sommige verwante toepassingen van inbedding van kennisgrafieken zijn concepten zoals zoeken buiten de catalogus, inhoudsaanbevelingen, gerichte advertenties, het voorspellen van ontbrekende links, algemeen zoeken en cohortanalyse. Zoeken buiten de catalogus is het zoeken naar inhoud die niet van u is, en het vinden of aanbevelen van inhoud in uw catalogus die zo dicht mogelijk aansluit bij wat de gebruiker zocht. In deel 3 gaan we dieper in op zoeken buiten de catalogus.

Over de auteurs

Matthijs Rhodos is een datawetenschapper die ik werk in het Amazon ML Solutions Lab. Hij is gespecialiseerd in het bouwen van Machine Learning-pijplijnen met concepten als Natural Language Processing en Computer Vision.

Divya Bhargavi is Data Scientist en Media and Entertainment Vertical Lead bij het Amazon ML Solutions Lab, waar ze hoogwaardige zakelijke problemen voor AWS-klanten oplost met behulp van Machine Learning. Ze werkt aan het begrijpen van afbeeldingen/video's, aanbevelingssystemen voor kennisgrafieken en gebruiksscenario's voor voorspellende advertenties.

Gaurav Rele is een datawetenschapper bij het Amazon ML Solution Lab, waar hij samenwerkt met AWS-klanten in verschillende branches om hun gebruik van machine learning en AWS Cloud-services te versnellen om hun zakelijke uitdagingen op te lossen.

Karan Sindwani is een Data Scientist bij Amazon ML Solutions Lab, waar hij deep learning-modellen bouwt en implementeert. Hij is gespecialiseerd op het gebied van computervisie. In zijn vrije tijd houdt hij van wandelen.

Soji Adeshin is een toegepaste wetenschapper bij AWS, waar hij op grafische neurale netwerken gebaseerde modellen ontwikkelt voor machine learning op grafische taken met toepassingen voor fraude en misbruik, kennisgrafieken, aanbevelingssystemen en levenswetenschappen. In zijn vrije tijd houdt hij van lezen en koken.

Vidya Sagar Ravipati is een manager bij het Amazon ML Solutions Lab, waar hij zijn enorme ervaring in grootschalige gedistribueerde systemen en zijn passie voor machine learning gebruikt om AWS-klanten in verschillende branches te helpen hun AI- en cloud-adoptie te versnellen.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
Bron: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

Tijdstempel: 20 december 2022

Tijdstempel: 1-2024-XNUMX

Heruitgegeven door Plato

Ontwerp met modulaire functies voor Advanced Driver Assistance Systems (ADAS) op AWS

Importeer gegevens uit meer dan 40 gegevensbronnen voor machine learning zonder code met Amazon SageMaker Canvas

Hosting van YOLOv8 PyTorch-modellen op Amazon SageMaker Endpoints

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account