Power-anbefalinger og søgning ved hjælp af en IMDb-vidensgraf

Genudgivet af Platon

Abonnenter: 0

Denne serie i tre dele demonstrerer, hvordan man bruger grafiske neurale netværk (GNN'er) og Amazon Neptun at generere filmanbefalinger ved hjælp af IMDb og Box Office Mojo Movies/TV/OTT licenserbar datapakke, som giver en bred vifte af underholdningsmetadata, inklusive over 1 milliard brugervurderinger; kreditter til mere end 11 millioner medvirkende og besætningsmedlemmer; 9 millioner film-, tv- og underholdningstitler; og globale box office-rapporteringsdata fra mere end 60 lande. Mange AWS medie- og underholdningskunder licenserer IMDb-data igennem AWS dataudveksling at forbedre indholdsopdagelsen og øge kundernes engagement og fastholdelse.

In del 1, vi diskuterede anvendelserne af GNN'er, og hvordan man transformerer og forbereder vores IMDb-data til forespørgsel. I dette indlæg diskuterer vi processen med at bruge Neptun til at generere indlejringer, der bruges til at udføre vores søgning uden for kataloget i del 3. Vi går også over Amazon Neptune ML, maskinlæringsfunktionen (ML) i Neptune og den kode, vi bruger i vores udviklingsproces. I del 3 gennemgår vi, hvordan vi anvender vores vidensgrafindlejringer på en søgning uden for kataloget.

Løsningsoversigt

Store forbundne datasæt indeholder ofte værdifuld information, som kan være svær at udtrække ved hjælp af forespørgsler baseret på menneskelig intuition alene. ML-teknikker kan hjælpe med at finde skjulte sammenhænge i grafer med milliarder af relationer. Disse korrelationer kan være nyttige til at anbefale produkter, forudsige kreditværdighed, identificere svindel og mange andre brugssager.

Neptune ML gør det muligt at bygge og træne nyttige ML-modeller på store grafer i timer i stedet for uger. For at opnå dette bruger Neptune ML GNN-teknologi drevet af Amazon SageMaker og Deep Graph Library (DGL) (som er open source). GNN'er er et spirende felt inden for kunstig intelligens (se for eksempel En omfattende undersøgelse af grafiske neurale netværk). For en praktisk vejledning om brug af GNN'er med DGL, se Lær grafiske neurale netværk med Deep Graph Library.

I dette indlæg viser vi, hvordan man bruger Neptun i vores pipeline til at generere indlejringer.

Følgende diagram viser det overordnede flow af IMDb-data fra download til indlejringsgenerering.

Vi bruger følgende AWS-tjenester til at implementere løsningen:

I dette indlæg leder vi dig gennem følgende trin på højt niveau:

Opsæt miljøvariabler
Opret et eksportjob.
Opret et databehandlingsjob.
Indsend et træningsjob.
Download indlejringer.

Kode til Neptune ML-kommandoer

Vi bruger følgende kommandoer som en del af implementeringen af denne løsning:

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

Vi anvender neptune_ml export for at kontrollere status eller starte en Neptune ML eksportproces, og neptune_ml training for at starte og kontrollere status for et Neptune ML model træningsjob.

For mere information om disse og andre kommandoer, se Brug af Neptune workbench magics i dine notesbøger.

Forudsætninger

For at følge med i dette indlæg skal du have følgende:

An AWS-konto
Kendskab til SageMaker, Amazon S3 og AWS CloudFormation
Grafdata indlæst i Neptun-klyngen (se del 1 for mere information)

Opsæt miljøvariabler

Før vi begynder, skal du konfigurere dit miljø ved at indstille følgende variabler: s3_bucket_uri , processed_folder. s3_bucket_uri er navnet på den spand, der blev brugt i del 1 og processed_folder er Amazon S3-lokationen for output fra eksportjobbet.

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

Opret et eksportjob

I del 1 oprettede vi en SageMaker notesbog og eksporttjeneste til at eksportere vores data fra Neptune DB-klyngen til Amazon S3 i det krævede format.

Nu hvor vores data er indlæst, og eksporttjenesten er oprettet, skal vi oprette et eksportjob og starte det. For at gøre dette bruger vi NeptuneExportApiUri og oprette parametre for eksportjobbet. I den følgende kode bruger vi variablerne expo , export_params. Sæt expo til din NeptuneExportApiUri værdi, som du kan finde på Udgange fanen på din CloudFormation-stak. Til export_params, bruger vi endepunktet for din Neptun-klynge og angiver værdien for outputS3path, som er Amazon S3-lokationen for output fra eksportjobbet.

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

Brug følgende kommando for at indsende eksportjobbet:

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

Brug følgende kommando for at kontrollere status for eksportjobbet:

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

Når dit job er fuldført, skal du indstille processed_folder variabel for at angive Amazon S3-placeringen af de behandlede resultater:

export_results['processed_location']= processed_folder

Opret et databehandlingsjob

Nu hvor eksporten er færdig, opretter vi et databehandlingsjob for at forberede dataene til Neptune ML træningsprocessen. Dette kan gøres på et par forskellige måder. For dette trin kan du ændre job_name , modelType variabler, men alle andre parametre skal forblive de samme. Hoveddelen af denne kode er modelType parameter, som enten kan være heterogene grafmodeller (heterogeneous) eller vidensgrafer (kge).

Eksportjobbet omfatter også training-data-configuration.json. Brug denne fil til at tilføje eller fjerne eventuelle noder eller kanter, som du ikke ønsker at give til træning (hvis du f.eks. vil forudsige linket mellem to noder, kan du fjerne det link i denne konfigurationsfil). Til dette blogindlæg bruger vi den originale konfigurationsfil. For yderligere information, se Redigering af en træningskonfigurationsfil.

Opret dit databehandlingsjob med følgende kode:

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

Brug følgende kommando for at kontrollere status for eksportjobbet:

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

Indsend et træningsjob

Når forarbejdningsjobbet er afsluttet, kan vi begynde vores træningsjob, hvor vi skaber vores indlejringer. Vi anbefaler en instanstype på ml.m5.24xlarge, men du kan ændre dette, så det passer til dine computerbehov. Se følgende kode:

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

Vi udskriver variablen training_results for at få ID'et for træningsjobbet. Brug følgende kommando til at kontrollere status for dit job:

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

Download indlejringer

Når dit træningsjob er fuldført, er det sidste trin at downloade dine rå indlejringer. De følgende trin viser dig, hvordan du downloader indlejringer oprettet ved hjælp af KGE (du kan bruge den samme proces til RGCN).

I den følgende kode bruger vi neptune_ml.get_mapping() , get_embeddings() for at downloade kortfilen (mapping.info) og den rå indlejringsfil (entity.npy). Så skal vi kortlægge de relevante indlejringer til deres tilsvarende ID'er.

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

For at downloade RGCN'er skal du følge den samme proces med et nyt træningsjobnavn ved at behandle dataene med modelType-parameteren indstillet til heterogeneous, og derefter træne din model med parameteren modelName indstillet til rgcn se link. for flere detaljer. Når det er færdigt, ring til get_mapping , get_embeddings funktioner til at downloade din nye mapping.info , entity.npy filer. Når du har entitets- og tilknytningsfilerne, er processen til at oprette CSV-filen identisk.

Til sidst skal du uploade dine indlejringer til din ønskede Amazon S3-placering:

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

Sørg for at huske denne S3-placering, du skal bruge den i del 3.

Ryd op

Når du er færdig med at bruge løsningen, skal du sørge for at rydde op i eventuelle ressourcer for at undgå løbende opkrævninger.

Konklusion

I dette indlæg diskuterede vi, hvordan man bruger Neptune ML til at træne GNN-indlejringer fra IMDb-data.

Nogle relaterede anvendelser af videngrafindlejringer er begreber som søgning uden for kataloget, indholdsanbefalinger, målrettet annoncering, forudsigelse af manglende links, generel søgning og kohorteanalyse. Søgning uden for katalog er processen med at søge efter indhold, som du ikke ejer, og finde eller anbefale indhold, der er i dit katalog, som er så tæt på det, som brugeren søgte efter som muligt. Vi dykker dybere ned i søgning uden for kataloget i del 3.

Om forfatterne

Matthew Rhodes er dataforsker, jeg arbejder i Amazon ML Solutions Lab. Han har specialiseret sig i at bygge Machine Learning pipelines, der involverer begreber som Natural Language Processing og Computer Vision.

Divya Bhargavi er Data Scientist og Media and Entertainment Vertical Lead hos Amazon ML Solutions Lab, hvor hun løser forretningsproblemer af høj værdi for AWS-kunder ved hjælp af Machine Learning. Hun arbejder med billed-/videoforståelse, vidensgrafanbefalingssystemer, prædiktiv annonceringsbrug.

Gaurav Rele er dataforsker ved Amazon ML Solution Lab, hvor han arbejder med AWS-kunder på tværs af forskellige vertikaler for at accelerere deres brug af machine learning og AWS Cloud-tjenester til at løse deres forretningsmæssige udfordringer.

Karan Sindwani er Data Scientist hos Amazon ML Solutions Lab, hvor han bygger og implementerer deep learning-modeller. Han har specialiseret sig inden for computersyn. I sin fritid nyder han at vandre.

Soji Adeshina er en Applied Scientist hos AWS, hvor han udvikler grafiske neurale netværksbaserede modeller til maskinlæring på grafopgaver med applikationer til bedrageri og misbrug, vidensgrafer, anbefalingssystemer og biovidenskab. I sin fritid nyder han at læse og lave mad.

Vidya Sagar Ravipati er leder hos Amazon ML Solutions Lab, hvor han udnytter sin store erfaring med distribuerede systemer i stor skala og sin passion for maskinlæring til at hjælpe AWS-kunder på tværs af forskellige brancher med at accelerere deres AI og cloud-adoption.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

Tidsstempel: 20. December, 2022

Tidsstempel: April 24, 2023

Genudgivet af Platon

AWS og Hugging Face samarbejder om at gøre generativ kunstig intelligens mere tilgængelig og omkostningseffektiv

Byg en serverløs mødeopsummeringsbackend med store sprogmodeller på Amazon SageMaker JumpStart | Amazon Web Services

Vidensbaser i Amazon Bedrock forenkler nu at stille spørgsmål til et enkelt dokument | Amazon Web Services

Fremskynd Amazon Lex chatbot-udviklingslivscyklussen med Test Workbench | Amazon Web Services

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto