Kraftanbefalinger og søk ved hjelp av en IMDb-kunnskapsgraf

Publisert av Platon

Følgere: 0

Denne tredelte serien viser hvordan du bruker grafiske nevrale nettverk (GNN) og Amazon Neptun for å generere filmanbefalinger ved hjelp av IMDb og Box Office Mojo Movies/TV/OTT lisensierbar datapakke, som gir et bredt spekter av underholdningsmetadata, inkludert over 1 milliard brukervurderinger; kreditter for mer enn 11 millioner rollebesetnings- og besetningsmedlemmer; 9 millioner film-, TV- og underholdningstitler; og globale billettkontorrapporteringsdata fra mer enn 60 land. Mange AWS medie- og underholdningskunder lisensierer IMDb-data gjennom AWS datautveksling for å forbedre innholdsoppdagelsen og øke kundeengasjement og -oppbevaring.

In Del 1, diskuterte vi applikasjonene til GNN-er, og hvordan vi kan transformere og forberede IMDb-dataene våre for spørring. I dette innlegget diskuterer vi prosessen med å bruke Neptun til å generere innebygginger som brukes til å utføre vårt søk utenfor katalogen i del 3. Vi går også over Amazon Neptune ML, maskinlæringsfunksjonen (ML) til Neptune, og koden vi bruker i utviklingsprosessen vår. I del 3 går vi gjennom hvordan vi kan bruke kunnskapsgrafinnbyggingene våre på et søk utenfor katalogen.

Løsningsoversikt

Store tilkoblede datasett inneholder ofte verdifull informasjon som kan være vanskelig å trekke ut ved å bruke spørringer basert på menneskelig intuisjon alene. ML-teknikker kan hjelpe med å finne skjulte korrelasjoner i grafer med milliarder av relasjoner. Disse korrelasjonene kan være nyttige for å anbefale produkter, forutsi kredittverdighet, identifisere svindel og mange andre brukstilfeller.

Neptune ML gjør det mulig å bygge og trene nyttige ML-modeller på store grafer i timer i stedet for uker. For å oppnå dette bruker Neptune ML GNN-teknologi drevet av Amazon SageMaker og Deep Graph Library (DGL) (som er åpen kildekode). GNN-er er et voksende felt innen kunstig intelligens (se for eksempel En omfattende undersøkelse om grafiske nevrale nettverk). For en praktisk veiledning om bruk av GNN-er med DGL, se Lær grafiske nevrale nettverk med Deep Graph Library.

I dette innlegget viser vi hvordan du bruker Neptune i vår pipeline for å generere innbygginger.

Følgende diagram viser den generelle flyten av IMDb-data fra nedlasting til generering av innebygging.

Vi bruker følgende AWS-tjenester for å implementere løsningen:

I dette innlegget leder vi deg gjennom følgende trinn på høyt nivå:

Sett opp miljøvariabler
Opprett en eksportjobb.
Opprett en databehandlingsjobb.
Send inn en treningsjobb.
Last ned embeddings.

Kode for Neptune ML-kommandoer

Vi bruker følgende kommandoer som en del av implementeringen av denne løsningen:

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

Vi bruker neptune_ml export for å sjekke statusen eller starte en Neptune ML eksportprosess, og neptune_ml training for å starte og sjekke statusen til en Neptune ML modelltreningsjobb.

For mer informasjon om disse og andre kommandoer, se Bruke Neptune arbeidsbenk magi i notatbøkene dine.

Forutsetninger

For å følge med på dette innlegget bør du ha følgende:

An AWS-konto
Kjennskap til SageMaker, Amazon S3 og AWS CloudFormation
Grafer data som er lastet inn i Neptun-klyngen (se Del 1 for mer informasjon)

Sett opp miljøvariabler

Før vi begynner, må du sette opp miljøet ditt ved å angi følgende variabler: s3_bucket_uri og processed_folder. s3_bucket_uri er navnet på bøtta som ble brukt i del 1 og processed_folder er Amazon S3-lokasjonen for utdata fra eksportjobben.

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

Opprett en eksportjobb

I del 1 opprettet vi en SageMaker notatbok og eksporttjeneste for å eksportere dataene våre fra Neptune DB-klyngen til Amazon S3 i det nødvendige formatet.

Nå som dataene våre er lastet inn og eksporttjenesten er opprettet, må vi opprette en eksportjobb og starte den. For å gjøre dette bruker vi NeptuneExportApiUri og opprette parametere for eksportjobben. I den følgende koden bruker vi variablene expo og export_params. Sett expo til din NeptuneExportApiUri verdi, som du kan finne på Utganger fanen i CloudFormation-stakken. Til export_params, bruker vi endepunktet til Neptun-klyngen og oppgir verdien for outputS3path, som er Amazon S3-lokasjonen for utdata fra eksportjobben.

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

For å sende inn eksportjobben, bruk følgende kommando:

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

For å sjekke statusen til eksportjobben, bruk følgende kommando:

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

Etter at jobben er fullført, still inn processed_folder variabel for å gi Amazon S3-plasseringen til de behandlede resultatene:

export_results['processed_location']= processed_folder

Opprett en databehandlingsjobb

Nå som eksporten er ferdig, oppretter vi en databehandlingsjobb for å forberede dataene for Neptune ML-treningsprosessen. Dette kan gjøres på flere forskjellige måter. For dette trinnet kan du endre job_name og modelType variabler, men alle andre parametere må forbli de samme. Hoveddelen av denne koden er modelType parameter, som enten kan være heterogene grafmodeller (heterogeneous) eller kunnskapsgrafer (kge).

Eksportjobben inkluderer også training-data-configuration.json. Bruk denne filen til å legge til eller fjerne eventuelle noder eller kanter som du ikke vil gi til trening (hvis du for eksempel vil forutsi koblingen mellom to noder, kan du fjerne den koblingen i denne konfigurasjonsfilen). For dette blogginnlegget bruker vi den originale konfigurasjonsfilen. For ytterligere informasjon, se Redigere en treningskonfigurasjonsfil.

Opprett databehandlingsjobben din med følgende kode:

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

For å sjekke statusen til eksportjobben, bruk følgende kommando:

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

Send inn en treningsjobb

Etter at prosesseringsjobben er fullført, kan vi begynne treningsjobben vår, det er der vi lager innbyggingene våre. Vi anbefaler en forekomsttype på ml.m5.24xlarge, men du kan endre denne for å passe dine databehov. Se følgende kode:

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

Vi skriver ut variabelen training_results for å få ID for treningsjobben. Bruk følgende kommando for å sjekke statusen til jobben din:

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

Last ned embeddings

Etter at treningsjobben er fullført, er det siste trinnet å laste ned de rå innbyggingene. Følgende trinn viser deg hvordan du laster ned innebygginger opprettet ved å bruke KGE (du kan bruke samme prosess for RGCN).

I følgende kode bruker vi neptune_ml.get_mapping() og get_embeddings() for å laste ned kartfilen (mapping.info) og den rå innebyggingsfilen (entity.npy). Deretter må vi kartlegge de riktige innebyggingene til deres tilsvarende IDer.

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

For å laste ned RGCN-er, følg den samme prosessen med et nytt treningsjobbnavn ved å behandle dataene med parameteren modelType satt til heterogeneous, og tren deretter modellen med parameteren modelName satt til rgcn se her. for flere detaljer. Når det er ferdig, ring get_mapping og get_embeddings funksjoner for å laste ned din nye mapping.info og entity.npy filer. Etter at du har enhets- og tilordningsfilene, er prosessen for å lage CSV-filen identisk.

Til slutt laster du opp innebyggingene dine til ønsket Amazon S3-plassering:

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

Sørg for at du husker denne S3-plasseringen, du må bruke den i del 3.

Rydd opp

Når du er ferdig med å bruke løsningen, sørg for å rydde opp i eventuelle ressurser for å unngå pågående kostnader.

konklusjonen

I dette innlegget diskuterte vi hvordan du bruker Neptune ML til å trene GNN-innbygginger fra IMDb-data.

Noen relaterte applikasjoner for innbygging av kunnskapsgrafer er konsepter som søk utenfor katalogen, innholdsanbefalinger, målrettet annonsering, forutsigelse av manglende lenker, generelt søk og kohortanalyse. Utenfor katalogsøk er prosessen med å søke etter innhold du ikke eier, og finne eller anbefale innhold i katalogen din som er så nær det brukeren søkte på som mulig. Vi dykker dypere inn i søk utenfor katalogen i del 3.

Om forfatterne

Matthew Rhodes er en dataforsker jeg jobber i Amazon ML Solutions Lab. Han spesialiserer seg på å bygge Machine Learning-pipelines som involverer konsepter som Natural Language Processing og Computer Vision.

Divya Bhargavi er dataforsker og vertikal leder for media og underholdning ved Amazon ML Solutions Lab, hvor hun løser forretningsproblemer med høy verdi for AWS-kunder ved hjelp av maskinlæring. Hun jobber med bilde-/videoforståelse, anbefalingssystemer for kunnskapsgrafer, brukstilfeller for prediktiv annonsering.

Gaurav Rele er dataforsker ved Amazon ML Solution Lab, hvor han jobber med AWS-kunder på tvers av forskjellige vertikaler for å akselerere bruken av maskinlæring og AWS Cloud-tjenester for å løse deres forretningsutfordringer.

Karan Sindwani er dataforsker ved Amazon ML Solutions Lab, hvor han bygger og implementerer dyplæringsmodeller. Han har spesialisert seg på området datasyn. På fritiden liker han å gå tur.

Soji Adeshina er en Applied Scientist ved AWS hvor han utvikler grafiske nevrale nettverksbaserte modeller for maskinlæring på grafoppgaver med applikasjoner for svindel og misbruk, kunnskapsgrafer, anbefalingssystemer og biovitenskap. På fritiden liker han å lese og lage mat.

Vidya Sagar Ravipati er en leder ved Amazon ML Solutions Lab, hvor han utnytter sin store erfaring innen distribuerte systemer i stor skala og sin lidenskap for maskinlæring for å hjelpe AWS-kunder på tvers av ulike bransjevertikaler med å akselerere deres AI og skyadopsjon.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

Tidstempel: Desember 20, 2022

Tidstempel: Februar 28, 2023

Publisert av Platon

Tilpass uttalen ved å bruke Amazon Polly

Ukentlige prognoser kan nå starte på søndag med Amazon Forecast

Identifiser potensiell rotårsak til forretningskritiske anomalier ved å bruke Amazon Lookout for Metrics

Automatiser dokumentvalidering og svindeldeteksjon i pantegarantiprosessen ved å bruke AWS AI-tjenester: Del 1 | Amazon Web Services

Forbedre forskning med høy verdi med Hugging Face og Amazon SageMaker asynkrone inferensendepunkter

Tilpass varslene dine enkelt mens du bruker Amazon Lookout for Metrics

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn