Power Recommendations And Search Using An IMDb Knowledge Graph

Újra kiadta Platón

Követő: 0

Ez a három részből álló sorozat bemutatja a gráf neurális hálózatok (GNN) és Amazon Neptun filmajánlások generálásához a IMDb és Box Office Mojo Movies/TV/OTT licencelhető adatcsomag, amely szórakoztató metaadatok széles skáláját kínálja, beleértve több mint 1 milliárd felhasználói értékelést; hitelek több mint 11 millió szereplőnek és stábtagnak; 9 millió film, TV és szórakoztató műsor; és több mint 60 ország globális kasszajelentési adatai. Sok AWS média- és szórakoztatóügyfél licenccel az IMDb-adatokon keresztül AWS adatcsere a tartalomfelfedezés javítása, valamint az ügyfelek elkötelezettségének és megtartásának növelése.

In rész 1, megvitattuk a GNN-ek alkalmazásait, valamint azt, hogyan alakítsuk át és készítsük elő IMDb-adatainkat lekérdezésre. Ebben a bejegyzésben a Neptune használatával a 3. részben a katalóguson kívüli kereséshez használt beágyazások generálására szolgáló folyamatot tárgyaljuk. Mi is átmegyünk Amazon Neptune ML, a Neptune gépi tanulási (ML) funkciója és a fejlesztési folyamatunkban használt kód. A 3. részben végigjárjuk, hogyan alkalmazhatjuk tudásgráf-beágyazásainkat egy katalóguson kívüli keresési használati esetre.

Megoldás áttekintése

A nagy összekapcsolt adatkészletek gyakran olyan értékes információkat tartalmaznak, amelyeket nehéz kinyerni pusztán emberi intuíción alapuló lekérdezések segítségével. Az ML technikák segíthetnek megtalálni a rejtett összefüggéseket több milliárd összefüggést tartalmazó gráfokban. Ezek az összefüggések hasznosak lehetnek a termékek ajánlásában, a hitelképesség előrejelzésében, a csalások azonosításában és sok más felhasználási esetben.

A Neptune ML lehetővé teszi a hasznos ML modellek felépítését és betanítását nagy grafikonokon, hetek helyett órákban. Ennek eléréséhez a Neptune ML a GNN technológiát használja, amelyet Amazon SageMaker és a Deep Graph Library (DGL) (ami nyílt forráskódú). A GNN-ek a mesterséges intelligencia feltörekvő területei (például lásd Átfogó felmérés a gráf neurális hálózatokról). A GNN-ek DGL-lel való használatáról szóló gyakorlati útmutatóért lásd: Gráf neurális hálózatok tanulása a Deep Graph Library segítségével.

Ebben a bejegyzésben bemutatjuk, hogyan használhatjuk a Neptune-t a folyamatunkban a beágyazások generálására.

A következő diagram az IMDb adatok teljes áramlását mutatja a letöltéstől a beágyazásig.

A megoldás megvalósításához az alábbi AWS szolgáltatásokat használjuk:

Ebben a bejegyzésben a következő magas szintű lépéseken mutatjuk be:

Állítsa be a környezeti változókat
Hozzon létre egy exportálási feladatot.
Hozzon létre egy adatfeldolgozási feladatot.
Adjon be képzési munkát.
Beágyazások letöltése.

A Neptune ML parancsok kódja

A megoldás megvalósításának részeként a következő parancsokat használjuk:

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

Az általunk használt neptune_ml export az állapot ellenőrzéséhez vagy a Neptune ML exportálási folyamat elindításához, és neptune_ml training egy Neptune ML modell képzési feladat elindításához és állapotának ellenőrzéséhez.

Ezekkel és más parancsokkal kapcsolatos további információkért lásd: Neptune munkapad varázslatok használata a notebookokban.

Előfeltételek

A bejegyzés követéséhez a következőkre van szüksége:

An AWS-fiók
A SageMaker, az Amazon S3 és az AWS CloudFormation ismerete
A Neptune-fürtbe betöltött grafikon adatok (lásd rész 1 további információért)

Állítsa be a környezeti változókat

Mielőtt elkezdené, be kell állítania a környezetét a következő változók beállításával: s3_bucket_uri és a processed_folder. s3_bucket_uri az 1. részben használt vödör neve és processed_folder az Amazon S3 helye az exportálási feladat kimenetének.

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

Hozzon létre egy exportálási feladatot

Az 1. részben létrehoztunk egy SageMaker notebook és export szolgáltatást, amellyel a Neptune DB fürtből az Amazon S3-ba exportálhatjuk adatainkat a szükséges formátumban.

Most, hogy adataink betöltődnek, és az exportszolgáltatás létrejött, létre kell hoznunk egy exportálási feladatot, és elindítani kell. Ehhez használjuk NeptuneExportApiUri és hozzon létre paramétereket az exportálási feladathoz. A következő kódban a változókat használjuk expo és a export_params. Készlet expo a NeptuneExportApiUri érték, amelyet megtalálhat a Kimenetek a CloudFormation verem lapját. Mert export_params, a Neptune-fürt végpontját használjuk, és megadjuk az értéket outputS3path, amely az Amazon S3 helye az exportálási feladat kimenetének.

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

Az exportálási feladat elküldéséhez használja a következő parancsot:

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

Az exportálási feladat állapotának ellenőrzéséhez használja a következő parancsot:

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

A munka befejezése után állítsa be a processed_folder változó, amely megadja a feldolgozott eredmények Amazon S3 helyét:

export_results['processed_location']= processed_folder

Hozzon létre egy adatfeldolgozási feladatot

Most, hogy az exportálás megtörtént, létrehozunk egy adatfeldolgozási feladatot, amely előkészíti az adatokat a Neptune ML képzési folyamathoz. Ezt többféleképpen is megteheti. Ehhez a lépéshez módosíthatja a job_name és a modelType változókat, de az összes többi paraméternek változatlannak kell maradnia. Ennek a kódnak a fő része a modelType paraméter, amely lehet heterogén gráfmodell (heterogeneous) vagy tudásgráfok (kge).

Az export munkakörbe tartozik még training-data-configuration.json. Ezzel a fájllal adhat hozzá vagy távolíthat el minden olyan csomópontot vagy élt, amelyet nem szeretne biztosítani a betanításhoz (ha például meg szeretné jósolni két csomópont közötti kapcsolatot, eltávolíthatja a hivatkozást ebben a konfigurációs fájlban). Ehhez a blogbejegyzéshez az eredeti konfigurációs fájlt használjuk. További információkért lásd Edzés konfigurációs fájl szerkesztése.

Hozza létre adatfeldolgozási feladatát a következő kóddal:

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

Az exportálási feladat állapotának ellenőrzéséhez használja a következő parancsot:

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

Adjon be képzési munkát

A feldolgozási munka befejezése után megkezdhetjük a betanítási munkánkat, ahol létrehozzuk a beágyazásainkat. Javasoljuk az ml.m5.24xlarge példánytípust, de ezt megváltoztathatja számítási igényeinek megfelelően. Lásd a következő kódot:

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

Kinyomtatjuk a training_results változót, hogy megkapjuk a képzési feladat azonosítóját. A feladat állapotának ellenőrzéséhez használja a következő parancsot:

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

Beágyazások letöltése

A betanítási feladat befejezése után az utolsó lépés a nyers beágyazások letöltése. A következő lépések bemutatják, hogyan töltheti le a KGE használatával létrehozott beágyazásokat (ugyanezt a folyamatot használhatja az RGCN-hez is).

A következő kódban használjuk neptune_ml.get_mapping() és a get_embeddings() a leképezési fájl letöltéséhez (mapping.info) és a nyers beágyazási fájl (entity.npy). Ezután hozzá kell rendelnünk a megfelelő beágyazásokat a megfelelő azonosítókhoz.

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

Az RGCN-ek letöltéséhez kövesse ugyanazt a folyamatot egy új betanítási feladatnévvel úgy, hogy feldolgozza az adatokat a modelType paraméter beállításával heterogeneous, majd betanítja a modellt a modelName paraméter beállításával rgcn lát itt további részletekért. Ha ez kész, hívja a get_mapping és a get_embeddings funkciókat az új letöltéséhez mapping.info és a entity.npy fájlokat. Miután megvan az entitás és a leképezési fájlok, a CSV-fájl létrehozásának folyamata megegyezik.

Végül töltse fel beágyazásait a kívánt Amazon S3 helyre:

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

Ügyeljen arra, hogy emlékezzen erre az S3-as helyre, ezt a 3. részben kell használnia.

Tisztítsuk meg

Ha végzett a megoldással, ne felejtse el megtisztítani az erőforrásokat, hogy elkerülje a folyamatos költségeket.

Következtetés

Ebben a bejegyzésben megvitattuk, hogyan használhatjuk a Neptune ML-t a GNN-beágyazások IMDb-adatokból történő betanításához.

A tudásgráf-beágyazások egyes kapcsolódó alkalmazásai olyan fogalmak, mint a katalóguson kívüli keresés, tartalmi ajánlások, célzott hirdetések, hiányzó hivatkozások előrejelzése, általános keresés és kohorszelemzés. A katalóguson kívüli keresés olyan tartalom keresésének folyamata, amely nem az Ön tulajdonában van, és olyan tartalmat keres vagy ajánl a katalógusában, amely a lehető legközelebb áll ahhoz, amit a felhasználó keresett. A 3. részben mélyebben belemerülünk a katalóguson kívüli keresésbe.

A szerzőkről

Matthew Rhodes adatkutató, az Amazon ML Solutions Lab-ban dolgozom. Olyan gépi tanulási folyamatok építésére specializálódott, amelyek olyan fogalmakat foglalnak magukban, mint a Natural Language Processing és a Computer Vision.

Divya Bhargavi Data Scientist és Media and Entertainment vertikális vezető az Amazon ML Solutions Labnál, ahol nagy értékű üzleti problémákat old meg az AWS-ügyfelek számára a Machine Learning segítségével. Kép/videó megértéssel, tudásgrafikon ajánlórendszerekkel, prediktív hirdetéshasználati esetekkel foglalkozik.

Gaurav Rele adattudós az Amazon ML Solution Labnál, ahol az AWS-ügyfelekkel dolgozik különböző ágazatokban, hogy felgyorsítsa a gépi tanulás és az AWS felhőszolgáltatások használatát üzleti kihívásaik megoldása érdekében.

Karan Sindwani az Amazon ML Solutions Lab adatkutatója, ahol mély tanulási modelleket épít és telepít. Szakterülete a számítógépes látás. Szabadidejében szívesen túrázik.

Soji Adeshina Alkalmazott tudós az AWS-nél, ahol gráf-neurális hálózat alapú modelleket fejleszt gépi tanuláshoz gráffeladatokon, csalással és visszaélésekkel, tudásgráfokkal, ajánlórendszerekkel és élettudományokkal kapcsolatos alkalmazásokkal. Szabadidejében szívesen olvas és főz.

Vidya Sagar Ravipati az Amazon ML Solutions Lab menedzsere, ahol a nagyszabású elosztott rendszerek terén szerzett hatalmas tapasztalatát és a gépi tanulás iránti szenvedélyét hasznosítja, hogy segítse az AWS ügyfeleit a különböző iparágakban az AI és a felhő alkalmazásának felgyorsításában.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

Időbélyeg: December 20, 2022

Időbélyeg: 22. március 2022.

Újra kiadta Platón

Az Amazon SageMaker beépített LightGBM mostantól elosztott képzést kínál a Dask használatával

Készítsen adatokat a Databricksből a gépi tanuláshoz az Amazon SageMaker Data Wrangler segítségével

Használja a Snowflake-et adatforrásként az ML modellek képzéséhez az Amazon SageMaker segítségével

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók