Rekomendasi Daya Dan Pencarian Menggunakan Grafik Pengetahuan IMDb

Diterbitkan Ulang Oleh Plato

Followers: 0

Seri tiga bagian ini menunjukkan cara menggunakan jaringan saraf graf (GNN) dan Amazon Neptunus untuk menghasilkan rekomendasi film menggunakan Film IMDb dan Box Office Mojo/TV/OTT paket data yang dapat dilisensikan, yang menyediakan beragam metadata hiburan, termasuk lebih dari 1 miliar peringkat pengguna; kredit untuk lebih dari 11 juta pemain dan kru; 9 juta judul film, TV, dan hiburan; dan data pelaporan box office global dari lebih dari 60 negara. Banyak pelanggan media dan hiburan AWS melisensikan data IMDb melalui Pertukaran Data AWS untuk meningkatkan penemuan konten dan meningkatkan keterlibatan dan retensi pelanggan.

In bagian 1, kami membahas aplikasi GNN, dan cara mengubah dan menyiapkan data IMDb kami untuk kueri. Dalam postingan ini, kami membahas proses penggunaan Neptunus untuk menghasilkan penyematan yang digunakan untuk melakukan pencarian di luar katalog di Bagian 3 . Kami juga pergi Amazon Neptunus ML, fitur pembelajaran mesin (ML) dari Neptune, dan kode yang kami gunakan dalam proses pengembangan kami. Di Bagian 3 , kita membahas cara menerapkan penyematan grafik pengetahuan kita ke kasus penggunaan penelusuran di luar katalog.

Ikhtisar solusi

Kumpulan data besar yang terhubung sering kali berisi informasi berharga yang sulit diekstrak menggunakan kueri berdasarkan intuisi manusia saja. Teknik ML dapat membantu menemukan korelasi tersembunyi dalam grafik dengan miliaran hubungan. Korelasi ini dapat berguna untuk merekomendasikan produk, memprediksi kelayakan kredit, mengidentifikasi penipuan, dan banyak kasus penggunaan lainnya.

Neptune ML memungkinkan untuk membuat dan melatih model ML yang berguna pada grafik besar dalam hitungan jam, bukan minggu. Untuk mencapai hal ini, Neptune ML menggunakan teknologi GNN yang didukung oleh Amazon SageMaker dan Perpustakaan Grafik Dalam (DGL) (yang mana open-source). GNN adalah bidang baru dalam kecerdasan buatan (sebagai contoh, lihat Survei Komprehensif tentang Jaringan Syaraf Graf). Untuk tutorial langsung tentang penggunaan GNN dengan DGL, lihat Mempelajari jaringan saraf grafik dengan Deep Graph Library.

Dalam postingan ini, kami menunjukkan cara menggunakan Neptunus di pipeline kami untuk membuat penyematan.

Diagram berikut menggambarkan keseluruhan aliran data IMDb dari unduhan hingga pembuatan penyematan.

Kami menggunakan layanan AWS berikut untuk mengimplementasikan solusi:

Dalam postingan ini, kami memandu Anda melalui langkah-langkah tingkat tinggi berikut:

Siapkan variabel lingkungan
Buat tugas ekspor.
Buat tugas pemrosesan data.
Kirim tugas pelatihan.
Unduh penyematan.

Kode untuk perintah Neptune ML

Kami menggunakan perintah berikut sebagai bagian dari penerapan solusi ini:

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

Kami menggunakan neptune_ml export untuk memeriksa status atau memulai proses ekspor Neptune ML, dan neptune_ml training untuk memulai dan memeriksa status tugas pelatihan model Neptune ML.

Untuk informasi lebih lanjut tentang ini dan perintah lainnya, lihat Menggunakan keajaiban meja kerja Neptunus di buku catatan Anda.

Prasyarat

Untuk mengikuti posting ini, Anda harus memiliki yang berikut:

An Akun AWS
Keakraban dengan SageMaker, Amazon S3, dan AWS CloudFormation
Data grafik dimuat ke dalam kluster Neptunus (lihat bagian 1 untuk informasi lebih lanjut)

Siapkan variabel lingkungan

Sebelum kita mulai, Anda harus menyiapkan lingkungan Anda dengan menyetel variabel berikut: s3_bucket_uri dan processed_folder. s3_bucket_uri adalah nama ember yang digunakan di Bagian 1 dan processed_folder adalah lokasi Amazon S3 untuk keluaran dari tugas ekspor .

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

Buat tugas ekspor

Di Bagian 1, kami membuat notebook SageMaker dan layanan ekspor untuk mengekspor data kami dari klaster Neptune DB ke Amazon S3 dalam format yang diperlukan.

Sekarang setelah data kita dimuat dan layanan ekspor dibuat, kita perlu membuat pekerjaan ekspor untuk memulainya. Untuk melakukan ini, kami menggunakan NeptuneExportApiUri dan buat parameter untuk pekerjaan ekspor. Dalam kode berikut, kami menggunakan variabel expo dan export_params. Mengatur expo untuk Anda NeptuneExportApiUri nilai, yang dapat Anda temukan di Output tab tumpukan CloudFormation Anda. Untuk export_params, kami menggunakan titik akhir klaster Neptune Anda dan memberikan nilai untuk outputS3path, yang merupakan lokasi Amazon S3 untuk keluaran dari tugas ekspor.

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

Untuk mengirimkan pekerjaan ekspor gunakan perintah berikut:

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

Untuk memeriksa status pekerjaan ekspor gunakan perintah berikut:

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

Setelah pekerjaan Anda selesai, atur processed_folder variabel untuk menyediakan lokasi Amazon S3 dari hasil yang diproses:

export_results['processed_location']= processed_folder

Buat tugas pemrosesan data

Setelah ekspor selesai, kami membuat tugas pemrosesan data untuk menyiapkan data untuk proses pelatihan Neptune ML. Ini dapat dilakukan dengan beberapa cara berbeda. Untuk langkah ini, Anda dapat mengubah job_name dan modelType variabel, tetapi semua parameter lainnya harus tetap sama. Bagian utama dari kode ini adalah modelType parameter, yang dapat berupa model grafik heterogen (heterogeneous) atau grafik pengetahuan (kge).

Pekerjaan ekspor juga termasuk training-data-configuration.json. Gunakan file ini untuk menambah atau menghapus node atau edge yang tidak ingin Anda sediakan untuk pelatihan (misalnya, jika Anda ingin memprediksi link antara dua node, Anda dapat menghapus link tersebut di file konfigurasi ini). Untuk posting blog ini kami menggunakan file konfigurasi asli. Untuk informasi tambahan, lihat Mengedit file konfigurasi pelatihan.

Buat tugas pemrosesan data Anda dengan kode berikut:

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

Untuk memeriksa status pekerjaan ekspor gunakan perintah berikut:

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

Kirim tugas pelatihan

Setelah pekerjaan pemrosesan selesai, kita dapat memulai pekerjaan pelatihan kita, yaitu tempat kita membuat penyematan. Kami merekomendasikan jenis instans ml.m5.24xlarge, tetapi Anda dapat mengubahnya agar sesuai dengan kebutuhan komputasi Anda. Lihat kode berikut:

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

Kami mencetak variabel training_results untuk mendapatkan ID untuk tugas pelatihan. Gunakan perintah berikut untuk memeriksa status pekerjaan Anda:

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

Unduh penyematan

Setelah tugas pelatihan Anda selesai, langkah terakhir adalah mengunduh penyematan mentah Anda. Langkah-langkah berikut menunjukkan kepada Anda cara mengunduh penyematan yang dibuat dengan menggunakan KGE (Anda dapat menggunakan proses yang sama untuk RGCN).

Dalam kode berikut, kami menggunakan neptune_ml.get_mapping() dan get_embeddings() untuk mengunduh file pemetaan (mapping.info) dan file sematan mentah (entity.npy). Kemudian kita perlu memetakan penyematan yang sesuai ke ID yang sesuai.

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

Untuk mengunduh RGCN, ikuti proses yang sama dengan nama tugas pelatihan baru dengan memproses data dengan parameter modelType yang disetel ke heterogeneous, lalu latih model Anda dengan parameter modelName disetel ke rgcn melihat di sini untuk lebih jelasnya. Setelah selesai, panggil get_mapping dan get_embeddings berfungsi untuk mengunduh file baru Anda pemetaan.info dan entitas.npy file. Setelah Anda memiliki file entitas dan pemetaan, proses untuk membuat file CSV identik.

Terakhir, unggah penyematan Anda ke lokasi Amazon S3 yang Anda inginkan:

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

Pastikan Anda mengingat lokasi S3 ini, Anda perlu menggunakannya di Bagian 3.

Membersihkan

Setelah selesai menggunakan solusi, pastikan untuk membersihkan sumber daya apa pun untuk menghindari tagihan berkelanjutan.

Kesimpulan

Dalam posting ini, kami membahas cara menggunakan Neptune ML untuk melatih embedding GNN dari data IMDb.

Beberapa aplikasi terkait dari penyematan grafik pengetahuan adalah konsep seperti pencarian di luar katalog, rekomendasi konten, iklan bertarget, memprediksi tautan yang hilang, pencarian umum, dan analisis kohort. Pencarian di luar katalog adalah proses mencari konten yang bukan milik Anda, dan menemukan atau merekomendasikan konten yang ada di katalog Anda yang sedekat mungkin dengan apa yang dicari pengguna. Kami menyelami lebih dalam pencarian di luar katalog di Bagian 3.

Tentang Penulis

Matius Rhodes adalah Ilmuwan Data yang bekerja di Lab Solusi Amazon ML. Dia berspesialisasi dalam membangun saluran Pembelajaran Mesin yang melibatkan konsep seperti Pemrosesan Bahasa Alami dan Visi Komputer.

Divya Bhargavi adalah Ilmuwan Data dan Pimpinan Vertikal Media dan Hiburan di Amazon ML Solutions Lab, tempat dia memecahkan masalah bisnis bernilai tinggi bagi pelanggan AWS menggunakan Pembelajaran Mesin. Dia mengerjakan pemahaman gambar/video, sistem rekomendasi grafik pengetahuan, kasus penggunaan iklan prediktif.

Rele Gaurav adalah Ilmuwan Data di Amazon ML Solution Lab, di mana dia bekerja dengan pelanggan AWS di berbagai vertikal berbeda untuk mempercepat penggunaan pembelajaran mesin dan layanan AWS Cloud mereka untuk memecahkan tantangan bisnis mereka.

Karan Sindwani adalah Ilmuwan Data di Amazon ML Solutions Lab, tempat dia membangun dan menerapkan model pembelajaran mendalam. Dia berspesialisasi dalam bidang visi komputer. Di waktu luangnya, dia menikmati hiking.

Soji Adeshina adalah Ilmuwan Terapan di AWS tempat dia mengembangkan model berbasis jaringan saraf grafik untuk pembelajaran mesin pada tugas grafik dengan aplikasi untuk penipuan & penyalahgunaan, grafik pengetahuan, sistem pemberi rekomendasi, dan ilmu kehidupan. Di waktu luangnya, ia senang membaca dan memasak.

Vidya Sagar Ravipati adalah seorang Manajer di Amazon ML Solutions Lab, tempat dia memanfaatkan pengalamannya yang luas dalam sistem terdistribusi berskala besar dan hasratnya terhadap pembelajaran mesin untuk membantu pelanggan AWS di berbagai vertikal industri mempercepat adopsi AI dan cloud mereka.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

Stempel Waktu: Desember 20, 2022

Stempel Waktu: 31 Mei 2023

Diterbitkan Ulang Oleh Plato

Kurangi konsumsi energi beban kerja pembelajaran mesin Anda hingga 90% dengan akselerator AWS yang dibuat khusus | Layanan Web Amazon

Mengumumkan konektor Salesforce (V2) yang diperbarui untuk Amazon Kendra

Mengumumkan konektor Microsoft OneDrive (V2) yang diperbarui untuk Amazon Kendra

Instans DL2q Amazon EC2 untuk inferensi AI berkinerja tinggi dan hemat biaya kini tersedia secara umum | Layanan Web Amazon

Integrasikan platform SaaS dengan Amazon SageMaker untuk mengaktifkan aplikasi bertenaga ML | Layanan Web Amazon

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun