Рекомендації та пошук за допомогою IMDb Knowledge Graph

Перевидано Платоном

читають: 0

Ця серія з трьох частин демонструє, як використовувати графові нейронні мережі (GNN) і Амазонка Нептун для створення рекомендацій фільмів за допомогою IMDb і Box Office Mojo Movies/TV/OTT ліцензований пакет даних, який надає широкий спектр розважальних метаданих, включаючи понад 1 мільярд оцінок користувачів; титри для понад 11 мільйонів акторів і членів знімальної групи; 9 мільйонів назв фільмів, телепередач і розваг; і глобальні касові звіти з більш ніж 60 країн. Багато клієнтів медіа та розваг AWS ліцензують дані IMDb Обмін даними AWS щоб покращити виявлення вмісту та підвищити залучення та утримання клієнтів.

In Частина 1, ми обговорили застосування GNN, а також те, як трансформувати та підготувати наші дані IMDb для запитів. У цьому дописі ми обговорюємо процес використання Neptune для генерування вставок, які використовуються для пошуку поза каталогом у частині 3. Ми також переходимо Amazon Neptune ML, функція машинного навчання (ML) Neptune та код, який ми використовуємо в процесі розробки. У Частині 3 ми розглянемо, як застосувати наші вбудовані графи знань до випадку використання пошуку поза каталогом.

Огляд рішення

Великі підключені набори даних часто містять цінну інформацію, яку важко отримати за допомогою запитів, заснованих лише на людській інтуїції. Методи машинного навчання можуть допомогти знайти приховані кореляції на графіках із мільярдами зв’язків. Ці кореляції можуть бути корисними для рекомендацій продуктів, прогнозування кредитоспроможності, виявлення шахрайства та багатьох інших випадків використання.

Neptune ML дає змогу створювати та навчати корисні моделі ML на великих графіках за години замість тижнів. Щоб досягти цього, Neptune ML використовує технологію GNN на базі Amazon SageMaker і Бібліотека глибоких графів (DGL) (який з відкритим вихідним кодом). GNN є новою областю штучного інтелекту (для прикладу див Комплексне дослідження графових нейронних мереж). Практичний посібник із використання GNN із DGL див Вивчення графових нейронних мереж за допомогою Deep Graph Library.

У цій публікації ми покажемо, як використовувати Neptune у нашому конвеєрі для генерування вбудовувань.

На наступній діаграмі зображено загальний потік даних IMDb від завантаження до генерації вбудовування.

Для реалізації рішення ми використовуємо такі сервіси AWS:

У цій публікації ми проведемо вас через наступні етапи високого рівня:

Налаштуйте змінні середовища
Створіть завдання експорту.
Створіть завдання обробки даних.
Надішліть навчальну роботу.
Завантажити вставки.

Код для команд Neptune ML

Ми використовуємо такі команди як частину реалізації цього рішення:

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

Ми використовуємо neptune_ml export щоб перевірити статус або почати процес експорту Neptune ML, а також neptune_ml training щоб почати та перевірити статус завдання навчання моделі Neptune ML.

Додаткову інформацію про ці та інші команди див Використання магії верстака Нептуна у ваших зошитах.

Передумови

Щоб слідувати цій публікації, ви повинні мати наступне:

An Обліковий запис AWS
Знайомство з SageMaker, Amazon S3 і AWS CloudFormation
Дані графіка, завантажені в кластер Neptune (див Частина 1 для отримання додаткової інформації)

Налаштуйте змінні середовища

Перш ніж ми почнемо, вам потрібно буде налаштувати ваше середовище, встановивши наступні змінні: s3_bucket_uri та processed_folder. s3_bucket_uri це назва відра, яке використовується в частині 1 і processed_folder це розташування Amazon S3 для результату завдання експорту.

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

Створіть завдання експорту

У частині 1 ми створили блокнот SageMaker і службу експорту для експорту наших даних із кластера Neptune DB до Amazon S3 у потрібному форматі.

Тепер, коли наші дані завантажено і служба експорту створена, нам потрібно створити завдання експорту, запустити його. Для цього використовуємо NeptuneExportApiUri і створіть параметри для завдання експорту. У наступному коді ми використовуємо змінні expo та export_params. Встановити expo to your NeptuneExportApiUri значення, яке ви можете знайти на Виходи вкладку вашого стеку CloudFormation. для export_params, ми використовуємо кінцеву точку вашого кластера Neptune і надаємо значення для outputS3path, що є розташуванням Amazon S3 для результатів завдання експорту.

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

Щоб надіслати завдання експорту, скористайтеся такою командою:

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

Щоб перевірити статус завдання експорту, скористайтеся такою командою:

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

Після завершення роботи встановіть processed_folder змінна для надання Amazon S3 розташування оброблених результатів:

export_results['processed_location']= processed_folder

Створіть завдання обробки даних

Тепер, коли експорт завершено, ми створюємо завдання обробки даних, щоб підготувати дані для процесу навчання Neptune ML. Це можна зробити кількома різними способами. Для цього кроку ви можете змінити job_name та modelType змінні, але всі інші параметри повинні залишатися незмінними. Основною частиною цього коду є modelType параметр, який може бути різнорідним графовим моделям (heterogeneous) або графіки знань (kge).

Експортне завдання також включає training-data-configuration.json. Використовуйте цей файл, щоб додавати або видаляти будь-які вузли чи ребра, які ви не хочете надавати для навчання (наприклад, якщо ви хочете передбачити зв’язок між двома вузлами, ви можете видалити цей зв’язок у цьому файлі конфігурації). Для цієї публікації в блозі ми використовуємо вихідний файл конфігурації. Додаткову інформацію див Редагування файлу конфігурації навчання.

Створіть завдання обробки даних за допомогою такого коду:

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

Щоб перевірити статус завдання експорту, скористайтеся такою командою:

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

Надішліть навчальну роботу

Після завершення роботи з обробки ми можемо розпочати нашу навчальну роботу, у якій ми створюємо наші вбудовування. Ми рекомендуємо тип екземпляра ml.m5.24xlarge, але ви можете змінити це відповідно до своїх обчислювальних потреб. Перегляньте наступний код:

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

Ми друкуємо змінну training_results, щоб отримати ідентифікатор навчального завдання. Використовуйте таку команду, щоб перевірити статус вашого завдання:

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

Завантажити вставки

Після завершення навчальної роботи останнім кроком є завантаження необроблених вбудованих файлів. У наступних кроках показано, як завантажити вбудовані файли, створені за допомогою KGE (ви можете використати той самий процес для RGCN).

У наступному коді ми використовуємо neptune_ml.get_mapping() та get_embeddings() щоб завантажити файл відображення (mapping.info) і файл необроблених вбудованих файлів (entity.npy). Потім нам потрібно зіставити відповідні вбудовування з їхніми відповідними ідентифікаторами.

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

Щоб завантажити RGCN, виконайте той самий процес із новою назвою навчальної роботи, обробивши дані за допомогою параметра modelType, встановленого на heterogeneous, а потім навчайте вашу модель за допомогою параметра modelName, встановленого на rgcn побачити тут для більш детальної інформації. Коли це буде завершено, зателефонуйте get_mapping та get_embeddings функції для завантаження нового mapping.info та entity.npy файли. Коли у вас є файли сутності та зіставлення, процес створення файлу CSV є ідентичним.

Нарешті, завантажте свої вбудовування в потрібне розташування Amazon S3:

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

Переконайтеся, що ви запам’ятали це розташування S3, вам потрібно буде використовувати його в частині 3.

Прибирати

Коли ви закінчите користуватися рішенням, обов’язково очистіть усі ресурси, щоб уникнути поточних платежів.

Висновок

У цій публікації ми обговорили, як використовувати Neptune ML для навчання вбудовування GNN з даних IMDb.

Деякі пов’язані програми вбудовування графів знань – це такі поняття, як пошук поза каталогом, рекомендації вмісту, цільова реклама, передбачення відсутніх посилань, загальний пошук і когортний аналіз. Пошук поза каталогом – це процес пошуку вмісту, яким ви не володієте, і пошуку або рекомендації вмісту у вашому каталозі, який максимально наближений до того, що шукав користувач. У Частині 3 ми детальніше зануримося в пошук поза каталогом.

Про авторів

Метью Роудс я спеціаліст з даних, я працюю в Amazon ML Solutions Lab. Він спеціалізується на створенні конвеєрів машинного навчання, які включають такі поняття, як обробка природної мови та комп’ютерне бачення.

Дів'я Бхаргаві є спеціалістом із обробки даних і головним спеціалістом із медіа та розваг у Amazon ML Solutions Lab, де вона вирішує важливі бізнес-проблеми для клієнтів AWS за допомогою машинного навчання. Вона працює над розумінням зображень/відео, системами рекомендацій графів знань, сценаріями використання прогнозної реклами.

Гаурав Реле є науковцем із даних у лабораторії рішень Amazon ML Solution Lab, де він працює з клієнтами AWS у різних галузях, щоб прискорити використання машинного навчання та хмарних служб AWS для вирішення їхніх бізнес-задач.

Каран Сіндвані є дослідником даних в Amazon ML Solutions Lab, де він створює та розгортає моделі глибокого навчання. Спеціалізується в області комп'ютерного зору. У вільний час захоплюється пішим туризмом.

Соджі Адешіна є прикладним науковцем в AWS, де він розробляє моделі на основі графових нейронних мереж для машинного навчання на графових завданнях із застосуваннями для шахрайства та зловживань, графів знань, систем рекомендацій і наук про життя. У вільний час любить читати та готувати.

Від'я Сагар Равіпаті є менеджером Amazon ML Solutions Lab, де він використовує свій величезний досвід роботи з великомасштабними розподіленими системами та свою пристрасть до машинного навчання, щоб допомогти клієнтам AWS у різних галузевих галузях прискорити впровадження ШІ та хмари.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

Часова мітка: 20 Грудня, 2022

Часова мітка: Березень 22, 2022

Перевидано Платоном

Вбудований у Amazon SageMaker LightGBM тепер пропонує розподілене навчання за допомогою Dask

Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler

Використовуйте Snowflake як джерело даних для навчання моделей ML за допомогою Amazon SageMaker

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки