توصیه های قدرت و جستجو با استفاده از نمودار دانش IMDb

بازنشر افلاطون

دنبال: 0

این مجموعه سه قسمتی نحوه استفاده از شبکه های عصبی گراف (GNN) و نپتون آمازون برای تولید توصیه های فیلم با استفاده از IMDb و Box Office Mojo Movies/TV/OTT بسته داده های قابل مجوز، که طیف گسترده ای از فراداده های سرگرمی، از جمله بیش از 1 میلیارد رتبه بندی کاربر را ارائه می دهد. اعتبار برای بیش از 11 میلیون بازیگر و خدمه؛ 9 میلیون عنوان فیلم، تلویزیون و سرگرمی؛ و داده های گزارش باکس آفیس جهانی از بیش از 60 کشور. بسیاری از مشتریان رسانه و سرگرمی AWS به داده های IMDb مجوز می دهند تبادل داده AWS برای بهبود کشف محتوا و افزایش تعامل و حفظ مشتری.

In قسمت 1، ما در مورد کاربردهای GNN و نحوه تبدیل و آماده سازی داده های IMDb خود برای پرس و جو بحث کردیم. در این پست، ما در مورد فرآیند استفاده از نپتون برای ایجاد جاسازی‌هایی که برای انجام جستجوی خارج از کاتالوگ در قسمت 3 استفاده می‌شوند، بحث می‌کنیم. ما هم می رویم آمازون نپتون ام ال، ویژگی یادگیری ماشین (ML) نپتون و کدی که در فرآیند توسعه خود استفاده می کنیم. در قسمت 3، نحوه اعمال جاسازی‌های نمودار دانش خود را در مورد استفاده جستجوی خارج از فهرست توضیح می‌دهیم.

بررسی اجمالی راه حل

مجموعه داده‌های متصل بزرگ اغلب حاوی اطلاعات ارزشمندی هستند که استخراج آن‌ها با استفاده از جستارهای مبتنی بر شهود انسانی به تنهایی دشوار است. تکنیک‌های ML می‌توانند به یافتن همبستگی‌های پنهان در نمودارها با میلیاردها رابطه کمک کنند. این همبستگی ها می تواند برای توصیه محصولات، پیش بینی ارزش اعتبار، شناسایی تقلب و بسیاری موارد استفاده دیگر مفید باشد.

Neptune ML امکان ساخت و آموزش مدل های مفید ML را بر روی نمودارهای بزرگ در چند ساعت به جای هفته ها فراهم می کند. برای انجام این کار، Neptune ML از فناوری GNN استفاده می کند آمازون SageMaker و کتابخانه نمودار عمیق (DGL) (که است منبع باز). GNN ها یک زمینه نوظهور در هوش مصنوعی هستند (به عنوان مثال، نگاه کنید به بررسی جامع شبکه های عصبی نموداری). برای یک آموزش عملی در مورد استفاده از GNN با DGL، نگاه کنید آموزش شبکه های عصبی گراف با Deep Graph Library.

در این پست، نحوه استفاده از نپتون در خط لوله خود را برای ایجاد جاسازی نشان می دهیم.

نمودار زیر جریان کلی داده های IMDb را از بارگیری تا تولید جاسازی نشان می دهد.

ما از خدمات AWS زیر برای پیاده سازی راه حل استفاده می کنیم:

در این پست شما را در مراحل سطح بالا راهنمایی می کنیم:

تنظیم متغیرهای محیطی
ایجاد شغل صادراتی
یک کار پردازش داده ایجاد کنید.
یک شغل آموزشی ارسال کنید.
جاسازی ها را دانلود کنید.

کد دستورات Neptune ML

ما از دستورات زیر به عنوان بخشی از اجرای این راه حل استفاده می کنیم:

%%neptune_ml export start
%%neptune_ml export status
%neptune_ml training start
%neptune_ml training status

استفاده می کنیم neptune_ml export برای بررسی وضعیت یا شروع فرآیند صادرات Neptune ML، و neptune_ml training برای شروع و بررسی وضعیت کار آموزش مدل Neptune ML.

برای اطلاعات بیشتر در مورد این دستورات و سایر دستورات به ادامه مطلب مراجعه کنید از جادوهای میز کار نپتون در نوت بوک های خود استفاده کنید.

پیش نیازها

برای دنبال کردن این پست، باید موارد زیر را داشته باشید:

An حساب AWS
آشنایی با SageMaker، Amazon S3 و AWS CloudFormation
داده های نمودار بارگذاری شده در خوشه نپتون (نگاه کنید به قسمت 1 برای اطلاعات بیشتر)

تنظیم متغیرهای محیطی

قبل از شروع، باید محیط خود را با تنظیم متغیرهای زیر تنظیم کنید: s3_bucket_uri و processed_folder. s3_bucket_uri نام سطل مورد استفاده در قسمت 1 و processed_folder محل آمازون S3 برای خروجی از کار صادرات است.

# name of s3 bucket
s3_bucket_uri = "<s3-bucket-name>" # the s3 location you want to store results
processed_folder = f"s3://{s3_bucket_uri}/experiments/neptune-export/"

ایجاد شغل صادراتی

در قسمت 1، ما یک نوت بوک SageMaker و سرویس صادرات ایجاد کردیم تا داده های خود را از خوشه DB Neptune به Amazon S3 در قالب مورد نیاز صادر کنیم.

اکنون که داده های ما بارگیری شده و سرویس صادرات ایجاد شده است، باید یک کار صادراتی ایجاد کنیم و آن را شروع کنیم. برای این کار استفاده می کنیم NeptuneExportApiUri و ایجاد پارامترهایی برای کار صادرات. در کد زیر از متغیرها استفاده می کنیم expo و export_params. تنظیم expo خود را به NeptuneExportApiUri ارزش، که می توانید در آن پیدا کنید خروجی برگه پشته CloudFormation شما. برای export_params، ما از نقطه پایانی خوشه نپتون شما استفاده می کنیم و مقدار آن را ارائه می دهیم outputS3path، که محل آمازون S3 برای خروجی از کار صادرات است.

expo = <NEPTUNE-EXPORT-URI>
export_params={ "command": "export-pg", "params": { "endpoint": neptune_ml.get_host(),
            "profile": "neptune_ml",
            "cloneCluster": True
             }, "outputS3Path": processed_folder, "additionalParams": {
        "neptune_ml": {
          "version": "v2.0"
         }
      }, "jobSize": "medium"}

برای ارسال کار صادراتی از دستور زیر استفاده کنید:

%%neptune_ml export start --export-url {expo} --export-iam --store-to export_results --wait-timeout 1000000                                                              
${export_params}

برای بررسی وضعیت صادرات کار از دستور زیر استفاده کنید:

%neptune_ml export status --export-url {expo} --export-iam --job-id {export_results['jobId']} --store-to export_results

پس از اتمام کارتان، آن را تنظیم کنید processed_folder متغیر برای ارائه مکان آمازون S3 نتایج پردازش شده:

export_results['processed_location']= processed_folder

یک کار پردازش داده ایجاد کنید

اکنون که صادرات انجام شده است، یک کار پردازش داده ایجاد می کنیم تا داده ها را برای فرآیند آموزش Neptune ML آماده کنیم. این را می توان به چند روش مختلف انجام داد. برای این مرحله می توانید تغییر دهید job_name و modelType متغیرها، اما تمام پارامترهای دیگر باید ثابت بمانند. بخش اصلی این کد عبارت است از modelType پارامتر، که می تواند مدل های گراف ناهمگن باشد (heterogeneous) یا نمودارهای دانش (kge).

کار صادرات نیز شامل می شود training-data-configuration.json. از این فایل برای اضافه کردن یا حذف هر گونه گره یا لبه ای که نمی خواهید برای آموزش ارائه دهید استفاده کنید (به عنوان مثال، اگر می خواهید پیوند بین دو گره را پیش بینی کنید، می توانید آن پیوند را در این فایل پیکربندی حذف کنید). برای این پست وبلاگ ما از فایل پیکربندی اصلی استفاده می کنیم. برای اطلاعات بیشتر، نگاه کنید ویرایش فایل پیکربندی آموزشی.

کار پردازش داده خود را با کد زیر ایجاد کنید:

job_name = neptune_ml.get_training_job_name("link-pred")
processing_params = f"""--config-file-name training-data-configuration.json --job-id {job_name}-DP --s3-input-uri {export_results['outputS3Uri']} --s3-processed-uri {export_results['processed_location']} --model-type kge --instance-type ml.m5.2xlarge """ %neptune_ml dataprocessing start --store-to processing_results {processing_params}

برای بررسی وضعیت صادرات کار از دستور زیر استفاده کنید:

%neptune_ml dataprocessing status --job-id {processing_results['id']} --store-to processing_results

یک شغل آموزشی ارسال کنید

پس از تکمیل کار پردازش، می‌توانیم کار آموزشی خود را شروع کنیم، جایی که جاسازی‌های خود را ایجاد می‌کنیم. ما یک نوع نمونه از ml.m5.24xlarge را توصیه می کنیم، اما می توانید آن را مطابق با نیازهای محاسباتی خود تغییر دهید. کد زیر را ببینید:

dp_id = processing_results['id']
training_job_name = dp_id + "training"
training_job_name = "".join(training_job_name.split("-")) training_params=f"--job-id train-{training_job_name} --data-processing-id {dp_id} --instance-type ml.m5.24xlarge --s3-output-uri s3://{str(s3_bucket_uri)}/training/{training_job_name}/" %neptune_ml training start --store-to training_results {training_params} print(training_results)

متغیر training_results را چاپ می کنیم تا شناسه کار آموزشی را بدست آوریم. برای بررسی وضعیت شغل خود از دستور زیر استفاده کنید:

%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results

جاسازی ها را دانلود کنید

پس از اتمام کار آموزشی، آخرین مرحله این است که تعبیه‌های خام خود را دانلود کنید. مراحل زیر به شما نشان می دهد که چگونه جاسازی های ایجاد شده با استفاده از KGE را بارگیری کنید (می توانید از همان فرآیند برای RGCN استفاده کنید).

در کد زیر استفاده می کنیم neptune_ml.get_mapping() و get_embeddings() برای دانلود فایل نقشه برداری (mapping.info) و فایل embeddings خام (entity.npy). سپس باید جاسازی های مناسب را به شناسه های مربوطه آنها نگاشت کنیم.

neptune_ml.get_embeddings(training_status_results["id"])                                            
neptune_ml.get_mapping(training_status_results["id"])                                               
                                                                                        
f = open('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/mapping.info',  "rb")                                                                                   
mapping = pickle.load(f)                                                                
                                                                                        
node2id = mapping['node2id']                                                            
localid2globalid = mapping['node2gid']                                                  
data = np.load('/home/ec2-user/SageMaker/model-artifacts/'+ training_status_results["id"]+'/embeddings/entity.npy')                                                                           
                                                                                          
embd_to_sum = mapping["node2id"]                                                        
full = len(list(embd_to_sum["movie"].keys()))                                                                                                                                    
ITEM_ID = []                                                                            
KEY = []                                                                                
VALUE = []                                                                              
for ii in tqdm(range(full)):                                                         
node_id = list(embd_to_sum["movie"].keys())[ii]
index = localid2globalid['movie'][node2id['movie'][node_id]]
embedding = data[index]
ITEM_ID += [node_id]*embedding.shape[0]
KEY += [i for i in range(embedding.shape[0])]
VALUE += list(embedding)
                                                                       
meta_df = pd.DataFrame({"ITEM_ID": ITEM_ID, "KEY": KEY, "VALUE":VALUE})
meta_df.to_csv('new_embeddings.csv')

برای دانلود RGCN ها، با پردازش داده ها با پارامتر modelType که روی آن تنظیم شده است، همین روند را با نام شغل آموزشی جدید دنبال کنید. heterogeneous، سپس مدل خود را با پارامتر modelName آموزش دهید rgcn دیدن اینجا کلیک نمایید برای جزئیات بیشتر پس از اتمام آن، با شماره تماس بگیرید get_mapping و get_embeddings توابع برای دانلود جدید خود mapping.info و entity.npy فایل ها. پس از در اختیار داشتن فایل های موجودیت و نقشه برداری، فرآیند ایجاد فایل CSV یکسان است.

در نهایت، جاسازی های خود را در مکان مورد نظر آمازون S3 خود آپلود کنید:

s3_destination = "s3://"+s3_bucket_uri+"/embeddings/"+"new_embeddings.csv" !aws s3 cp new_embeddings.csv {s3_destination}

مطمئن شوید که این مکان S3 را به خاطر دارید، باید از آن در قسمت 3 استفاده کنید.

پاک کردن

وقتی استفاده از محلول را تمام کردید، مطمئن شوید که همه منابع را تمیز کنید تا از هزینه های مداوم جلوگیری کنید.

نتیجه

در این پست، نحوه استفاده از Neptune ML برای آموزش تعبیه‌های GNN از داده‌های IMDb را مورد بحث قرار دادیم.

برخی از کاربردهای مرتبط تعبیه گراف دانش مفاهیمی مانند جستجوی خارج از فهرست، توصیه‌های محتوا، تبلیغات هدفمند، پیش‌بینی لینک‌های گمشده، جستجوی کلی و تحلیل گروهی هستند. جستجوی خارج از کاتالوگ فرآیند جستجوی محتوایی است که متعلق به شما نیست، و یافتن یا توصیه محتوایی که در کاتالوگ شما وجود دارد که تا حد امکان به آنچه کاربر جستجو کرده است نزدیک باشد. ما در قسمت 3 به جستجوی خارج از کاتالوگ عمیق تر می پردازیم.

درباره نویسنده

متیو رودز یک دانشمند داده است که در آزمایشگاه راه حل های آمازون ام ال کار می کنم. او در ساخت خطوط لوله یادگیری ماشین که شامل مفاهیمی مانند پردازش زبان طبیعی و بینایی کامپیوتری است، تخصص دارد.

دیویا بهرگاوی دانشمند داده و رهبر عمودی رسانه و سرگرمی در آزمایشگاه راه حل های آمازون ML است، جایی که او با استفاده از یادگیری ماشینی مشکلات تجاری با ارزش را برای مشتریان AWS حل می کند. او روی درک تصویر/ویدیو، سیستم‌های توصیه گراف دانش، موارد استفاده از تبلیغات پیش‌بینی‌کننده کار می‌کند.

گاوراو رله یک دانشمند داده در آزمایشگاه راه حل آمازون ML است، جایی که با مشتریان AWS در سطوح مختلف کار می کند تا استفاده آنها از یادگیری ماشین و خدمات AWS Cloud را برای حل چالش های تجاری آنها تسریع بخشد.

کاران سیندوانی دانشمند داده در آزمایشگاه راه حل های آمازون ML است، جایی که مدل های یادگیری عمیق را می سازد و به کار می برد. او در زمینه بینایی کامپیوتر تخصص دارد. در اوقات فراغت خود از پیاده روی لذت می برد.

سوجی آدیشینا یک دانشمند کاربردی در AWS است که در آن مدل‌های مبتنی بر شبکه عصبی گراف را برای یادگیری ماشین در وظایف نمودارها با برنامه‌های کاربردی برای تقلب و سوء استفاده، نمودارهای دانش، سیستم‌های توصیه‌کننده و علوم زیستی توسعه می‌دهد. در اوقات فراغت از مطالعه و آشپزی لذت می برد.

ویدیا ساگار راویپاتی مدیر آزمایشگاه راه حل‌های آمازون ML است، جایی که از تجربه گسترده خود در سیستم‌های توزیع‌شده در مقیاس بزرگ و اشتیاق خود به یادگیری ماشینی استفاده می‌کند تا به مشتریان AWS در بخش‌های مختلف صنعت کمک کند تا پذیرش هوش مصنوعی و ابر خود را تسریع کنند.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/

تمبر زمان: دسامبر 20، 2022

تمبر زمان: فوریه 9، 2024

بازنشر افلاطون

برای استنتاج امن و بی‌درنگ، رمزگذاری کاملاً هم‌مورفیک را با نقاط پایانی Amazon SageMaker فعال کنید.

اتصال Amazon Redshift و RStudio در Amazon SageMaker

ویرایش محتوای خود را با Contentful و Amazon Bedrock | خدمات وب آمازون

Alida درک عمیق تری از بازخورد مشتریان با Amazon Bedrock | خدمات وب آمازون

با AWS Inferentia و AWS Trainium، مدل های Llama 2 را به صورت مقرون به صرفه در آمازون SageMaker JumpStart تنظیم و استقرار دهید | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب