סדרה זו בת שלושה חלקים מדגימה כיצד להשתמש ברשתות עצביות גרפיות (GNNs) ו אמזון נפטון כדי להפיק המלצות לסרטים באמצעות ה IMDb וקופות Mojo Movies/TV/OTT חבילת נתונים ברי רישיון, המספקת מגוון רחב של מטא נתונים בידוריים, כולל למעלה ממיליארד דירוגי משתמשים; קרדיטים ליותר מ-1 מיליון חברי צוות וצוות; 11 מיליון כותרי סרטים, טלוויזיה ובידור; ונתוני דיווח קופות גלובליים מיותר מ-9 מדינות. לקוחות מדיה ובידור רבים של AWS נותנים רישיון לנתוני IMDb באמצעות חילופי נתונים AWS כדי לשפר את גילוי התוכן ולהגדיל את המעורבות והשימור של הלקוחות.
In חלק 1, דנו ביישומים של GNNs, וכיצד לשנות ולהכין את נתוני ה-IMDb שלנו לשאילתה. בפוסט זה, אנו דנים בתהליך השימוש בנפטון ליצירת הטבעות המשמשות לביצוע החיפוש מחוץ לקטלוג שלנו בחלק 3. גם אנחנו עוברים אמזון נפטון ML, תכונת למידת מכונה (ML) של נפטון, והקוד שבו אנו משתמשים בתהליך הפיתוח שלנו. בחלק 3, אנו עוברים דרך כיצד ליישם את הטמעות גרפי הידע שלנו במקרה של שימוש בחיפוש מחוץ לקטלוג.
סקירת פתרונות
מערכי נתונים גדולים מחוברים מכילים לעתים קרובות מידע בעל ערך שעלול להיות קשה לחלץ באמצעות שאילתות המבוססות על אינטואיציה אנושית בלבד. טכניקות ML יכולות לעזור למצוא מתאמים נסתרים בגרפים עם מיליארדי מערכות יחסים. מתאמים אלה יכולים להיות מועילים להמלצה על מוצרים, חיזוי שווי האשראי, זיהוי הונאה ומקרי שימוש רבים אחרים.
Neptune ML מאפשר לבנות ולאמן מודלים שימושיים של ML על גרפים גדולים בשעות במקום בשבועות. כדי להשיג זאת, Neptune ML משתמש בטכנולוגיית GNN המופעלת על ידי אמזון SageMaker ו ספריית גרפים עמוקים (DGL) (שהוא קוד פתוח). GNNs הם תחום מתפתח בבינה מלאכותית (לדוגמה, ראה סקר מקיף על רשתות גראפיות עצביות). למדריך מעשי על שימוש ב-GNN עם ה-DGL, ראה לימוד גרפים של רשתות נוירונים עם ספריית גרפים עמוקים.
בפוסט זה, אנו מראים כיצד להשתמש ב-Neptune בצינור שלנו כדי ליצור הטבעות.
הדיאגרמה הבאה מתארת את הזרימה הכוללת של נתוני IMDb מהורדה ליצירת הטבעה.
אנו משתמשים בשירותי AWS הבאים כדי ליישם את הפתרון:
בפוסט זה, אנו מדריכים אותך דרך השלבים הבאים ברמה גבוהה:
- הגדר משתני סביבה
- צור עבודת יצוא.
- צור עבודת עיבוד נתונים.
- הגשת עבודת הדרכה.
- הורד הטמעות.
קוד עבור פקודות Neptune ML
אנו משתמשים בפקודות הבאות כחלק מיישום פתרון זה:
אנו משתמשים neptune_ml export
כדי לבדוק את המצב או להתחיל תהליך ייצוא של Neptune ML, וכן neptune_ml training
כדי להתחיל ולבדוק את הסטטוס של עבודת הכשרה בדגם Neptune ML.
למידע נוסף על פקודות אלו ואחרות, עיין ב שימוש בקסמי ספסל העבודה של נפטון במחברות שלך.
תנאים מוקדמים
כדי לעקוב אחרי הפוסט הזה, אתה צריך את הדברים הבאים:
- An חשבון AWS
- היכרות עם SageMaker, Amazon S3 ו-AWS CloudFormation
- גרף נתונים שנטענו לאשכול נפטון (ראה חלק 1 למידע נוסף)
הגדר משתני סביבה
לפני שנתחיל, תצטרך להגדיר את הסביבה שלך על ידי הגדרת המשתנים הבאים: s3_bucket_uri
ו processed_folder
. s3_bucket_uri
הוא שם הדלי המשמש בחלק 1 ו processed_folder
הוא המיקום של Amazon S3 עבור הפלט מעבודת הייצוא.
צור עבודת יצוא
בחלק 1, יצרנו מחברת SageMaker ושירות ייצוא כדי לייצא את הנתונים שלנו מאשכול Neptune DB לאמזון S3 בפורמט הנדרש.
כעת, לאחר שהנתונים שלנו נטענים ושירות הייצוא נוצר, עלינו ליצור עבודת יצוא להתחיל אותו. כדי לעשות זאת, אנו משתמשים NeptuneExportApiUri
וליצור פרמטרים עבור עבודת הייצוא. בקוד הבא, אנו משתמשים במשתנים expo
ו export_params
. הגדר expo
לך NeptuneExportApiUri
ערך, שתוכל למצוא ב- יציאות לשונית של ערימת CloudFormation שלך. ל export_params
, אנו משתמשים בנקודת הקצה של אשכול נפטון שלך ומספקים את הערך עבור outputS3path
, שהוא המיקום של Amazon S3 עבור הפלט מעבודת הייצוא.
כדי לשלוח את עבודת הייצוא השתמש בפקודה הבאה:
כדי לבדוק את המצב של עבודת הייצוא השתמש בפקודה הבאה:
לאחר השלמת העבודה שלך, הגדר את processed_folder
משתנה כדי לספק את מיקום Amazon S3 של התוצאות המעובדות:
צור עבודת עיבוד נתונים
כעת לאחר שהייצוא נעשה, אנו יוצרים עבודת עיבוד נתונים כדי להכין את הנתונים לתהליך האימון של Neptune ML. זה יכול להיעשות בכמה דרכים שונות. עבור שלב זה, אתה יכול לשנות את job_name
ו modelType
משתנים, אבל כל שאר הפרמטרים חייבים להישאר זהים. החלק העיקרי של קוד זה הוא modelType
פרמטר, שיכול להיות דגמי גרפים הטרוגניים (heterogeneous
) או גרפי ידע (kge
).
עבודת היצוא כוללת גם training-data-configuration.json
. השתמש בקובץ זה כדי להוסיף או להסיר כל צמתים או קצוות שאינך רוצה לספק להדרכה (לדוגמה, אם אתה רוצה לחזות את הקישור בין שני צמתים, אתה יכול להסיר את הקישור הזה בקובץ תצורה זה). עבור פוסט זה בבלוג אנו משתמשים בקובץ התצורה המקורי. למידע נוסף, ראה עריכת קובץ תצורת אימון.
צור את עבודת עיבוד הנתונים שלך עם הקוד הבא:
כדי לבדוק את המצב של עבודת הייצוא השתמש בפקודה הבאה:
הגשת עבודת הדרכה
לאחר סיום עבודת העיבוד, נוכל להתחיל את עבודת ההדרכה שלנו, שם אנו יוצרים את ההטבעות שלנו. אנו ממליצים על סוג מופע של ml.m5.24xlarge, אבל אתה יכול לשנות את זה כדי להתאים לצרכי המחשוב שלך. ראה את הקוד הבא:
אנו מדפיסים את המשתנה training_results כדי לקבל את המזהה עבור עבודת ההדרכה. השתמש בפקודה הבאה כדי לבדוק את מצב העבודה שלך:
%neptune_ml training status --job-id {training_results['id']} --store-to training_status_results
הורד הטמעות
לאחר סיום עבודת ההדרכה שלך, השלב האחרון הוא להוריד את ההטמעות הגולמיות שלך. השלבים הבאים מראים לך כיצד להוריד הטמעות שנוצרו באמצעות KGE (תוכל להשתמש באותו תהליך עבור RGCN).
בקוד הבא, אנו משתמשים neptune_ml.get_mapping()
ו get_embeddings()
להורדת קובץ המיפוי (mapping.info
) וקובץ ההטמעות הגולמי (entity.npy
). לאחר מכן עלינו למפות את ההטמעות המתאימות למזהות התואמות להן.
כדי להוריד RGCNs, בצע את אותו תהליך עם שם עבודת הדרכה חדש על ידי עיבוד הנתונים עם הפרמטר modelType מוגדר ל- heterogeneous
, ולאחר מכן אימון המודל שלך עם הפרמטר modelName שהוגדר ל rgcn
לִרְאוֹת כאן לפרטים נוספים. ברגע שזה יסתיים, התקשר ל- get_mapping
ו get_embeddings
פונקציות כדי להוריד את החדש שלך mapping.info ו entity.npy קבצים. לאחר שיש לך את קבצי הישות והמיפוי, התהליך ליצירת קובץ ה-CSV זהה.
לבסוף, העלה את ההטמעות שלך למיקום הרצוי של Amazon S3:
ודא שאתה זוכר את מיקום S3 זה, תצטרך להשתמש בו בחלק 3.
לנקות את
כשתסיים להשתמש בפתרון, הקפד לנקות משאבים כלשהם כדי למנוע חיובים מתמשכים.
סיכום
בפוסט זה, דנו כיצד להשתמש ב-Neptune ML כדי לאמן הטבעות GNN מנתוני IMDb.
כמה יישומים קשורים של הטבעת גרפי ידע הם מושגים כמו חיפוש מחוץ לקטלוג, המלצות תוכן, פרסום ממוקד, חיזוי קישורים חסרים, חיפוש כללי וניתוח עוקבות. חיפוש מחוץ לקטלוג הוא תהליך של חיפוש תוכן שאין בבעלותך, ומציאת או המלצה על תוכן שנמצא בקטלוג שלך שקרוב ככל האפשר למה שהמשתמש חיפש. אנו צוללים עמוק יותר לתוך חיפוש מחוץ לקטלוג בחלק 3.
על הכותבים
מתיו רודס הוא מדען נתונים. אני עובד במעבדת הפתרונות של אמזון ML. הוא מתמחה בבניית צינורות למידת מכונה הכוללים מושגים כמו עיבוד שפה טבעית וראייה ממוחשבת.
דיוויה בהרגאווי היא מדענית נתונים ומובילה אנכית במדיה ובידור במעבדת הפתרונות של Amazon ML, שם היא פותרת בעיות עסקיות בעלות ערך גבוה עבור לקוחות AWS באמצעות Machine Learning. היא עובדת על הבנת תמונה/וידאו, מערכות המלצות גרפי ידע, מקרי שימוש חזוי בפרסום.
גאורב רלה הוא מדען נתונים במעבדת ML ML של אמזון, שם הוא עובד עם לקוחות AWS בכל האנכים השונים כדי להאיץ את השימוש שלהם בלמידת מכונה ושירותי ענן AWS כדי לפתור את האתגרים העסקיים שלהם.
קארן סינדואני הוא מדען נתונים במעבדת פתרונות ML של אמזון, שם הוא בונה ופורס מודלים של למידה עמוקה. הוא מתמחה בתחום הראייה הממוחשבת. בזמנו הפנוי הוא נהנה לטייל.
סוג'י אדשינה הוא מדען יישומי ב-AWS, שם הוא מפתח מודלים מבוססי רשת עצבית גרפים ללמידת מכונה במשימות גרפים עם יישומים להונאה וניצול לרעה, גרפי ידע, מערכות ממליצים ומדעי החיים. בזמנו הפנוי הוא נהנה לקרוא ולבשל.
וידיה סגר רביפאטי הוא מנהל במעבדת פתרונות ML של אמזון, שם הוא ממנף את ניסיונו הרב במערכות מבוזרות בקנה מידה גדול ואת התשוקה שלו ללמידת מכונה כדי לעזור ללקוחות AWS בתחומים שונים בתעשייה להאיץ את אימוץ הבינה המלאכותית והענן שלהם.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/part-2-power-recommendations-and-search-using-an-imdb-knowledge-graph/
- 1
- 10
- 100
- 11
- 116
- 7
- 9
- a
- אודות
- התעללות
- להאיץ
- לרוחב
- נוסף
- מידע נוסף
- אימוץ
- פרסום
- לאחר
- AI
- תעשיות
- לבד
- אמזון בעברית
- מעבדת פתרונות אמזון ML
- אנליזה
- ו
- יישומים
- יישומית
- החל
- מתאים
- AREA
- מלאכותי
- בינה מלאכותית
- AWS
- מבוסס
- בֵּין
- B
- מיליארדים
- בלוג
- אריזה מקורית
- קופה
- לִבנוֹת
- בִּניָן
- בונה
- עסקים
- שיחה
- מקרה
- מקרים
- קטלוג
- האתגרים
- שינוי
- חיובים
- לבדוק
- סְגוֹר
- ענן
- אימוץ ענן
- שירותי ענן
- אשכול
- קוד
- עוקבים
- להשלים
- מַקִיף
- המחשב
- ראייה ממוחשבת
- מחשוב
- מושגים
- לנהל
- תְצוּרָה
- מחובר
- תוכן
- תוֹאֵם
- מדינות
- לִיצוֹר
- נוצר
- אשראי
- קרדיטים
- לקוח
- מעורבות לקוחות
- לקוחות
- נתונים
- עיבוד נתונים
- מדען נתונים
- מערכי נתונים
- עמוק
- למידה עמוקה
- עמוק יותר
- פורס
- פרטים
- צעצועי התפתחות
- מפתחת
- דגל
- אחר
- תגלית
- לדון
- נָדוֹן
- מופץ
- מערכות מבוזרות
- לא
- להורדה
- או
- מתעורר
- נקודת קצה
- התעסקות
- בידור
- ישות
- סביבה
- Ether (ETH)
- דוגמה
- ניסיון
- יצוא
- תמצית
- מאפיין
- מעטים
- שדה
- שלח
- קבצים
- מציאת
- תזרים
- לעקוב
- הבא
- פוּרמָט
- הונאה
- החל מ-
- מלא
- פונקציות
- כללי
- ליצור
- דור
- לקבל
- גלוֹבָּלִי
- Go
- גרף
- גרפים
- ידות על
- קשה
- לעזור
- מועיל
- מוּסתָר
- ברמה גבוהה
- שעות
- איך
- איך
- HTML
- HTTPS
- בן אנוש
- זהה
- זיהוי
- ליישם
- יישום
- לשפר
- in
- כולל
- כולל
- להגדיל
- מדד
- תעשייה
- מידע
- מידע
- למשל
- במקום
- מוֹדִיעִין
- לערב
- IT
- עבודה
- ג'סון
- מפתח
- ידע
- מעבדה
- שפה
- גָדוֹל
- בקנה מידה גדול
- אחרון
- עוֹפֶרֶת
- למידה
- מנופים
- סִפְרִיָה
- רישיון
- החיים
- מדעי חיים
- קשר
- קישורים
- מיקום
- מכונה
- למידת מכונה
- ראשי
- עושה
- מנהל
- רב
- מַפָּה
- מיפוי
- מדיה
- בינוני
- להרשם/להתחבר
- מידע נוסף
- מִילִיוֹן
- חסר
- ML
- מודל
- מודלים
- יותר
- סרט
- שם
- טבעי
- עיבוד שפה טבעית
- צורך
- צרכי
- נפטון
- מבוסס רשת
- רשתות
- רשתות עצביות
- חדש
- צמתים
- מחברה
- Office
- מתמשך
- מְקוֹרִי
- אחר
- מקיף
- שֶׁלוֹ
- חבילה
- פרמטר
- פרמטרים
- חלק
- תשוקה
- צינור
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- אפשרי
- הודעה
- כּוֹחַ
- מופעל
- לחזות
- ניבוי
- להכין
- קופונים להדפסה
- בעיות
- תהליך
- תהליך
- מוצרים
- פּרוֹפִיל
- לספק
- מספק
- רכס
- דירוגים
- חי
- קריאה
- להמליץ
- המלצה
- המלצות
- ממליץ
- קָשׁוּר
- מערכות יחסים
- להשאר
- לזכור
- להסיר
- דווח
- נדרש
- משאבים
- תוצאות
- שייר
- בעל חכמים
- אותו
- מדעים
- מַדְעָן
- חיפוש
- חיפוש
- סדרה
- שרות
- שירותים
- סט
- הצבה
- צריך
- לְהַצִיג
- פִּתָרוֹן
- פתרונות
- לפתור
- פותר
- מתמחה
- לערום
- התחלה
- מצב
- שלב
- צעדים
- חנות
- להגיש
- כזה
- כדלקמן
- סֶקֶר
- מערכות
- ממוקד
- משימות
- טכניקות
- טכנולוגיה
- אל האני
- האזור
- שֶׁלָהֶם
- דרך
- זמן
- כותרות
- ל
- רכבת
- הדרכה
- לשנות
- נָכוֹן
- הדרכה
- tv
- הבנה
- להשתמש
- במקרה להשתמש
- משתמש
- בעל ערך
- ערך
- Vast
- גרסה
- אנכיות
- חזון
- דרכים
- שבועות
- מה
- אשר
- רָחָב
- טווח רחב
- יצטרך
- עובד
- עובד
- זפירנט