רנגלר הנתונים של אמזון SageMaker היא הדרך המהירה והקלה ביותר עבור מדעני נתונים להכין נתונים ליישומי למידת מכונה (ML). בעזרת Data Wrangler תוכלו לפשט את תהליך הנדסת התכונות ולהשלים כל שלב בתהליך העבודה של הכנת הנתונים, כולל בחירת נתונים, ניקוי, חקירה והדמיה באמצעות ממשק חזותי יחיד. Data Wrangler מגיע עם 300 מתכונים מובנים לשינוי נתונים שבהם תוכלו להשתמש כדי לנרמל במהירות, לשנות ולשלב תכונות. בעזרת הכלי לבחירת נתונים ב- Data Wrangler, באפשרותך לבחור במהירות נתונים ממקורות נתונים שונים, כגון שירות אחסון פשוט של אמזון (אמזון S3), אמזונה אתנה, ו האדום של אמזון.
תצורת אגם AWS יכולות חוצות-חשבונות מפשטות את האבטחה והניהול של אגמי נתונים מבוזרים במספר חשבונות באמצעות גישה מרכזית, ומספקת בקרת גישה משובחת לטבלאות אתנה.
בפוסט זה אנו מדגימים כיצד לאפשר גישה חוצה-חשבונות עבור Data Wrangler באמצעות אתנה כמקור ו- Lake Formation כיכולת ניהול נתונים מרכזית. כפי שמוצג בתרשים הארכיטקטורה הבא, חשבון A הוא חשבון אגם הנתונים המחזיק את כל הנתונים המוכנים ל- ML שמקורם בצינורות ETL. חשבון B הוא חשבון מדעי הנתונים שבו צוות מדעני נתונים משתמש ב- Data Wrangler כדי לאסוף ולהפעיל טרנספורמציות נתונים. עלינו לאפשר הרשאות חוצה חשבונות עבור Data Wrangler בחשבון B כדי לגשת לטבלאות הנתונים הממוקמות באגם הנתונים של חשבון A באמצעות הרשאות Lake Lake.
בעזרת ארכיטקטורה זו, מדעני נתונים ומהנדסים מחוץ לחשבון אגם הנתונים יכולים לגשת לנתונים מהאגם וליצור שינויי נתונים באמצעות Data Wrangler.
לפני שתצלול לתהליך ההתקנה, ודא שהנתונים שישותפו בין חשבונות נסרקים ומקוטלגים כמפורט בזה פוסט. נניח שתהליך זה הושלם ומאגרי המידע והטבלאות כבר קיימים ב- Lake Formation.
להלן השלבים ברמה גבוהה ליישום פתרון זה:
- בחשבון A, רשום את דלי ה- S3 שלך באמצעות Lake Formation וצור את מסדי הנתונים והטבלאות הדרושים עבור הנתונים אם אינם קיימים.
- מנהל Lake Formation יכול כעת לשתף מערכי נתונים מחשבון A לחשבונות אחרים. Lake Formation חולקת משאבים אלה באמצעות מנהל גישה למשאבי AWS (זיכרון RAM של AWS).
- בחשבון B, קבל את בקשת שיתוף המשאבים באמצעות AWS RAM. צור קישור משאבים מקומי לטבלה המשותפת באמצעות Lake Formation וצור מסד נתונים מקומי.
- לאחר מכן, עליך להעניק הרשאות עבור ה- סטודיו SageMaker תפקיד ביצוע בחשבון B כדי לגשת לטבלה המשותפת ולקישור המשאבים שיצרת בשלב הקודם.
- ב- Data Wrangler, השתמש במסד הנתונים המקומי ובקישור המשאבים שיצרת בחשבון B כדי לשאול את מערך הנתונים באמצעות מחבר אתנה ולבצע שינויים בתכונות.
הגדרת אגם נתונים באמצעות Lake Lake Formation
כדי להתחיל, צור אגם נתונים מרכזי בחשבון A. אתה יכול לשלוט בגישה לאגם הנתונים באמצעות מדיניות והרשאות, ולהגדיר הרשאות ברמת מסד הנתונים, הטבלה או העמודה.
כדי להתחיל את תהליך ההתקנה, להורדה את קובץ ה- .csv של מערך הנתונים הטיטני והעלה אותו לדלי S3 שלך. לאחר העלאת הקובץ, עליך לרשום את הדלי ב- Lake Formation. הרשאות היווצרות אגם מאפשרות בקרת גישה משובחת לנתונים באגם הנתונים שלך.
הערה: אם מערך הנתונים הטיטני כבר קוטלג, תוכל לדלג על שלב ההרשמה למטה.
רשום את חנות הנתונים של S3 ב- Lake Formation
כדי לרשום את מאגר הנתונים שלך, בצע את השלבים הבאים:
- בחשבון A היכנס למסוף Lake Formation.
אם זו הפעם הראשונה שאתה ניגש לאגם גיבוש, עליך להוסיף מנהלים לחשבון.
- בחלונית הניווט, מתחת הרשאות, בחר מנהלים ויוצרים מסדי נתונים.
- תַחַת מנהלי אגם נתונים, בחר להעניק.
כעת אתה מוסיף AWS זהות וניהול גישה (IAM) משתמשים או תפקידים ספציפיים לחשבון A כמנהלי אגם נתונים.
- תַחַת נהל מנהלי אגם נתונים, עבור משתמשים ותפקידי IAMבחר את המשתמש או התפקיד שלך (לפוסט זה אנו משתמשים
user-a
).
זה יכול להיות גם תפקיד הניהול של IAM של חשבון A.
- בחרו שמור.
- הפוך בטוח
IAMAllowedPrincipals
הקבוצה אינה רשומה תחת שניהם מנהלי אגם נתונים ו מסד נתונים יוצרים.
לקבלת מידע נוסף אודות הגדרות אבטחה, ראה שינוי הגדרות האבטחה המוגדרות כברירת מחדל עבור אגם הנתונים שלך.
לאחר מכן, עליך לרשום את דלי S3 כמיקום אגם הנתונים.
- על קונסולת האגם, מתחת הירשמו ובלעו, בחר מיקומי אגם נתונים.
על דף זה להציג רשימה של דליי S3 המסומנים כמשאבי אחסון אגם נתונים עבור Lake Lake Formation. דלי S3 יחיד עשוי לשמש כמאגר עבור מערכי נתונים רבים, או שתוכל להשתמש בדליים נפרדים עבור מקורות נתונים נפרדים.
- בחרו רשום מיקום.
- בעד נתיב S3 של אמזון, הזן את הנתיב לדלי שלך.
- בעד תפקיד IAMבחר
AWSServiceRoleForLakeFormationDataAccess
. - בחרו רשום מיקום.
לאחר שלב זה, אתה אמור להיות מסוגל לראות את דלי ה- S3 שלך מתחת נתונים אגם מקומות.
צור מסד נתונים
שלב זה הוא אופציונלי. דלג על שלב זה אם מערך הנתונים הטיטני כבר נסרק וקטלג. מסד הנתונים והטבלה עבור מערך הנתונים צריכים להתקיים מראש בתוך אגם הנתונים.
השלם את השלבים הבאים לרישום מסד הנתונים אם הוא אינו קיים:
- על קונסולת האגם, מתחת קטלוג נתונים, בחר מאגרי מידע.
- בחרו צור בסיס נתונים.
- בעד פרטי מסד נתונים, בחר מסד נתונים.
- בעד שם, הזן שם (לדוגמה,
titanic
). - בעד מקום, הזן את נתיב דלי האגם S3.
- בטל את הבחירה השתמש רק בבקרות גישה של IAM לטבלאות במסד נתונים זה.
- בחרו צור בסיס נתונים.
- תַחַת פעולות, בחר הרשאות.
- בחרו הצג הרשאות.
- ודא כי
IAMAllowedPrincipals
הקבוצה אינה רשומה.
אם הוא מופיע ברשימה, הקפד לבטל את הגישה לקבוצה זו.
כעת אתה אמור להיות מסוגל להציג את מסד הנתונים שנוצר המופיע תחת מאגרי מידע.
אתה אמור להיות מסוגל לראות את הטבלה במסוף Lake Formation, מתחת נתונים קטלוג בחלונית הניווט, מתחת לוחות. עבור הדגמה זו, הבה נניח ששם הטבלה יהיה titanic_datalake_bucket_as
כמוצג להלן.
הענק הרשאות לטבלה לחשבון א '
כדי להעניק הרשאות טבלה לחשבון A, בצע את השלבים הבאים:
- היכנס למסוף Lake Formation באמצעות חשבון A.
- תַחַת קטלוג נתונים, בחר לוחות.
- בחר את הטבלה שנוצרה לאחרונה.
- על פעולות תפריט, תחת הרשאות, בחר להעניק.
- בחר החשבון שלי.
- בעד משתמשים ותפקידי IAMבחר את המשתמשים או התפקידים שברצונך להעניק גישה (לפוסט זה אנו בוחרים
user-x
, משתמש אחר בחשבון A).
ניתן גם להגדיר מסנן עמודות.
- בעד עמודות, בחר כלול עמודות.
- בעד כלול עמודותבחר את חמש העמודות הראשונות מתוך
titanic_datalake_bucket_as
השולחן. - בעד הרשאות טבלה, בחר בחר.
- בחר להעניק.
- עדיין בחשבון A, עבור למסוף אתנה.
- הפעל תצוגה מקדימה של הטבלה.
אתה אמור להיות מסוגל לראות את חמש העמודות הראשונות של ה- titanic_datalake_bucket_as
לפי ההרשאות שהוענקו בשלבים הקודמים.
אימתנו גישה מקומית לטבלת אגם הנתונים בחשבון A באמצעות שלב אתנה זה. לאחר מכן, בואו נעניק גישה לחשבון חיצוני, במקרה שלנו, חשבון B עבור אותה טבלה.
הענק הרשאות לטבלה לחשבון ב '
חשבון חיצוני זה הוא החשבון שמריץ את Data Wrangler. כדי להעניק הרשאות לטבלה, בצע את השלבים הבאים:
- להישאר בחשבון A, על פעולות תפריט, תחת הרשאות, בחר להעניק.
- בחר חשבון חיצוני.
- בעד מזהה חשבון AWS, הזן את מזהה החשבון של חשבון B.
- בחר את אותן חמש העמודות הראשונות בטבלה.
- בעד הרשאות טבלה ו הרשאות הניתנות, בחר בחר.
- בחרו להעניק.
עליך לבטל את הרשאת הסופר מה- IAMAllowedPrincipals
קבוצה לטבלה זו לפני שתעניק לה גישה חיצונית. אתה יכול לעשות זאת ב- פעולות תפריט תחת הצג הרשאות, ואז לבחור IAMAllowPrincipals ולבחור לְבַטֵל.
- במסוף AWS RAM, עדיין בחשבון A, תחת משותף על ידי, בחר משאבים משותפים.
אנו יכולים למצוא ערך בתצורת אגם בעמוד זה.
- עבור לחשבון B.
- במסוף AWS RAM, תחת משותף איתי, אתה רואה הזמנה מ- Lake Formation בחשבון A.
- קבל את ההזמנה על ידי בחירה קבל נתח משאבים.
אחרי שתקבל את זה, על מניות משאבים בדף, אתה אמור לראות את הערך המשותף של Lake Lake, שמקיף את המידע על הקטלוג, מסד הנתונים והטבלה.
במסוף Lake Formation בחשבון B, תוכל למצוא את הטבלה המשותפת שבבעלות חשבון A ב- לוחות עמוד. אם אינך רואה אותו, תוכל לרענן את המסך והמשאב אמור להופיע בקרוב.
כדי להשתמש בטבלה המשותפת הזו בתוך חשבון B, עליך ליצור מסד נתונים מקומי לחשבון B ב- Lake Formation.
- על קונסולת האגם, מתחת מאגרי מידע, בחר צור מאגרי מידע.
- תן שם למסד הנתונים
local_db
.
בשלב הבא, עבור הטבלה הטיטאנית המשותפת ב- Lake Formation, עליך ליצור קישור למשאבים. קישורי משאבים הם אובייקטים של קטלוג נתונים המקשרים למסדי נתונים וטבלאות מטא-נתונים, בדרך כלל למסדי נתונים וטבלאות משותפים מחשבונות AWS אחרים. הם עוזרים לאפשר גישה בין חשבונות לנתונים באגם הנתונים.
- בדף פרטי הטבלה, ב פעולות בתפריט, בחר צור קישור למשאבים.
- בעד שם קישור המשאב, הזן שם (לדוגמה,
titanic_local
). - בעד מסד נתוניםבחר מסד הנתונים המקומי שיצרת בעבר.
- הערכים עבור שולחן משותף ו מאגר הטבלה המשותפת צריך להתאים לאלה שבחשבון A ולהיות מאוכלס אוטומטית.
- בעד מזהה בעלים של טבלה משותפתבחר את מזהה החשבון של חשבון א '.
- בחרו צור.
- בחלונית הניווט, מתחת קטלוג נתונים, בחר הגדרות.
- ודא השתמש רק בבקרת גישה של IAM מושבת עבור מסדי נתונים וטבלאות חדשים.
זאת על מנת לוודא כי Lake Formation מנהל את מסד הנתונים ואת הרשאות הטבלה.
- עבור למסוף SageMaker.
- בלוח הבקרה של סטודיו, תחת סיכום אולפן, העתק את ה- ARN של תפקיד הביצוע.
- עליך להעניק לתפקיד זה הרשאות לגישה למסד הנתונים המקומי, לטבלה המשותפת ולטבלה המקומית שהייתה לך בעבר בתצורת האגם של חשבון B.
- עליך גם לצרף את המדיניות המותאמת אישית הבאה לתפקיד זה. מדיניות זו מאפשרת לסטודיו לגשת לנתונים דרך Lake Lake Formation ומאפשרת לחשבון B לקבל מחיצות נתונים לצורך שאילתת ה-
titanic
מערך נתונים מהטבלאות שנוצרו:
- חזור לקונסולת Lake Formation.
- כאן עלינו להעניק הרשאות לתפקיד הביצוע של SageMaker כדי לגשת למשותף
titanic_datalake_bucket_as
השולחן.
זו הטבלה ששיתפת לחשבון B מחשבון A דרך AWS RAM.
- בחשבון B, בדף פרטי הטבלה, ב- פעולות תפריט, תחת הרשאות, בחר להעניק.
- הענק גישה לתפקיד לטבלה ולחמש עמודות.
- לסיום, הענקת הרשאות תפקיד הביצוע של SageMaker לגישה לטבלת הטיטניק המקומית בחשבון ב '.
גישה לנתונים בין חשבונות בסטודיו
בשלב אחרון זה, אתה אמור להיות מוכן לאמת את הצעדים שפרסו עד כה על ידי בדיקה זו בממשק Data Wrangler.
- על תבואו לשונית, עבור ייבא נתונים, בחר אמזונה אתנה כמקור הנתונים שלך.
- בעד קטלוג נתונים, בחר AwsDataCatalog.
- בעד מסד נתוניםבחר את מסד הנתונים המקומי שיצרת בחשבון B (
local_db
).
אתה אמור להיות מסוגל לראות את הטבלה המקומית (titanic_local
) בחלונית הימנית.
- הפעל שאילתת אתנה כפי שמוצג בצילום המסך הבא כדי לראות את העמודות שנבחרו של ה-
titanic
מערך נתונים שנתת לתפקיד הביצוע של SageMaker ב- Lake Formation (חשבון B). - בחרו ייבא מערך נתונים.
- בעד שם מערך הנתונים, הזן שם (לדוגמה,
titanic-dataset
). - בחרו להוסיף.
זה מייבא את מערך הנתונים הטיטני, ואתה אמור להיות מסוגל לראות את דף זרימת הנתונים עם הבלוקים החזותיים על להכין TAB.
סיכום
בפוסט זה הדגמנו כיצד לאפשר גישה חוצה-חשבונות עבור Wrangler Data באמצעות Lake Formation ו- AWS RAM. בעקבות מתודולוגיה זו, ארגונים יכולים לאפשר למספר צוותי מדע נתונים והנדסה לגשת לנתונים מאגם נתונים מרכזי ולבנות צינורות תכונה ומתכוני טרנספורמציה באופן עקבי. לקבלת מידע נוסף אודות Data Wrangler, ראה היכרות עם Amazon SageMaker Data Wrangler, ממשק חזותי להכנת נתונים ללימוד מכונה ו ניתוח נתונים חקרני, הנדסת תכונות והפעלת זרימת הנתונים לצינור ה- ML שלך עם אמזון סאג'מייקר רנגלר נתונים.
נסה את Wrangler Data ולשתף את המשוב והשאלות שלך בסעיף ההערות.
על הכותבים
ריזואן גילאני הוא מהנדס פיתוח תוכנה ב- Amazon SageMaker. התשוקה שלו טמונה בהפיכת למידת מכונה ליותר אינטראקטיבית ונגישה בקנה מידה. לפני כן הוא עבד על אמזון Alexa כחלק מצוות הליבה שהשיק את Alexa Communications.
פי נגווין הוא אדריכל פתרונות ב- AWS המסייע ללקוחות במסע הענן שלהם עם דגש מיוחד על אגם נתונים, ניתוח, טכנולוגיות סמנטיות ולמידת מכונה. בזמנו הפנוי תוכלו למצוא אותו רוכב על אופניים לעבודה, מאמן את קבוצת הכדורגל של בנו או נהנה מטיול בטבע עם משפחתו.
ארונפרשת שנקר הוא אדריכל פתרונות מומחים לבינה מלאכותית ולמידת מכונות (AI / ML) עם AWS, המסייע ללקוחות גלובליים לשנות את פתרונות ה- AI שלהם ביעילות וביעילות בענן. בזמנו הפנוי, ארון נהנה לצפות בסרטי מדע בדיוני ולהאזין למוזיקה קלאסית.
- גישה
- חֶשְׁבּוֹן
- פעולה
- מנהל
- AI
- Alexa
- אמזון בעברית
- אמזון
- אמזון SageMaker
- אנליזה
- ניתוח
- יישומים
- ארכיטקטורה
- בינה מלאכותית
- בינה מלאכותית ולמידה מכונה
- AWS
- לִבנוֹת
- ענן
- טור
- הערות
- תקשורת
- לקוחות
- נתונים
- גישה למידע
- ניתוח נתונים
- אגם דאטה
- מדע נתונים
- מסד נתונים
- מאגרי מידע
- צעצועי התפתחות
- מהנדס
- הנדסה
- מהנדסים
- הוצאת להורג
- חקירה
- משפחה
- מאפיין
- תכונות
- ראשון
- firsttime
- תזרים
- להתמקד
- gif
- גלוֹבָּלִי
- ממשל
- קְבוּצָה
- איך
- איך
- HTTPS
- IAM
- זהות
- כולל
- מידע
- מוֹדִיעִין
- אינטראקטיבי
- IT
- למידה
- רמה
- קשר
- רשימה
- האזנה
- מקומי
- מיקום
- למידת מכונה
- עשייה
- להתאים
- ML
- סרטים
- כלי נגינה
- ניווט
- אחר
- בעלים
- מדיניות
- מדיניות
- תצוגה מקדימה
- RAM
- מתכונים
- הַרשָׁמָה
- משאב
- משאבים
- הפעלה
- ריצה
- בעל חכמים
- סולם
- מדע
- מדענים
- מסך
- אבטחה
- נבחר
- סמנטיקה
- סט
- שיתוף
- משותף
- שיתופים
- פָּשׁוּט
- So
- כדורגל
- תוכנה
- פיתוח תוכנה
- פתרונות
- התמחות
- החל
- הצהרה
- אחסון
- חנות
- מתג
- טכנולוגיות
- בדיקות
- זמן
- טרנספורמציה
- us
- משתמשים
- לצפיה
- ראיה
- בתוך
- תיק עבודות
- זרימת עבודה