מעבדת פתרונות למידת מכונה של אמזון (MLSL) יצרה לאחרונה כלי להערת טקסט עם זיהוי ישויות שמות (NER) ותוויות יחסים באמצעות האמת של אמזון SageMaker. כותבים משתמשים בכלי זה כדי לתייג טקסט עם ישויות עם שם ולקשר את מערכות היחסים ביניהן, ובכך לבנות מערך נתונים לאימון מודלים מתקדמים של עיבוד שפה טבעית (NLP) למידת מכונה (ML). והכי חשוב, זה זמין כעת לציבור לכל לקוחות AWS.
מקרה שימוש של לקוחות: Booking.com
Booking.com היא אחת מפלטפורמות הנסיעות המקוונות המובילות בעולם. הבנת מה הלקוחות אומרים על 28 מיליון+ רישומי הנכסים של החברה בפלטפורמה חיונית לשמירה על חווית לקוח מהשורה הראשונה. בעבר, Booking.com יכלה להשתמש רק בניתוח סנטימנט מסורתי כדי לפרש ביקורות שנוצרו על ידי לקוחות בקנה מידה. בניסיון לשדרג את הספציפיות של הפרשנויות הללו, Booking.com פנתה לאחרונה ל-MLSL לעזרה בבניית מערך נתונים מוער מותאם אישית להכשרת מודל ניתוח סנטימנטים מבוסס היבטים.
ניתוח סנטימנטים מסורתי הוא תהליך של סיווג קטע טקסט כחיובי, שלילי או נייטרלי בתור סנטימנט יחיד. זה עובד כדי להבין בצורה רחבה אם המשתמשים מרוצים או לא מרוצים מחוויה מסוימת. לדוגמה, עם ניתוח סנטימנט מסורתי, הטקסט הבא עשוי להיות מסווג כ"נייטרלי":
השהות שלנו במלון הייתה נחמדה. הצוות היה ידידותי והחדרים היו נקיים, אבל המיטות שלנו היו די לא נוחות.
ניתוח סנטימנטים מבוסס היבטים מציע הבנה ניואנסית יותר של תוכן. במקרה של Booking.com, במקום לקחת ביקורת לקוח בכללותה ולסווג אותה באופן קטגורי, היא יכולה לקחת סנטימנט מתוך ביקורת ולהקצות אותה להיבטים ספציפיים. לדוגמה, ביקורות של לקוחות על מלון נתון עשויות לשבח את הבריכה ואת אזור הכושר ללא רבב, אך לתת משוב קריטי על המסעדה והטרקלין.
ההצהרה שהייתה מסווגת כ"נייטרלית" על ידי ניתוח סנטימנט מסורתי תהפוך, עם ניתוח סנטימנט מבוסס היבטים:
השהות שלנו במלון הייתה נחמדה. הצוות היה ידידותי והחדרים היו נקיים, אבל המיטות שלנו היו די לא נוחות.
- מלון: חיובי
- צוות: חיובי
- חדר: חיובי
- מיטות: שליליות
Booking.com ביקשה לבנות מודל ניתוח סנטימנטים מבוסס היבטים מותאם אישית, שיגיד להם אילו חלקים ספציפיים בחוויית האורח (מתוך רשימה של 50+ היבטים) היו חיובי, שלילי, או נטרל.
לפני ש-Booking.com יכלה לבנות מערך הדרכה עבור המודל הזה, הם היו צריכים דרך להוסיף לו הערות. כלי ההערות של MLSL סיפק את הפתרון המותאם הנדרש. סקירה אנושית בוצעה על אוסף גדול של ביקורות על מלונות. לאחר מכן, המביאים השלימו הערת ישות עם שם על טווחי טקסט וביטויים של רגשות וחווית אורחים לפני שקישרו בין טווחים מתאימים.
המודל החדש מבוסס ההיבטים מאפשר ל-Booking.com להתאים אישית הן את מקומות האירוח והן את הביקורות ללקוחותיה. הדגשת ההיבטים החיוביים והשליליים של כל אירוח מאפשרת ללקוחות לבחור את ההתאמה המושלמת שלהם. בנוסף, ללקוחות שונים אכפת מהיבטים שונים של הלינה, והדגם החדש פותח הזדמנות להציג את הביקורות הרלוונטיות ביותר לכל אחד.
דרישות תיוג
למרות ש-Ground Truth מספקת יכולת מובנית של הערת טקסט ב-NER, היא אינה מספקת את היכולת לקשר ישויות יחד. מתוך מחשבה זו, Booking.com ו-MLSL פיתחו את הדרישות הבאות ברמה גבוהה עבור כלי חדש לזיהוי טקסט לזיהוי ישויות:
- מקבל כקלט: טֶקסט, תוויות ישויות, תוויות יחסים, ו תוויות סיווג.
- אופציונלי מקבל כקלט נתונים עם הערות מראש עם הערות התווית והקשרים הקודמים.
- מציג למחבר טקסט ללא הערות או מראש.
- מאפשר למפרטים להדגיש ולהעיר טקסט שרירותי עם תווית ישות.
- מאפשר למגיבים ליצור קשרים בין שתי הערות ישויות.
- מאפשר למגיבים לנווט בקלות במספר גדול של תוויות ישויות.
- תומך בקיבוץ תוויות ישויות לקטגוריות.
- אפשר מערכות יחסים חופפות, מה שאומר שאותו קטע טקסט מוער יכול להיות קשור ליותר מקטע טקסט מוער אחד אחר.
- מאפשר הערות חופפות לתווית ישות, כלומר שתי הערות יכולות לחפוף את אותו קטע טקסט. לדוגמה, הטקסט "מחט החלל של סיאטל" יכול לכלול גם את ההערות "סיאטל" → "מיקומים", וגם "מחט החלל של סיאטל" → "אטרקציות".
- פורמט הפלט תואם לפורמט הקלט, וניתן להזין אותו בחזרה למשימות תיוג עוקבות.
- תומך בטקסט מקודד UTF-8 המכיל אמוג'י ותווים מרובים בתים אחרים.
- תומך בשפות משמאל לימין.
הערה לדוגמה
שקול את המסמך הבא:
אהבנו את המיקום של המלון הזה! טרקלין הגג נתן לנו את הנוף המושלם של מחט החלל. הוא גם נמצא במרחק נסיעה קצר משוק פייק פלייס ומקו המים.
האוכל היה זמין רק באמצעות שירות חדרים, מה שהיה קצת מאכזב אבל הגיוני בעולם שלאחר המגפה הזה.
בסך הכל, חוויה במחיר סביר.
טעינת מסמך זה לתוך ההערה החדשה של NER מציגה לעובד את הממשק הבא:
במקרה זה, תפקידו של העובד הוא:
- תווית ישויות הקשורות לנכס (מיקום, מחיר, מזון וכו')
- תווית ישויות הקשורות לסנטימנט (חיובי, שלילי או ניטרלי)
- קשר ישויות בשם הקשורות לנכס למילות מפתח הקשורות לסנטימנט כדי ללכוד במדויק את חווית האורח
מהירות ההערה הייתה שיקול חשוב בכלי. באמצעות רצף של קיצורי מקלדת אינטואיטיביים ומחוות עכבר, כותבים יכולים להניע את הממשק ו:
- הוסף והסר הערות ישויות עם שם
- הוסף קשרים בין ישויות עם שם
- קפוץ להתחלה ולסוף של המסמך
- שלח את המסמך
בנוסף, יש תמיכה בתוויות חופפות. לדוגמה, Seattle Space Needle
: בביטוי הזה, Seattle
מסומן הן כמיקום בפני עצמו והן כחלק משם האטרקציה.
ההערה שהושלמה מספקת ניתוח שלם וניואנסי יותר של הנתונים:
ניתן להגדיר מערכות יחסים ברמות רבות, מקטגוריות ישויות לקטגוריות ישויות אחרות (לדוגמה, מ"מזון" ל"סנטימנט"), או בין סוגי ישויות בודדות. מערכות היחסים מכוונות, כך שמעריכים יכולים לקשר היבט כמו אוכל לסנטימנט, אך לא להיפך (אלא אם כן מופעל באופן מפורש). בעת ציור קשרים, כלי ההערה יגזור אוטומטית את תווית הקשר והכיוון.
הגדרת כלי ההערה של NER
בסעיף זה, אנו מכסים כיצד להתאים אישית את כלי ההערה של NER למקרי שימוש ספציפיים ללקוח. זה כולל הגדרה של:
- טקסט הקלט שיש להוסיף הערות
- תוויות ישויות
- תוויות מערכות יחסים
- תוויות סיווג
- נתונים עם הערות מראש
- הנחיות לעובד
נסקור את הפרטים של פורמטים של מסמכי הקלט והפלט, כמו גם נספק כמה דוגמאות של כל אחד מהם.
קלט פורמט מסמך
כלי ההערה NER מצפה למסמך הקלט הבא בפורמט JSON (שדות עם סימן שאלה ליד השם הם אופציונליים).
בקיצור, לפורמט הקלט יש את המאפיינים הבאים:
- או
entityLabels
orclassificationLabels
(או שניהם) נדרשים להערות. - If
entityLabels
ניתנים, אם כןrelationshipLabels
יכול להוסיף. - ניתן לאפשר מערכות יחסים בין תוויות ישות/קטגוריות שונות או שילוב של אלה.
- ה"מקור" של מערכת יחסים הוא הישות שאיתה מתחיל החץ המכוון, בעוד שה"יעד" הוא המקום אליו הוא מכוון.
שדה | סוּג | תיאור |
טֶקסט | מחרוזת | נדרש. קלט טקסט להערה. |
tokenRows | חוּט[][] | אופציונאלי. אסימון מותאם אישית של טקסט קלט. מערך מערכים של מחרוזות. מערך ברמה העליונה מייצג כל שורת טקסט (מעברי שורות), ומערך ברמה השנייה מייצג אסימונים בכל שורה. יש להתייחס לכל התווים/רונים בטקסט הקלט ב-tokenRows, כולל כל רווח לבן. |
מזהה מסמך | מחרוזת | אופציונאלי. ערך אופציונלי ללקוחות לעקוב אחר המסמכים שמוסיפים הערות. |
תוויות ישות | לְהִתְנַגֵד[] | נדרש אם classificationLabels ריק. מערך תוויות ישויות. |
entityLabels[].name | מחרוזת | נדרש. שם התצוגה של תווית הישות. |
entityLabels[].category | מחרוזת | אופציונאלי. שם קטגוריית תווית ישות. |
entityLabels[].shortName | מחרוזת | אופציונאלי. הצג את הטקסט הזה מעל ישויות מוערות במקום את השם המלא. |
entityLabels[].shortCategory | מחרוזת | אופציונאלי. הצג טקסט זה בתפריט הנפתח של הערת הישויות במקום ארבע האותיות הראשונות של שם הקטגוריה. |
entityLabels.color | מחרוזת | אופציונאלי. קוד צבע משושה עם הקידומת "#". אם ריק, הוא יקצה צבע אוטומטית לתווית הישות. |
תוויות יחסים | לְהִתְנַגֵד[] | אופציונאלי. מערך תוויות מערכות יחסים. |
relationLabels[].name | מחרוזת | נדרש. שם התצוגה של תווית היחסים. |
relationLabels[].allowedRelationships | לְהִתְנַגֵד[] | אופציונאלי. מערך ערכים המגביל אילו סוגים של תוויות מקור ויישויות יעד ניתן להקצות להן קשר זה. כל פריט במערך הוא "OR'ed" ביחד. |
relationLabels[].allowedRelationships[].sourceEntityLabelCategories | חוּט[] | נדרש להגדיר או sourceEntityLabelCategories או sourceEntityLabels (או שניהם). רשימה של סוגי קטגוריות תוויות של ישויות מקור משפטיות עבור קשר זה. |
relationLabels[].allowedRelationships[].targetEntityLabelCategories | חוּט[] | נדרש להגדיר או targetEntityLabelCategories או targetEntityLabels (או שניהם). רשימה של סוגי קטגוריות תווית של ישות יעד משפטיים עבור הקשר הזה. |
relationLabels[].allowedRelationships[].sourceEntityLabels | חוּט[] | נדרש להגדיר או sourceEntityLabelCategories או sourceEntityLabels (או שניהם). רשימה של סוגי תוויות של ישויות מקור משפטיות עבור קשר זה. |
relationLabels[].allowedRelationships[].sourceEntityLabels | חוּט[] | נדרש להגדיר או targetEntityLabelCategories או targetEntityLabels (או שניהם). רשימה של סוגי תוויות של ישויות יעד משפטיות עבור הקשר הזה. |
סיווג תוויות | חוּט[] | נדרש אם entityLabels ריק. רשימה של תוויות סיווג ברמת המסמך. |
EntityAnnotations | לְהִתְנַגֵד[] | אופציונאלי. מערך הערות ישויות להערת טקסט קלט מראש. |
entityAnnotations[].id | מחרוזת | נדרש. מזהה ייחודי עבור הערת ישות זו. משמש להפניה לישות זו ב-relationAnnotations. |
entityAnnotations[].start | מספר | נדרש. התחל קיזוז רונים של הערת ישות זו. |
entityAnnotations[].end | מספר | נדרש. קיזוז רונה סיום של הערת ישות זו. |
entityAnnotations[].text | מחרוזת | נדרש. תוכן טקסט בין התחלה לסוף היסט רונה. |
entityAnnotations[].label | מחרוזת | נדרש. שם תווית ישות משויכת (מהשמות ב-entityLabels). |
entityAnnotations[].labelCategory | מחרוזת | אופציונלי.קטגוריית תווית ישות משויכת (מהקטגוריות ב-entityLabels). |
קשר הערות | לְהִתְנַגֵד[] | אופציונאלי. מערך ביאורי מערכת יחסים. |
relationAnnotations[].sourceEntityAnnotationId | מחרוזת | נדרש. מזהה הערת ישות מקור עבור הקשר הזה. |
relationAnnotations[].targetEntityAnnotationId | מחרוזת | נדרש. מזהה הערת ישות יעד עבור הקשר הזה. |
relationAnnotations[].label | מחרוזת | נדרש. שם תווית קשר משויך. |
סיווג הערות | חוּט[] | אופציונאלי. מערך סיווגים להוספת הערות מראש למסמך. |
מטא | אובייקט | אופציונאלי. פרמטרי תצורה נוספים. |
meta.instructions | מחרוזת | אופציונאלי. הוראות למפרט התיוג בפורמט Markdown. |
meta.disableSubmitConfirmation | בוליאני | אופציונאלי. הגדר כ-true כדי להשבית את שיטת אישור הגשת. |
meta.multiClassification | בוליאני | אופציונאלי. הגדר כ-true כדי לאפשר מצב ריבוי תוויות עבור סיווג תוויות. |
הנה כמה מסמכים לדוגמה כדי לקבל תחושה טובה יותר של פורמט קלט זה
מסמכים התואמים לסכימה זו מסופקים ל-Ground Truth כפריטי שורה בודדים במניפסט קלט.
פורמט מסמך פלט
פורמט הפלט מיועד למשוב בקלות למשימת הערות חדשה. שדות אופציונליים במסמך הפלט מוגדרים אם הם מוגדרים גם במסמך הקלט. ההבדל היחיד בין פורמטי הקלט והפלט הוא meta
אובייקט.
שדה | סוּג | תיאור |
meta.rejected | בוליאני | מוגדר כ-true אם המציין דחה מסמך זה. |
meta.rejectedReason | מחרוזת | הנימוק של המציין לדחיית המסמך. |
meta.runes | חוּט[] | מערך רונים המייצג את כל התווים בטקסט הקלט. משמש לחישוב קיזוז התחלה וסיום של הערות ישות. |
להלן מסמך פלט לדוגמה שצוין בו:
הערה לרונים:
"רונה" בהקשר זה היא תו יחיד בעל יכולת הדגשה בטקסט, כולל תווים מרובים בתים כגון אימוג'י.
- מכיוון ששפות תכנות שונות מייצגות תווים מרובים בתים באופן שונה, השימוש ב-"Runes" כדי להגדיר כל תו בעל יכולת הדגשה כיסוד אטומי בודד אומר שיש לנו דרך חד משמעית לתאר כל בחירת טקסט נתונה.
- לדוגמה, Python מתייחס לדגל שבדיה כארבעה תווים:
אבל JavaScript מתייחס לאותו אימוג'י כאל שתי דמויות
כדי לבטל כל אי בהירות, נתייחס לדגל שבדיה (ולכל שאר האימוג'י ותווים מרובים בתים) כאל יסוד אטומי יחיד.
- היסט: מיקום רונה ביחס לטקסט קלט (החל באינדקס 0)
ביצוע הערות NER עם Ground Truth
כשירות תיוג נתונים מנוהל במלואו, Ground Truth בונה מערכי הדרכה עבור ML. עבור מקרה שימוש זה, אנו משתמשים ב-Ground Truth כדי לשלוח אוסף של מסמכי טקסט למאגר עובדים לצורך הערה. לבסוף, אנו בודקים את האיכות.
ניתן להגדיר את התצורה של Ground Truth לבניית משימת תיוג נתונים באמצעות הכלי החדש של NER כתבנית מותאמת אישית.
באופן ספציפי, אנו:
- צור צוות עובדים עם תיוג פרטי לביצוע משימת ההערות
- צור מניפסט קלט של Ground Truth עם המסמכים שאנו רוצים להוסיף הערות ולאחר מכן העלה אותו אליהם שירות אחסון פשוט של אמזון (Amazon S3)
- צור פונקציות Lambda של משימות טרום-תיוג ואחרי-תיוג
- צור עבודת תיוג Ground Truth באמצעות תבנית NER המותאמת אישית
- הערת מסמכים
- בדוק את התוצאות
משאבי כלי NER
רשימה מלאה של משאבים ומסמכים לדוגמה ניתן למצוא בתרשים הבא:
תיוג יצירת כוח אדם
Ground Truth משתמש בכוח העבודה לתיוג SageMaker כדי לנהל עובדים ולהפיץ משימות. צור כוח עבודה פרטי, צוות עובדים שנקרא ner-worker-team, והקצה את עצמך לצוות באמצעות ההוראות שנמצאות ב- צור כוח עבודה פרטי (Amazon SageMaker Console).
לאחר שהוספת את עצמך לכוח עבודה פרטי ואישרת את הדוא"ל שלך, שים לב לכתובת ה-URL של פורטל העובדים ממסוף הניהול של AWS:
- נווט אל
SageMaker
- נווט אל
Ground Truth → Labeling workforces
- בחר
Private
כרטיסייה - שימו לב לכתובת האתר
Labeling portal sign-in URL
היכנס לפורטל העובדים כדי להציג ולהתחיל בעבודה על משימות תיוג.
מניפסט קלט
מניפסט נתוני הקלט של Ground Truth הוא קובץ JSON-lines שבו כל שורה מכילה משימת עובד בודדת. במקרה שלנו, כל שורה תכיל מסמך קלט בודד מקודד JSON המכיל את הטקסט שברצוננו להוסיף הערות ואת סכימת ההערות של NER.
הורד מניפסט קלט לדוגמה reviews.manifest
החל מ- https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest
הערות: כל שורה במניפסט הקלט זקוקה למפתח ברמה העליונה source
or source-ref
. אתה יכול ללמוד עוד ב השתמש בקובץ מניפסט קלט במדריך למפתחים של אמזון SageMaker.
העלה מניפסט קלט לאמזון S3
העלה מניפסט קלט זה לדלי S3 באמצעות מסוף הניהול של AWS או משורת הפקודה, ובכך להחליף your-bucket
עם שם דלי אמיתי.
הורד תבנית עובד מותאמת אישית
הורד את תבנית העובד המותאמת לכלי NER מ https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html על ידי צפייה במקור ושמירת התוכן באופן מקומי, או משורת הפקודה:
צור פונקציות Lambda של משימות טרום-תיוג ואחרי-תיוג
הורד דוגמה למשימת קדם-תיוג פונקציית Lambda: smgt-ner-pre-labeling-task-lambda.py
החל מ- https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py
הורד דוגמה למשימת קדם-תיוג פונקציית Lambda: smgt-ner-post-labeling-task-lambda.py
החל מ- https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py
- צור פונקציית Lambda של משימות קדם-תיוג ממסוף הניהול של AWS:
- נווט אל
Lambda
- בחר
Create function
- לפרט
Function name
assmgt-ner-pre-labeling-task-lambda
- בחר
Runtime
→Python 3.6
- בחר
Create function
- In
Function code
→lambda_hanadler.py
, הדבק את התוכן שלsmgt-ner-pre-labeling-task-lambda.py
- בחר
Deploy
- נווט אל
- צור פונקציית Lambda לאחר תיוג משימות ממסוף הניהול של AWS:
- נווט אל
Lambda
- בחר
Create function
- לפרט
Function name
assmgt-ner-post-labeling-task-lambda
- בחר
Runtime
→Python 3.6
- לְהַרְחִיב
Change default execution role
- בחר
Create a new role from AWS policy templates
- הזן
Role name
:smgt-ner-post-labeling-task-lambda-role
- בחר
Create function
- בחר
Permissions
כרטיסייה - בחר
Role name
:smgt-ner-post-labeling-task-lambda-role
כדי לפתוח את קונסולת IAM - הוסף שני מדיניות לתפקיד
- בחר
Attach policies
- צרף את ה-
AmazonS3FullAccess
מדיניות - בחר
Add inline policy
- בחר
JSON
כרטיסייה - הדבק את המדיניות המוטבעת הבאה:
- בחר
- נווט חזרה אל
smgt-ner-post-labeling-task-lambda
דף תצורת פונקציית למדה - בחר
Configuration
כרטיסייה - In
Function code
→ lambda_hanadler.py
, הדבק את התוכן שלsmgt-ner-post-labeling-task-lambda.py
- בחר
Deploy
- נווט אל
צור עבודת תיוג Ground Truth
ממסוף הניהול של AWS:
- נווט אל
Amazon SageMaker
שרות - נווט אל
Ground Truth
→Labeling Jobs
. - בחר
Create labeling job
- ציין א
Job Name
- בחר
Manual Data Setup
- ציין את מיקום מערך הנתונים של הקלט שאליו העלית את מניפסט הקלט קודם לכן (לדוגמה, ס'
3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl
) - ציין את מיקום מערך הנתונים של פלט כדי להצביע על תיקיה אחרת באותו דלי (למשל,
s3://your-bucket/ner-output/
) - ציין
IAM Role
בבחירהCreate new role
- אפשר לתפקיד זה לגשת לכל דלי S3 על ידי בחירה
S3 buckets you specify
→Any S3 bucket
בעת יצירת הפוליסה - בחלון AWS Management Console חדש, פתח את ה
IAM
מסוף ובחרRoles
- חפש את שם התפקיד שיצרת זה עתה (לדוגמה,
AmazonSageMaker-ExecutionRole-20210301T154158
) - בחר את שם התפקיד כדי לפתוח את התפקיד במסוף
- צרף את שלושת המדיניות הבאים:
- בחר צרף מדיניות
- צרף את ה-
AWSLambda_FullAccess
לתפקיד - בחר
Trust Relationships
→Edit Trust Relationships
- ערוך את קשר האמון JSON,
- חלף
YOUR_ACCOUNT_NUMBER
עם מספר חשבון AWS שלך, כדי לקרוא: - הצילו את יחסי האמון
- אפשר לתפקיד זה לגשת לכל דלי S3 על ידי בחירה
- חזור לעבודת Ground Truth החדשה בחלון הקודם של AWS Management Console: תחת
Task Category
, בחרCustom
- בחר
Next
- בחר
Worker types
:Private
- בחר
Private team
:ner-worker-team
שנוצרה בסעיף הקודם - ב
Custom labeling task setup
אזור הטקסט, נקה את תוכן ברירת המחדל והדבק את התוכן שלworker-template.liquid.html
קובץ שהושג קודם לכן - ציין את
Pre-labeling task Lambda function
עם הפונקציה שנוצרה קודם לכן:smgt-ner-pre-labeling
- ציין את
Post-labeling task Lambda function
עם הפונקציה שנוצרה קודם לכן:smgt-ner-post-labeling
- בחר
Create
הערת מסמכים
לאחר יצירת עבודת Ground Truth, נוכל להתחיל להוסיף הערות למסמכים. פתח את פורטל העובדים עבור כוח העבודה שלנו שנוצר קודם לכן (במסוף הניהול של AWS, נווט אל SageMaker
, Ground Truth → Labeling workforces
, Private
, ופתח את Labeling portal sign-in URL
)
היכנס ובחר את משימת התיוג הראשונה בטבלה, ולאחר מכן בחר "התחל לעבוד" כדי לפתוח את המציין. בצע את ההערות שלך ובחר שלח בכל שלושת המסמכים לדוגמה.
בדוק את התוצאות
כאשר כותבי Ground Truth משלימים משימות, התוצאות יהיו זמינות בדלי הפלט S3:
לאחר השלמת כל המשימות עבור עבודת תיוג, הפלט המאוחד זמין ב- output.manifest
קובץ שנמצא כאן:
מניפסט פלט זה הוא קובץ JSON-lines עם מסמך טקסט מוער אחד לכל שורה ב"פורמט מסמך פלט" שצוין קודם לכן. קובץ זה תואם ל"פורמט מסמך קלט", וניתן להזין אותו ישירות לעבודת Ground Truth שלאחר מכן לסבב נוסף של הערות. לחלופין, ניתן לנתח אותו ולשלוח אותו לעבודת הכשרה ב-ML. כמה תרחישים שבהם נוכל להשתמש בסבב שני של הערות הם:
- חלוקת תהליך ההערה לשני שלבים, כאשר המציין הראשון מזהה הערות של ישות והמציין השני מצייר קשרים
- לוקחים דגימה שלנו
output.manifest
ושליחתו למערב שני ומנוסה יותר לבדיקה כבדיקת בקרת איכות
תבניות הערות קרקע מותאמות אישית
כלי ההערה של NER המתואר במסמך זה מיושם כתבנית ביאור Ground Truth מותאמת אישית. לקוחות AWS יכולים לבנות ממשקי הערות מותאמים אישית משלהם באמצעות ההוראות שנמצאות כאן:
סיכום
על ידי עבודה משותפת, Booking.com ו-Amazon MLSL הצליחו לפתח כלי רב עוצמה להערות טקסט המסוגל ליצור זיהוי מורכבות של ישויות בשם והערות יחסים.
אנו מעודדים לקוחות AWS עם מקרה שימוש בהערות טקסט NER לנסות את הכלי המתואר בפוסט זה. אם תרצה עזרה להאיץ את השימוש ב-ML במוצרים ובשירותים שלך, אנא צור קשר עם מעבדת פתרונות למידת מכונות של אמזון.
על הכותבים
דן נובל הוא מהנדס פיתוח תוכנה באמזון שם הוא עוזר לבנות חוויות משתמש מענגות. בזמנו הפנוי הוא נהנה לקרוא, להתעמל ולחוות הרפתקאות עם משפחתו.
פרי נוניס הוא Deep Learning Architect במעבדת פתרונות ML של אמזון, שם הוא עובד עם לקוחות בתחומים שונים ומסייע להם להאיץ את מסע ההגירה שלהם לענן ולפתור את בעיות ה-ML שלהם באמצעות פתרונות וטכנולוגיות חדישות.
ניהריקה ג'יאנטי היא מהנדסת קצה ב-AWS, שם היא מפתחת פתרונות הערות מותאמים אישית עבור לקוחות Amazon SageMaker. מחוץ לעבודה, היא נהנית ללכת למוזיאונים ולהתאמן.
עמית בקה הוא מנהל למידת מכונה ב Booking.com, עם למעלה מ-15 שנות ניסיון בפיתוח תוכנה ולמידת מכונה. הוא מוקסם מאנשים ושפות, ואיך מחשבים עדיין מבולבלים על ידי שניהם.
- '
- 100
- 11
- 7
- אודות
- גישה
- חֶשְׁבּוֹן
- חשבונאות
- לרוחב
- פעולה
- תוספת
- נוסף
- תעשיות
- אמזון בעברית
- למידת מכונת אמזון
- אמזון SageMaker
- דו משמעות
- אנליזה
- AREA
- זמין
- זמין לכולם
- AWS
- התחלה
- להיות
- לִבנוֹת
- בִּניָן
- אשר
- מקרים
- מיון
- ענן
- קוד
- אוסף
- מורכב
- מחשבים
- תְצוּרָה
- התחשבות
- קונסול
- תוכן
- תוכן
- יכול
- יוצרים
- קריטי
- חווית לקוח
- לקוחות
- נתונים
- למידה עמוקה
- לפתח
- מפתח
- צעצועי התפתחות
- אחר
- מסמכים
- לא
- בקלות
- השפעה
- אמייל
- Emoji
- לעודד
- מהנדס
- וכו '
- דוגמה
- הוצאת להורג
- מצפה
- ניסיון
- חוויות
- משפחה
- הפד
- מָשׁוֹב
- שדות
- בסופו של דבר
- ראשון
- כושר גופני
- מזון
- פוּרמָט
- מצא
- מלא
- פונקציה
- gif
- הולך
- אוֹרֵחַ
- מדריך
- לעזור
- עוזר
- כאן
- להבליט
- מלון
- איך
- איך
- HTTPS
- IAM
- יושם
- חשוב
- כולל
- מדד
- בנפרד
- IT
- JavaScript
- עבודה
- מסע
- מפתח
- תיוג
- תוויות
- שפה
- שפות
- גָדוֹל
- מוביל
- לִלמוֹד
- למידה
- משפטי
- רמה
- רמות
- קו
- קשר
- נוזל
- רשימה
- רישומים
- באופן מקומי
- מיקום
- הסתכלות
- למידת מכונה
- ניהול
- סימן
- שוק
- להתאים
- meta
- אכפת לי
- ML
- מודל
- יותר
- מוזיאונים
- שמות
- שפה טבעית
- עיבוד שפה טבעית
- נחוץ
- NLP
- מספרים
- המיוחדות שלנו
- לקזז
- באינטרנט
- לפתוח
- נפתח
- הזדמנות
- אחר
- אֲנָשִׁים
- ביטויים
- פלטפורמה
- פלטפורמות
- מדיניות
- מדיניות
- בריכה
- כניסה
- פוסט-מגפה
- חזק
- מחיר
- מנהל
- פְּרָטִי
- תהליך
- מוצרים
- תכנות
- שפות תכנות
- רכוש
- לספק
- מספק
- פיתון
- איכות
- שאלה
- קריאה
- מערכות יחסים
- דרישות
- משאב
- משאבים
- מסעדה
- תוצאות
- סקירה
- חוות דעת של לקוחותינו
- חדרים
- בעל חכמים
- חסכת
- סולם
- תחושה
- רגש
- שירותים
- סט
- קצר
- פָּשׁוּט
- So
- תוכנה
- פיתוח תוכנה
- פתרונות
- לפתור
- מֶרחָב
- מְהִירוּת
- התחלה
- הצהרה
- להשאר
- אחסון
- תמיכה
- יעד
- טכנולוגיות
- המקור
- זמן
- יַחַד
- טוקניזציה
- מטבעות
- כלי
- חלק עליון
- הרמה העליונה
- לעקוב
- מסורתי
- הדרכה
- נסיעות
- טיפול
- מטפלת
- סומך
- us
- משתמשים
- ערך
- גרסה
- לצפיה
- מה
- בתוך
- תיק עבודות
- עבד
- עובדים
- כוח עבודה
- עובד
- מתאמן
- עובד
- עוֹלָם
- של העולם
- היה
- שנים