أنشأ Amazon Machine Learning Solutions Lab (MLSL) مؤخرًا أداة للتعليق التوضيحي على النص باستخدام التعرف على الكيانات المسماة (NER) وتسميات العلاقات باستخدام الحقيقة الأمازون SageMaker الأرض. يستخدم المعلقون هذه الأداة لتسمية النص بالكيانات المسماة وربط علاقاتهم ، وبالتالي بناء مجموعة بيانات لتدريب أحدث نماذج التعلم الآلي (ML) لمعالجة اللغة الطبيعية (NLP). الأهم من ذلك ، أن هذا متاح الآن بشكل عام لجميع عملاء AWS.
حالة استخدام العميل: Booking.com
بوكينح.كوم هي إحدى منصات السفر عبر الإنترنت الرائدة في العالم. يعد فهم ما يقوله العملاء عن قوائم عقارات الشركة التي تزيد عن 28 مليونًا على المنصة أمرًا ضروريًا للحفاظ على تجربة عملاء من الدرجة الأولى. في السابق ، كان بإمكان Booking.com فقط استخدام تحليل المشاعر التقليدية لتفسير التقييمات التي ينشئها العملاء على نطاق واسع. بحثًا عن ترقية خصوصية هذه التفسيرات ، لجأت Booking.com مؤخرًا إلى MLSL للمساعدة في بناء مجموعة بيانات مشروحة مخصصة لتدريب نموذج تحليل المشاعر المستند إلى الجانب.
تحليل المشاعر التقليدية هو عملية تصنيف جزء من النص على أنه إيجابي أو سلبي أو محايد مثل a المشاعر الفردية. يعمل هذا على فهم ما إذا كان المستخدمون راضين أو غير راضين عن تجربة معينة. على سبيل المثال ، مع تحليل المشاعر التقليدية ، يمكن تصنيف النص التالي على أنه "محايد":
إقامتنا في الفندق كانت لطيفة. كان الموظفون ودودون وكانت الغرف نظيفة ، لكن أسرتنا كانت غير مريحة إلى حد ما.
يوفر تحليل المشاعر المستند إلى الجانب فهمًا أكثر دقة للمحتوى. في حالة Booking.com ، بدلاً من أخذ رأي العميل ككل وتصنيفه بشكل قاطع ، يمكن أن يأخذ المشاعر من داخل المراجعة ويخصصها لجوانب محددة. على سبيل المثال ، قد تثني آراء العملاء حول فندق معين على حمام السباحة النظيف ومنطقة اللياقة البدنية ، ولكنها تعطي ملاحظات نقدية حول المطعم والردهة.
البيان الذي كان سيصنف على أنه "محايد" من خلال تحليل المشاعر التقليدي ، مع تحليل المشاعر القائم على الجانب ، سيصبح:
إقامتنا في الفندق كانت لطيفة. كان الموظفون ودودون وكانت الغرف نظيفة ، لكن أسرتنا كانت غير مريحة إلى حد ما.
- الفندق: إيجابي
- طاقم العمل: إيجابي
- الغرفة: إيجابية
- الأسرة: سلبي
سعى Booking.com إلى إنشاء نموذج مخصص لتحليل المشاعر قائم على الجوانب من شأنه أن يخبرهم عن الأجزاء المحددة من تجربة الضيف (من قائمة تضم أكثر من 50 جانبًا) إيجابي, سلبيالطرق أو محايد.
قبل أن تتمكن Booking.com من إنشاء مجموعة بيانات تدريبية لهذا النموذج ، كانوا بحاجة إلى طريقة للتعليق عليها. قدمت أداة التعليقات التوضيحية لـ MLSL الحل المخصص الذي تمس الحاجة إليه. تم إجراء المراجعة البشرية على مجموعة كبيرة من تقييمات الفنادق. بعد ذلك ، أكمل المعلقون شرحًا توضيحيًا لكيانًا مسمىًا على امتدادات نصية وعبارات المشاعر وتجربة الضيف قبل ربط المسافات المناسبة معًا.
يتيح النموذج الجديد المستند إلى الجانب لـ Booking.com تخصيص أماكن الإقامة والتعليقات لعملائها. إن تسليط الضوء على الجوانب الإيجابية والسلبية لكل مكان إقامة يتيح للعملاء اختيار ما يناسبهم. بالإضافة إلى ذلك ، يهتم العملاء المختلفون بالجوانب المختلفة لمكان الإقامة ، ويفتح النموذج الجديد الفرصة لإظهار التقييمات الأكثر صلة بكل منها.
متطلبات وضع العلامات
على الرغم من أن Ground Truth توفر إمكانية التعليق التوضيحي النصي NER ، إلا أنها لا توفر القدرة على ربط الكيانات معًا. مع وضع ذلك في الاعتبار ، توصل Booking.com و MLSL إلى المتطلبات عالية المستوى التالية لأداة تصنيف نصوص التعرف على الكيانات المسماة الجديدة والتي:
- يقبل كمدخل: نص, تسميات الكيان, تسميات العلاقةو تسميات التصنيف.
- يقبل اختياريًا كإدخال بيانات مشروحة مسبقًا بالتسمية السابقة وتعليقات العلاقة التوضيحية.
- يقدم الشرح إما بنص بدون تعليقات أو تم شرحه مسبقًا.
- يسمح للمعلقين بتمييز النص التعسفي والتعليق عليه باستخدام تسمية كيان.
- يسمح للمعلقين بإنشاء علاقات بين اثنين من التعليقات التوضيحية للكيانين.
- يسمح للمعلقين بالتنقل بسهولة بين أعداد كبيرة من تسميات الكيانات.
- يدعم تجميع تسميات الكيانات في فئات.
- اسمح بعلاقات متداخلة ، مما يعني أن نفس مقطع النص المشروح يمكن أن يكون مرتبطًا بأكثر من مقطع نص توضيحي آخر.
- يسمح بتداخل التعليقات التوضيحية لتسمية الكيان ، مما يعني أنه يمكن أن يتداخل تعليقان توضيحيان مع نفس الجزء من النص. على سبيل المثال ، يمكن أن يحتوي نص "سياتل سبيس نيدل" على التعليقات التوضيحية "سياتل" ← "مواقع" و "سياتل سبيس نيدل" ← "أماكن جذب".
- تنسيق الإخراج متوافق مع تنسيق الإدخال ، ويمكن إعادته إلى مهام وضع العلامات اللاحقة.
- يدعم النص المشفر UTF-8 الذي يحتوي على رموز تعبيرية وحروف أخرى متعددة البايت.
- يدعم اللغات التي تُكتب من اليسار إلى اليمين.
نموذج الشرح
خذ بعين الاعتبار الوثيقة التالية:
لقد أحببنا موقع هذا الفندق! أعطتنا صالة السطح المنظر المثالي لإبرة الفضاء. إنه أيضا على بعد مسافة قصيرة بالسيارة من سوق مكان البايك والواجهة البحرية.
كان الطعام متاحًا فقط عبر خدمة الغرف ، وهو أمر مخيب للآمال بعض الشيء ولكنه منطقي في عالم ما بعد الوباء هذا.
بشكل عام ، تجربة بأسعار معقولة.
يقدم تحميل هذا المستند في التعليق التوضيحي الجديد لـ NER للعامل الواجهة التالية:
في هذه الحالة يكون عمل العامل هو:
- تسمية الكيانات المتعلقة بالممتلكات (الموقع ، السعر ، الطعام ، إلخ)
- تسمية الكيانات المتعلقة بالمشاعر (إيجابية أو سلبية أو محايدة)
- اربط الكيانات المسماة ذات الصلة بالممتلكات بالكلمات الرئيسية المتعلقة بالمشاعر لالتقاط تجربة الضيف بدقة
كانت سرعة التعليقات التوضيحية أحد الاعتبارات المهمة للأداة. باستخدام سلسلة من اختصارات لوحة المفاتيح البديهية وإيماءات الماوس ، يمكن للمضيفين تشغيل الواجهة و:
- قم بإضافة وإزالة التعليقات التوضيحية للكيان المسمى
- أضف العلاقات بين الكيانات المسماة
- القفز إلى بداية ونهاية المستند
- قم بإرسال المستند
بالإضافة إلى ذلك ، هناك دعم للتسميات المتداخلة. على سبيل المثال، Seattle Space Needle
: في هذه العبارة ، Seattle
تم التعليق عليه كموقع في حد ذاته وكجزء من اسم الجذب.
يوفر التعليق التوضيحي المكتمل تحليلًا أكثر اكتمالاً ودقة للبيانات:
يمكن تكوين العلاقات في العديد من المستويات ، من فئات الكيانات إلى فئات الكيانات الأخرى (على سبيل المثال ، من "الطعام" إلى "المشاعر") ، أو بين أنواع الكيانات الفردية. يتم توجيه العلاقات ، بحيث يمكن للمعلقين ربط جانب مثل الطعام بمشاعر ، ولكن ليس العكس (ما لم يتم تمكينه صراحة). عند رسم العلاقات ، ستقوم أداة التعليق التوضيحي تلقائيًا باستنتاج تسمية العلاقة واتجاهها.
تكوين أداة التعليقات التوضيحية NER
في هذا القسم ، نغطي كيفية تخصيص أداة التعليقات التوضيحية NER لحالات الاستخدام الخاصة بالعميل. يتضمن ذلك تكوين:
- نص الإدخال للتعليق
- تسميات الكيان
- تسميات العلاقة
- تسميات التصنيف
- البيانات المشروحة مسبقًا
- تعليمات العامل
سنغطي تفاصيل تنسيقات مستندات الإدخال والإخراج ، بالإضافة إلى تقديم بعض الأمثلة لكل منها.
تنسيق مستند الإدخال
تتوقع أداة التعليق التوضيحي NER مستند الإدخال بتنسيق JSON التالي (الحقول التي بها علامة استفهام بجوار الاسم اختيارية).
باختصار ، يتميز تنسيق الإدخال بهذه الخصائص:
- كل
entityLabels
orclassificationLabels
(أو كلاهما) مطلوبان للتعليق. - If
entityLabels
بعد ذلكrelationshipLabels
يمكن إضافته. - يمكن السماح بالعلاقات بين تسميات الكيانات / الفئات المختلفة أو مزيج منها.
- "مصدر" العلاقة هو الكيان الذي يبدأ به السهم الموجه ، بينما "الهدف" هو المكان الذي يتجه إليه.
الحقل | النوع | الوصف |
نص | سلسلة | مطلوب. أدخل النص للتعليق التوضيحي. |
tokenRows | خيط[][] | خياري. ترميز مخصص لنص الإدخال. مصفوفة من مصفوفات من السلاسل. يمثل مصفوفة المستوى الأعلى كل صف من النص (فواصل الأسطر) ، ويمثل مصفوفة المستوى الثاني الرموز المميزة في كل صف. يجب حساب جميع الأحرف / الأحرف الرونية في نص الإدخال في tokenRows ، بما في ذلك أي مسافة بيضاء. |
وثيقة | سلسلة | خياري. قيمة اختيارية للعملاء لتتبع المستند الذي يتم التعليق عليه. |
الكيان | هدف[] | مطلوب إذا كانت علامات التصنيف فارغة. صفيف تسميات الكيانات. |
الكيان تسميات []. الاسم | سلسلة | مطلوب. اسم عرض تسمية الكيان. |
الكيان تسميات []. الفئة | سلسلة | خياري. اسم فئة تسمية الكيان. |
الكيان تسميات []. shortName | سلسلة | خياري. اعرض هذا النص فوق الكيانات المشروحة بدلاً من الاسم الكامل. |
الكيان تسميات []. shortCategory | سلسلة | خياري. اعرض هذا النص في القائمة المنسدلة لتحديد التعليق التوضيحي للكيان بدلاً من الأحرف الأربعة الأولى من اسم الفئة. |
الكيان الملصقات | سلسلة | خياري. رمز اللون السداسي مع البادئة "#". إذا كانت فارغة ، فسيتم تلقائيًا تعيين لون لتسمية الكيان. |
العلاقة | هدف[] | خياري. مجموعة تسميات العلاقة. |
العلاقة تسميات []. الاسم | سلسلة | مطلوب. اسم عرض تسمية العلاقة. |
العلاقات []. المسموح بهالعلاقات | هدف[] | خياري. صفيف من القيم التي تقيد أنواع تسميات كيان المصدر والوجهة التي يمكن تعيين هذه العلاقة لها. كل عنصر في المصفوفة هو “OR'ed” معًا. |
العلاقات []. المسموح بهالعلاقات []. sourceEntityLabelCategories | خيط[] | مطلوب لتعيين فئات sourceEntityLabel أو تصنيفات sourceEntityLabels (أو كليهما). قائمة أنواع فئات تسمية كيان المصدر القانوني لهذه العلاقة. |
RelationsLabels []. allowedRelationships []. targetEntityLabelCategories | خيط[] | مطلوب لتعيين إما targetEntityLabelCategories أو targetEntityLabels (أو كليهما). قائمة أنواع فئة تسمية الكيان الهدف القانوني لهذه العلاقة. |
العلاقات []. المسموح بهالعلاقات []. sourceEntityLabels | خيط[] | مطلوب لتعيين فئات sourceEntityLabel أو تصنيفات sourceEntityLabels (أو كليهما). قائمة أنواع تسميات كيان المصدر القانوني لهذه العلاقة. |
العلاقات []. المسموح بهالعلاقات []. sourceEntityLabels | خيط[] | مطلوب لتعيين إما targetEntityLabelCategories أو targetEntityLabels (أو كليهما). قائمة أنواع تسميات الكيانات المستهدفة القانونية لهذه العلاقة. |
التصنيف | خيط[] | مطلوب إذا كانت تسميات الكيان فارغة. قائمة تسميات تصنيف مستوى الوثيقة. |
الكيان الشروح | هدف[] | خياري. مجموعة من التعليقات التوضيحية للكيان لإضافة تعليق توضيحي مسبقًا على نص الإدخال. |
شروح الكيان []. معرف | سلسلة | مطلوب. معرّف فريد للتعليق التوضيحي لهذا الكيان. يستخدم للإشارة إلى هذا الكيان في العلاقة التعليقات التوضيحية. |
شروح الكيان [] | عدد | مطلوب. بدء الإزاحة الرونية للتعليق التوضيحي لهذا الكيان. |
شروح الكيان []. end | عدد | مطلوب. نهاية الإزاحة الرونية للتعليق التوضيحي لهذا الكيان. |
الكيان شروح []. نص | سلسلة | مطلوب. محتوى النص بين البداية والنهاية تعويض رون. |
شروح الكيان []. التسمية | سلسلة | مطلوب. اسم تصنيف الكيان المرتبط (من الأسماء الموجودة في تسميات الكيان). |
شروح الكيان []. labelCategory | سلسلة | اختياري فئة تسمية الكيان المرتبط (من الفئات الموجودة في تسميات الكيان). |
العلاقة الشروح | هدف[] | خياري. صفيف من التعليقات التوضيحية للعلاقة. |
العلاقة الشروح []. sourceEntityAnnotationId | سلسلة | مطلوب. معرف التعليق التوضيحي لكيان المصدر لهذه العلاقة. |
العلاقة الشروح []. targetEntityAnnotationId | سلسلة | مطلوب. معرّف التعليق التوضيحي للكيان المستهدف لهذه العلاقة. |
العلاقة الشروح []. التسمية | سلسلة | مطلوب. اسم تسمية العلاقة المقترنة. |
التصنيف | خيط[] | خياري. صفيف من التصنيفات لإضافة تعليقات توضيحية للمستند مسبقًا. |
هدف | موضوع | خياري. معلمات التكوين الإضافية. |
التعليمات الوصفية | سلسلة | خياري. إرشادات للمضيف التوضيحي لوضع العلامات بتنسيق Markdown. |
meta.disableSubmitConfirmation | منطقية | خياري. قم بالتعيين إلى "صواب" لتعطيل نموذج تأكيد الإرسال. |
التصنيف الفوقي | منطقية | خياري. قم بالتعيين على صواب لتمكين وضع التسميات المتعددة للتسميات. |
فيما يلي بعض نماذج المستندات للتعرف بشكل أفضل على تنسيق الإدخال هذا
يتم توفير المستندات التي تلتزم بهذا المخطط إلى Ground Truth كعناصر سطر فردية في بيان الإدخال.
تنسيق مستند الإخراج
تم تصميم تنسيق الإخراج لتقديم الملاحظات بسهولة في مهمة تعليق توضيحي جديدة. يتم تعيين الحقول الاختيارية في مستند الإخراج إذا تم تعيينها أيضًا في مستند الإدخال. الاختلاف الوحيد بين تنسيقات الإدخال والإخراج هو meta
موضوع.
الحقل | النوع | الوصف |
ميتا | منطقية | يتم تعيينه على "صواب" إذا رفض مقدم التعليقات هذا المستند. |
meta.rejected السبب | سلسلة | سبب مقدم التعليقات لرفض المستند. |
meta.runes | خيط[] | مصفوفة من الأحرف الرونية تمثل جميع الأحرف في نص الإدخال. تُستخدم لحساب تعويضات بداية ونهاية التعليق التوضيحي للكيان. |
فيما يلي نموذج لمستند الإخراج تم التعليق عليه:
ملاحظة الرونية:
"الرون" في هذا السياق هو حرف واحد يمكن تمييزه في النص ، بما في ذلك الأحرف متعددة البايت مثل الرموز التعبيرية.
- نظرًا لأن لغات البرمجة المختلفة تمثل أحرفًا متعددة البايت بشكل مختلف ، فإن استخدام "الأحرف الرونية" لتعريف كل حرف يمكن تمييزه كعنصر ذري واحد يعني أن لدينا طريقة لا لبس فيها لوصف أي نص محدد.
- على سبيل المثال ، تعامل Python العلم السويدي كأربعة أحرف:
لكن JavaScript يعامل نفس الرموز التعبيرية كحرفين
للقضاء على أي غموض ، سنتعامل مع العلم السويدي (وجميع الرموز التعبيرية الأخرى والأحرف متعددة البايت) كعنصر ذري واحد.
- الإزاحة: موضع الطلسم بالنسبة إلى إدخال النص (بدءًا من الفهرس 0)
أداء التعليقات التوضيحية NER مع الحقيقة الأساسية
كخدمة توسيم بيانات مُدارة بالكامل ، تقوم Ground Truth ببناء مجموعات بيانات تدريبية لـ ML. بالنسبة لحالة الاستخدام هذه ، نستخدم Ground Truth لإرسال مجموعة من المستندات النصية إلى مجموعة من العمال للتعليق عليها. أخيرًا ، نقوم بمراجعة الجودة.
يمكن تكوين Ground Truth لإنشاء وظيفة تسمية البيانات باستخدام أداة NER الجديدة كقالب مخصص.
على وجه التحديد ، سوف نقوم بما يلي:
- قم بإنشاء قوة عاملة خاصة بوضع العلامات من العمال لأداء مهمة التعليق التوضيحي
- قم بإنشاء بيان إدخال "حقيقة أساسية" بالمستندات التي نريد إضافة تعليق عليها ثم تحميلها إليها خدمة Amazon Simple Storage (Amazon S3)
- إنشاء مهمة ما قبل الملصقات ومهمة اللاحق وظائف Lambda
- قم بإنشاء وظيفة وضع العلامات على Ground Truth باستخدام قالب NER المخصص
- علق الوثائق
- مراجعة النتائج
موارد أداة NER
يمكن العثور على قائمة كاملة بالموارد المرجعية وعينات المستندات في الرسم البياني التالي:
وضع العلامات على خلق القوى العاملة
تستخدم Ground Truth قوى عاملة في وضع العلامات من SageMaker لإدارة العمال وتوزيع المهام. قم بإنشاء قوة عاملة خاصة ، فريق عامل يسمى ner-worker-team ، وقم بتعيين نفسك للفريق باستخدام الإرشادات الموجودة في إنشاء قوة عاملة خاصة (وحدة تحكم Amazon SageMaker).
بمجرد إضافة نفسك إلى قوة عاملة خاصة وتأكيد بريدك الإلكتروني ، لاحظ عنوان URL لبوابة العامل من وحدة الإدارة في AWS:
- انتقل إلى
SageMaker
- انتقل إلى
Ground Truth → Labeling workforces
- إختار ال
Private
علامة التبويب - لاحظ عنوان URL
Labeling portal sign-in URL
قم بتسجيل الدخول إلى بوابة العامل لعرض وبدء العمل على مهام وضع العلامات.
بيان الإدخال
بيان بيانات إدخال حقيقة الأرض هو ملف سطور JSON حيث يحتوي كل سطر على مهمة عامل واحدة. في حالتنا ، سيحتوي كل سطر على مستند إدخال واحد بترميز JSON يحتوي على النص الذي نريد التعليق عليه ومخطط التعليق التوضيحي NER.
تنزيل نموذج بيان الإدخال reviews.manifest
تبدأ من https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest
ملاحظات: يحتاج كل صف في بيان الإدخال إلى مفتاح مستوى أعلى source
or source-ref
. يمكنك معرفة المزيد في استخدم ملف بيان الإدخال في دليل مطور Amazon SageMaker.
تحميل بيان الإدخال إلى Amazon S3
قم بتحميل بيان الإدخال هذا إلى حاوية S3 باستخدام وحدة الإدارة في AWS أو من سطر الأوامر ، وبالتالي الاستبدال your-bucket
باسم الحاوية الفعلي.
تنزيل نموذج عامل مخصص
قم بتنزيل قالب العامل المخصص لأداة NER من https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html من خلال عرض المصدر وحفظ المحتويات محليًا ، أو من سطر الأوامر:
إنشاء مهمة ما قبل الملصقات ومهمة اللاحق وظائف Lambda
تنزيل نموذج لمهمة وضع العلامات المسبقة لوظيفة Lambda: smgt-ner-pre-labeling-task-lambda.py
تبدأ من https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py
تنزيل نموذج لمهمة وضع العلامات المسبقة لوظيفة Lambda: smgt-ner-post-labeling-task-lambda.py
تبدأ من https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py
- قم بإنشاء مهمة Lambda لمهمة الملصق المسبق من وحدة الإدارة في AWS:
- انتقل إلى
Lambda
- أختار
Create function
- تحديد
Function name
assmgt-ner-pre-labeling-task-lambda
- أختار
Runtime
→Python 3.6
- أختار
Create function
- In
Function code
→lambda_hanadler.py
، الصق محتوياتsmgt-ner-pre-labeling-task-lambda.py
- أختار
Deploy
- انتقل إلى
- قم بإنشاء وظيفة Lambda لمهمة اللاحق من وحدة الإدارة في AWS:
- انتقل إلى
Lambda
- أختار
Create function
- تحديد
Function name
assmgt-ner-post-labeling-task-lambda
- أختار
Runtime
→Python 3.6
- وسع
Change default execution role
- أختار
Create a new role from AWS policy templates
- أدخل
Role name
:smgt-ner-post-labeling-task-lambda-role
- أختار
Create function
- إختار ال
Permissions
علامة التبويب - إختار ال
Role name
:smgt-ner-post-labeling-task-lambda-role
لفتح وحدة تحكم IAM - أضف سياستين إلى الدور
- أختار
Attach policies
- إرفاق
AmazonS3FullAccess
سياسة - أختار
Add inline policy
- إختار ال
JSON
علامة التبويب - الصق السياسة المضمنة التالية:
- أختار
- انتقل مرة أخرى إلى
smgt-ner-post-labeling-task-lambda
صفحة تكوين وظيفة Lambda - إختار ال
Configuration
علامة التبويب - In
Function code
→ لambda_hanadler.py
، الصق محتوياتsmgt-ner-post-labeling-task-lambda.py
- أختار
Deploy
- انتقل إلى
قم بإنشاء وظيفة وضع العلامات على الحقيقة الأرضية
من وحدة الإدارة في AWS:
- انتقل إلى
Amazon SageMaker
الخدمة - انتقل إلى
Ground Truth
→Labeling Jobs
. - أختار
Create labeling job
- حدد أ
Job Name
- أختار
Manual Data Setup
- حدد موقع مجموعة بيانات الإدخال حيث قمت بتحميل بيان الإدخال مسبقًا (على سبيل المثال ، s
3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl
) - حدد موقع مجموعة بيانات الإخراج للإشارة إلى مجلد مختلف في نفس المجموعة (على سبيل المثال ،
s3://your-bucket/ner-output/
) - حدد ملف
IAM Role
عن طريق اختيارCreate new role
- اسمح لهذا الدور بالوصول إلى أي حاوية S3 عن طريق التحديد
S3 buckets you specify
→Any S3 bucket
عند إنشاء السياسة - في نافذة AWS Management Console الجديدة ، افتح ملف
IAM
وحدة واختيارRoles
- ابحث عن اسم الدور الذي أنشأته للتو (على سبيل المثال ،
AmazonSageMaker-ExecutionRole-20210301T154158
) - حدد اسم الدور لفتح الدور في وحدة التحكم
- أرفق السياسات الثلاث التالية:
- حدد إرفاق السياسات
- إرفاق
AWSLambda_FullAccess
للدور - أختار
Trust Relationships
→Edit Trust Relationships
- تحرير علاقة الثقة JSON ،
- استبدل
YOUR_ACCOUNT_NUMBER
برقم حساب AWS العددي الخاص بك ، على النحو التالي: - احفظ علاقة الثقة
- اسمح لهذا الدور بالوصول إلى أي حاوية S3 عن طريق التحديد
- ارجع إلى وظيفة Ground Truth الجديدة في نافذة وحدة التحكم الإدارية السابقة في AWS: ضمن
Task Category
، حددCustom
- أختار
Next
- أختار
Worker types
:Private
- إختار ال
Private team
:ner-worker-team
الذي تم إنشاؤه في القسم السابق - في مجلة
Custom labeling task setup
منطقة النص ، امسح المحتوى الافتراضي والصق محتوى ملفworker-template.liquid.html
تم الحصول على الملف في وقت سابق - تحديد
Pre-labeling task Lambda function
مع الوظيفة التي تم إنشاؤها مسبقًا:smgt-ner-pre-labeling
- تحديد
Post-labeling task Lambda function
مع الوظيفة التي تم إنشاؤها مسبقًا:smgt-ner-post-labeling
- أختار
Create
علق الوثائق
بمجرد إنشاء وظيفة Ground Truth ، يمكننا البدء في وضع تعليقات توضيحية على المستندات. افتح بوابة العمال لقوى العمل لدينا التي تم إنشاؤها مسبقًا (في وحدة الإدارة في AWS ، انتقل إلى SageMaker
, Ground Truth → Labeling workforces
, Private
، وافتح ملف Labeling portal sign-in URL
)
قم بتسجيل الدخول وحدد مهمة وضع العلامات الأولى في الجدول ، ثم حدد "بدء العمل" لفتح التعليق التوضيحي. قم بإجراء التعليقات التوضيحية الخاصة بك وحدد إرسال في جميع نماذج المستندات الثلاثة.
مراجعة النتائج
عندما يكمل المعلقون على Ground Truth المهام ، ستكون النتائج متاحة في حاوية الإخراج S3:
بمجرد اكتمال جميع المهام لوظيفة وضع العلامات ، يتوفر الإخراج المدمج في ملف output.manifest
الملف موجود هنا:
بيان الإخراج هذا عبارة عن ملف سطور JSON به مستند نصي مشروح واحد لكل سطر في "تنسيق مستند الإخراج" المحدد مسبقًا. هذا الملف متوافق مع "تنسيق مستند الإدخال" ، ويمكن تغذيته مباشرة في وظيفة Ground Truth اللاحقة لجولة أخرى من التعليقات التوضيحية. بدلاً من ذلك ، يمكن تحليلها وإرسالها إلى وظيفة تدريب ML. بعض السيناريوهات التي قد نستخدم فيها جولة ثانية من التعليقات التوضيحية هي:
- تقسيم عملية التعليق التوضيحي إلى خطوتين حيث يحدد المعلق الأول التعليقات التوضيحية للكيان ويرسم المعلق الثاني العلاقات
- أخذ عينة من
output.manifest
وإرساله إلى المعلق التوضيحي الثاني الأكثر خبرة لمراجعته باعتباره فحصًا لمراقبة الجودة
قوالب الشرح الأرضية المخصصة
يتم تنفيذ أداة التعليق التوضيحي NER الموضحة في هذا المستند كقالب مخصص للتعليق التوضيحي لـ Ground Truth. يمكن لعملاء AWS إنشاء واجهات التعليقات التوضيحية المخصصة الخاصة بهم باستخدام الإرشادات الموجودة هنا:
وفي الختام
من خلال العمل معًا ، تمكنت Booking.com و Amazon MLSL من تطوير أداة تعليقات توضيحية نصية قوية قادرة على إنشاء تعليقات توضيحية للعلاقة معقدة للتعرف على الكيانات المسماة.
نحن نشجع عملاء AWS الذين لديهم حالة استخدام التعليقات التوضيحية النصية NER لتجربة الأداة الموضحة في هذا المنشور. إذا كنت ترغب في المساعدة في تسريع استخدام ML في منتجاتك وخدماتك ، فيرجى الاتصال بـ مختبر أمازون لحلول التعلم الآلي.
حول المؤلف
دان نوبل هو مهندس تطوير برمجيات في أمازون حيث يساعد في بناء تجارب مستخدم مبهجة. في أوقات فراغه ، يستمتع بالقراءة وممارسة الرياضة والخوض في المغامرات مع أسرته.
بري نونيس هو مهندس التعلم العميق في Amazon ML Solutions Lab ، حيث يعمل مع العملاء عبر مختلف القطاعات ، ويساعدهم على تسريع رحلة ترحيلهم إلى السحابة ، وحل مشكلات التعلم الآلي الخاصة بهم باستخدام أحدث الحلول والتقنيات.
نيهاريكا جايانثي هي مهندسة الواجهة الأمامية في AWS ، حيث تقوم بتطوير حلول التعليقات التوضيحية المخصصة لعملاء Amazon SageMaker. خارج العمل ، تستمتع بالذهاب إلى المتاحف وممارسة التمارين.
أميت بيكا هو مدير تعلم الآلة في بوكينح.كوم، مع أكثر من 15 عامًا من الخبرة في تطوير البرمجيات والتعلم الآلي. إنه مفتون بالناس واللغات ، وكيف لا تزال أجهزة الكمبيوتر في حيرة من كلاهما.
- '
- 100
- 11
- 7
- من نحن
- الوصول
- حسابي
- المحاسبة
- في
- اكشن
- إضافة
- إضافي
- الكل
- أمازون
- آلة التعلم الأمازون
- الأمازون SageMaker
- غموض
- تحليل
- المنطقة
- متاح
- متاح للجميع
- AWS
- البداية
- يجري
- نساعدك في بناء
- ابني
- يهمني
- الحالات
- تصنيف
- سحابة
- الكود
- مجموعة شتاء XNUMX
- مجمع
- أجهزة الكمبيوتر
- الاعداد
- نظر
- كنسولات
- محتوى
- محتويات
- استطاع
- خلق
- حرج
- تجربة العملاء
- العملاء
- البيانات
- التعلم العميق
- تطوير
- المطور
- التطوير التجاري
- مختلف
- وثائق
- لا
- بسهولة
- تأثير
- البريد الإلكتروني
- الرموز التعبيرية
- شجع
- مهندس
- إلخ
- مثال
- تتوقع
- الخبره في مجال الغطس
- خبرة
- للعائلات
- بنك الاحتياطي الفيدرالي
- ردود الفعل
- مجال
- أخيرا
- الاسم الأول
- اللياقة البدنية
- طعام
- شكل
- وجدت
- بالإضافة إلى
- وظيفة
- GIF
- الذهاب
- ضيف
- توجيه
- مساعدة
- يساعد
- هنا
- تسليط الضوء
- الفندق
- كيفية
- كيفية
- HTTPS
- IAM
- نفذت
- أهمية
- بما فيه
- مؤشر
- فرد
- IT
- جافا سكريبت
- وظيفة
- رحلة
- القفل
- وصفها
- ملصقات
- لغة
- اللغات
- كبير
- قيادة
- تعلم
- تعلم
- شروط وأحكام
- مستوى
- ومستوياتها
- خط
- LINK
- سائل
- قائمة
- مصانع
- محليا
- موقع
- أبحث
- آلة التعلم
- إدارة
- علامة
- تجارة
- مباراة
- مييتااا
- مانع
- ML
- نموذج
- الأكثر من ذلك
- المتاحف
- أسماء
- اللغة الطبيعية
- معالجة اللغات الطبيعية
- بحاجة
- البرمجة اللغوية العصبية
- أرقام
- عروض
- عوض
- online
- جاكيت
- يفتح
- الفرصة
- أخرى
- مجتمع
- عبارات
- المنصة
- منصات التداول
- سياسات الخصوصية والبيع
- سياسة
- تجمع
- بوابة
- ما بعد الوباء
- قوي
- السعر
- رئيسي
- خاص
- عملية المعالجة
- المنتجات
- برمجة وتطوير
- لغات البرمجة
- الملكية
- تزود
- ويوفر
- بايثون
- جودة
- سؤال
- نادي القراءة
- العلاقات
- المتطلبات الأساسية
- مورد
- الموارد
- مطعم
- النتائج
- مراجعة
- التقييمات
- غرفة
- sagemaker
- إنقاذ
- حجم
- إحساس
- عاطفة
- خدمات
- طقم
- قصير
- الاشارات
- So
- تطبيقات الكمبيوتر
- تطوير البرمجيات
- الحلول
- حل
- الفضاء
- سرعة
- بداية
- ملخص الحساب
- إقامة
- تخزين
- الدعم
- الهدف
- التكنولوجيا
- المصدر
- الوقت
- سويا
- Tokenization
- الرموز
- أداة
- تيشرت
- افضل مستوى
- مسار
- تقليدي
- قادة الإيمان
- سفر
- علاج
- يعامل
- الثقة
- us
- المستخدمين
- قيمنا
- الإصدار
- المزيد
- ابحث عن
- في غضون
- للعمل
- عمل
- العمال
- القوى العاملة
- عامل
- العمل بها
- أعمال
- العالم
- العالم
- سوف
- سنوات