نص التسمية لتحليل المشاعر المستند إلى الجانب باستخدام SageMaker Ground Truth

أعاد نشره أفلاطون

المتابعون: 0

أنشأ Amazon Machine Learning Solutions Lab (MLSL) مؤخرًا أداة للتعليق التوضيحي على النص باستخدام التعرف على الكيانات المسماة (NER) وتسميات العلاقات باستخدام الحقيقة الأمازون SageMaker الأرض. يستخدم المعلقون هذه الأداة لتسمية النص بالكيانات المسماة وربط علاقاتهم ، وبالتالي بناء مجموعة بيانات لتدريب أحدث نماذج التعلم الآلي (ML) لمعالجة اللغة الطبيعية (NLP). الأهم من ذلك ، أن هذا متاح الآن بشكل عام لجميع عملاء AWS.

حالة استخدام العميل: Booking.com

بوكينح.كوم هي إحدى منصات السفر عبر الإنترنت الرائدة في العالم. يعد فهم ما يقوله العملاء عن قوائم عقارات الشركة التي تزيد عن 28 مليونًا على المنصة أمرًا ضروريًا للحفاظ على تجربة عملاء من الدرجة الأولى. في السابق ، كان بإمكان Booking.com فقط استخدام تحليل المشاعر التقليدية لتفسير التقييمات التي ينشئها العملاء على نطاق واسع. بحثًا عن ترقية خصوصية هذه التفسيرات ، لجأت Booking.com مؤخرًا إلى MLSL للمساعدة في بناء مجموعة بيانات مشروحة مخصصة لتدريب نموذج تحليل المشاعر المستند إلى الجانب.

تحليل المشاعر التقليدية هو عملية تصنيف جزء من النص على أنه إيجابي أو سلبي أو محايد مثل a المشاعر الفردية. يعمل هذا على فهم ما إذا كان المستخدمون راضين أو غير راضين عن تجربة معينة. على سبيل المثال ، مع تحليل المشاعر التقليدية ، يمكن تصنيف النص التالي على أنه "محايد":

إقامتنا في الفندق كانت لطيفة. كان الموظفون ودودون وكانت الغرف نظيفة ، لكن أسرتنا كانت غير مريحة إلى حد ما.

يوفر تحليل المشاعر المستند إلى الجانب فهمًا أكثر دقة للمحتوى. في حالة Booking.com ، بدلاً من أخذ رأي العميل ككل وتصنيفه بشكل قاطع ، يمكن أن يأخذ المشاعر من داخل المراجعة ويخصصها لجوانب محددة. على سبيل المثال ، قد تثني آراء العملاء حول فندق معين على حمام السباحة النظيف ومنطقة اللياقة البدنية ، ولكنها تعطي ملاحظات نقدية حول المطعم والردهة.

البيان الذي كان سيصنف على أنه "محايد" من خلال تحليل المشاعر التقليدي ، مع تحليل المشاعر القائم على الجانب ، سيصبح:

إقامتنا في الفندق كانت لطيفة. كان الموظفون ودودون وكانت الغرف نظيفة ، لكن أسرتنا كانت غير مريحة إلى حد ما.

الفندق: إيجابي
طاقم العمل: إيجابي
الغرفة: إيجابية
الأسرة: سلبي

سعى Booking.com إلى إنشاء نموذج مخصص لتحليل المشاعر قائم على الجوانب من شأنه أن يخبرهم عن الأجزاء المحددة من تجربة الضيف (من قائمة تضم أكثر من 50 جانبًا) إيجابي, سلبيالطرق أو محايد.

قبل أن تتمكن Booking.com من إنشاء مجموعة بيانات تدريبية لهذا النموذج ، كانوا بحاجة إلى طريقة للتعليق عليها. قدمت أداة التعليقات التوضيحية لـ MLSL الحل المخصص الذي تمس الحاجة إليه. تم إجراء المراجعة البشرية على مجموعة كبيرة من تقييمات الفنادق. بعد ذلك ، أكمل المعلقون شرحًا توضيحيًا لكيانًا مسمىًا على امتدادات نصية وعبارات المشاعر وتجربة الضيف قبل ربط المسافات المناسبة معًا.

يتيح النموذج الجديد المستند إلى الجانب لـ Booking.com تخصيص أماكن الإقامة والتعليقات لعملائها. إن تسليط الضوء على الجوانب الإيجابية والسلبية لكل مكان إقامة يتيح للعملاء اختيار ما يناسبهم. بالإضافة إلى ذلك ، يهتم العملاء المختلفون بالجوانب المختلفة لمكان الإقامة ، ويفتح النموذج الجديد الفرصة لإظهار التقييمات الأكثر صلة بكل منها.

متطلبات وضع العلامات

على الرغم من أن Ground Truth توفر إمكانية التعليق التوضيحي النصي NER ، إلا أنها لا توفر القدرة على ربط الكيانات معًا. مع وضع ذلك في الاعتبار ، توصل Booking.com و MLSL إلى المتطلبات عالية المستوى التالية لأداة تصنيف نصوص التعرف على الكيانات المسماة الجديدة والتي:

يقبل كمدخل: نص, تسميات الكيان, تسميات العلاقةو تسميات التصنيف.
يقبل اختياريًا كإدخال بيانات مشروحة مسبقًا بالتسمية السابقة وتعليقات العلاقة التوضيحية.
يقدم الشرح إما بنص بدون تعليقات أو تم شرحه مسبقًا.
يسمح للمعلقين بتمييز النص التعسفي والتعليق عليه باستخدام تسمية كيان.
يسمح للمعلقين بإنشاء علاقات بين اثنين من التعليقات التوضيحية للكيانين.
يسمح للمعلقين بالتنقل بسهولة بين أعداد كبيرة من تسميات الكيانات.
يدعم تجميع تسميات الكيانات في فئات.
اسمح بعلاقات متداخلة ، مما يعني أن نفس مقطع النص المشروح يمكن أن يكون مرتبطًا بأكثر من مقطع نص توضيحي آخر.
يسمح بتداخل التعليقات التوضيحية لتسمية الكيان ، مما يعني أنه يمكن أن يتداخل تعليقان توضيحيان مع نفس الجزء من النص. على سبيل المثال ، يمكن أن يحتوي نص "سياتل سبيس نيدل" على التعليقات التوضيحية "سياتل" ← "مواقع" و "سياتل سبيس نيدل" ← "أماكن جذب".
تنسيق الإخراج متوافق مع تنسيق الإدخال ، ويمكن إعادته إلى مهام وضع العلامات اللاحقة.
يدعم النص المشفر UTF-8 الذي يحتوي على رموز تعبيرية وحروف أخرى متعددة البايت.
يدعم اللغات التي تُكتب من اليسار إلى اليمين.

نموذج الشرح

خذ بعين الاعتبار الوثيقة التالية:

لقد أحببنا موقع هذا الفندق! أعطتنا صالة السطح المنظر المثالي لإبرة الفضاء. إنه أيضا على بعد مسافة قصيرة بالسيارة من سوق مكان البايك والواجهة البحرية.
كان الطعام متاحًا فقط عبر خدمة الغرف ، وهو أمر مخيب للآمال بعض الشيء ولكنه منطقي في عالم ما بعد الوباء هذا.
بشكل عام ، تجربة بأسعار معقولة.

يقدم تحميل هذا المستند في التعليق التوضيحي الجديد لـ NER للعامل الواجهة التالية:

قدم العامل مع وثيقة غير مشروحة

في هذه الحالة يكون عمل العامل هو:

تسمية الكيانات المتعلقة بالممتلكات (الموقع ، السعر ، الطعام ، إلخ)
تسمية الكيانات المتعلقة بالمشاعر (إيجابية أو سلبية أو محايدة)
اربط الكيانات المسماة ذات الصلة بالممتلكات بالكلمات الرئيسية المتعلقة بالمشاعر لالتقاط تجربة الضيف بدقة

عامل يؤدي التعليقات التوضيحية

كانت سرعة التعليقات التوضيحية أحد الاعتبارات المهمة للأداة. باستخدام سلسلة من اختصارات لوحة المفاتيح البديهية وإيماءات الماوس ، يمكن للمضيفين تشغيل الواجهة و:

قم بإضافة وإزالة التعليقات التوضيحية للكيان المسمى
أضف العلاقات بين الكيانات المسماة
القفز إلى بداية ونهاية المستند
قم بإرسال المستند

بالإضافة إلى ذلك ، هناك دعم للتسميات المتداخلة. على سبيل المثال، Seattle Space Needle: في هذه العبارة ، Seattle تم التعليق عليه كموقع في حد ذاته وكجزء من اسم الجذب.

يوفر التعليق التوضيحي المكتمل تحليلًا أكثر اكتمالاً ودقة للبيانات:

وثيقة مكتملة

يمكن تكوين العلاقات في العديد من المستويات ، من فئات الكيانات إلى فئات الكيانات الأخرى (على سبيل المثال ، من "الطعام" إلى "المشاعر") ، أو بين أنواع الكيانات الفردية. يتم توجيه العلاقات ، بحيث يمكن للمعلقين ربط جانب مثل الطعام بمشاعر ، ولكن ليس العكس (ما لم يتم تمكينه صراحة). عند رسم العلاقات ، ستقوم أداة التعليق التوضيحي تلقائيًا باستنتاج تسمية العلاقة واتجاهها.

تكوين أداة التعليقات التوضيحية NER

في هذا القسم ، نغطي كيفية تخصيص أداة التعليقات التوضيحية NER لحالات الاستخدام الخاصة بالعميل. يتضمن ذلك تكوين:

نص الإدخال للتعليق
تسميات الكيان
تسميات العلاقة
تسميات التصنيف
البيانات المشروحة مسبقًا
تعليمات العامل

سنغطي تفاصيل تنسيقات مستندات الإدخال والإخراج ، بالإضافة إلى تقديم بعض الأمثلة لكل منها.

تنسيق مستند الإدخال

تتوقع أداة التعليق التوضيحي NER مستند الإدخال بتنسيق JSON التالي (الحقول التي بها علامة استفهام بجوار الاسم اختيارية).

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; classificationLabels?: string[]; relationshipLabels?: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; entityAnnotations?: { id: string; start: number; end: number; text: string; label: string; labelCategory?: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta?: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; };
}

باختصار ، يتميز تنسيق الإدخال بهذه الخصائص:

كل entityLabels or classificationLabels (أو كلاهما) مطلوبان للتعليق.
If entityLabels بعد ذلك relationshipLabels يمكن إضافته.
يمكن السماح بالعلاقات بين تسميات الكيانات / الفئات المختلفة أو مزيج منها.
"مصدر" العلاقة هو الكيان الذي يبدأ به السهم الموجه ، بينما "الهدف" هو المكان الذي يتجه إليه.

الحقل	النوع	الوصف
نص	سلسلة	مطلوب. أدخل النص للتعليق التوضيحي.
tokenRows	خيط[][]	خياري. ترميز مخصص لنص الإدخال. مصفوفة من مصفوفات من السلاسل. يمثل مصفوفة المستوى الأعلى كل صف من النص (فواصل الأسطر) ، ويمثل مصفوفة المستوى الثاني الرموز المميزة في كل صف. يجب حساب جميع الأحرف / الأحرف الرونية في نص الإدخال في tokenRows ، بما في ذلك أي مسافة بيضاء.
وثيقة	سلسلة	خياري. قيمة اختيارية للعملاء لتتبع المستند الذي يتم التعليق عليه.
الكيان	هدف[]	مطلوب إذا كانت علامات التصنيف فارغة. صفيف تسميات الكيانات.
الكيان تسميات []. الاسم	سلسلة	مطلوب. اسم عرض تسمية الكيان.
الكيان تسميات []. الفئة	سلسلة	خياري. اسم فئة تسمية الكيان.
الكيان تسميات []. shortName	سلسلة	خياري. اعرض هذا النص فوق الكيانات المشروحة بدلاً من الاسم الكامل.
الكيان تسميات []. shortCategory	سلسلة	خياري. اعرض هذا النص في القائمة المنسدلة لتحديد التعليق التوضيحي للكيان بدلاً من الأحرف الأربعة الأولى من اسم الفئة.
الكيان الملصقات	سلسلة	خياري. رمز اللون السداسي مع البادئة "#". إذا كانت فارغة ، فسيتم تلقائيًا تعيين لون لتسمية الكيان.
العلاقة	هدف[]	خياري. مجموعة تسميات العلاقة.
العلاقة تسميات []. الاسم	سلسلة	مطلوب. اسم عرض تسمية العلاقة.
العلاقات []. المسموح بهالعلاقات	هدف[]	خياري. صفيف من القيم التي تقيد أنواع تسميات كيان المصدر والوجهة التي يمكن تعيين هذه العلاقة لها. كل عنصر في المصفوفة هو “OR'ed” معًا.
العلاقات []. المسموح بهالعلاقات []. sourceEntityLabelCategories	خيط[]	مطلوب لتعيين فئات sourceEntityLabel أو تصنيفات sourceEntityLabels (أو كليهما). قائمة أنواع فئات تسمية كيان المصدر القانوني لهذه العلاقة.
RelationsLabels []. allowedRelationships []. targetEntityLabelCategories	خيط[]	مطلوب لتعيين إما targetEntityLabelCategories أو targetEntityLabels (أو كليهما). قائمة أنواع فئة تسمية الكيان الهدف القانوني لهذه العلاقة.
العلاقات []. المسموح بهالعلاقات []. sourceEntityLabels	خيط[]	مطلوب لتعيين فئات sourceEntityLabel أو تصنيفات sourceEntityLabels (أو كليهما). قائمة أنواع تسميات كيان المصدر القانوني لهذه العلاقة.
العلاقات []. المسموح بهالعلاقات []. sourceEntityLabels	خيط[]	مطلوب لتعيين إما targetEntityLabelCategories أو targetEntityLabels (أو كليهما). قائمة أنواع تسميات الكيانات المستهدفة القانونية لهذه العلاقة.
التصنيف	خيط[]	مطلوب إذا كانت تسميات الكيان فارغة. قائمة تسميات تصنيف مستوى الوثيقة.
الكيان الشروح	هدف[]	خياري. مجموعة من التعليقات التوضيحية للكيان لإضافة تعليق توضيحي مسبقًا على نص الإدخال.
شروح الكيان []. معرف	سلسلة	مطلوب. معرّف فريد للتعليق التوضيحي لهذا الكيان. يستخدم للإشارة إلى هذا الكيان في العلاقة التعليقات التوضيحية.
شروح الكيان []	عدد	مطلوب. بدء الإزاحة الرونية للتعليق التوضيحي لهذا الكيان.
شروح الكيان []. end	عدد	مطلوب. نهاية الإزاحة الرونية للتعليق التوضيحي لهذا الكيان.
الكيان شروح []. نص	سلسلة	مطلوب. محتوى النص بين البداية والنهاية تعويض رون.
شروح الكيان []. التسمية	سلسلة	مطلوب. اسم تصنيف الكيان المرتبط (من الأسماء الموجودة في تسميات الكيان).
شروح الكيان []. labelCategory	سلسلة	اختياري فئة تسمية الكيان المرتبط (من الفئات الموجودة في تسميات الكيان).
العلاقة الشروح	هدف[]	خياري. صفيف من التعليقات التوضيحية للعلاقة.
العلاقة الشروح []. sourceEntityAnnotationId	سلسلة	مطلوب. معرف التعليق التوضيحي لكيان المصدر لهذه العلاقة.
العلاقة الشروح []. targetEntityAnnotationId	سلسلة	مطلوب. معرّف التعليق التوضيحي للكيان المستهدف لهذه العلاقة.
العلاقة الشروح []. التسمية	سلسلة	مطلوب. اسم تسمية العلاقة المقترنة.
التصنيف	خيط[]	خياري. صفيف من التصنيفات لإضافة تعليقات توضيحية للمستند مسبقًا.
هدف	موضوع	خياري. معلمات التكوين الإضافية.
التعليمات الوصفية	سلسلة	خياري. إرشادات للمضيف التوضيحي لوضع العلامات بتنسيق Markdown.
meta.disableSubmitConfirmation	منطقية	خياري. قم بالتعيين إلى "صواب" لتعطيل نموذج تأكيد الإرسال.
التصنيف الفوقي	منطقية	خياري. قم بالتعيين على صواب لتمكين وضع التسميات المتعددة للتسميات.

فيما يلي بعض نماذج المستندات للتعرف بشكل أفضل على تنسيق الإدخال هذا

يتم توفير المستندات التي تلتزم بهذا المخطط إلى Ground Truth كعناصر سطر فردية في بيان الإدخال.

تنسيق مستند الإخراج

تم تصميم تنسيق الإخراج لتقديم الملاحظات بسهولة في مهمة تعليق توضيحي جديدة. يتم تعيين الحقول الاختيارية في مستند الإخراج إذا تم تعيينها أيضًا في مستند الإدخال. الاختلاف الوحيد بين تنسيقات الإدخال والإخراج هو meta موضوع.

{ text: string; tokenRows?: string[][]; documentId?: string; entityLabels?: { name: string; shortName?: string; category?: string; shortCategory?: string; color?: string; }[]; relationshipLabels: { name: string; allowedRelationships?: { sourceEntityLabelCategories?: string[]; targetEntityLabelCategories?: string[]; sourceEntityLabels?: string[]; targetEntityLabels?: string[]; }[]; }[]; classificationLabels?: string[]; entityAnnotations?: { id: string; start: number; end: number; text: string; labelCategory?: string; label: string; }[]; relationshipAnnotations?: { sourceEntityAnnotationId: string; targetEntityAnnotationId: string; label: string; }[]; classificationAnnotations?: string[]; meta: { instructions?: string; disableSubmitConfirmation?: boolean; multiClassification: boolean; runes: string[]; rejected: boolean; rejectedReason: string; }
}

الحقل	النوع	الوصف
ميتا	منطقية	يتم تعيينه على "صواب" إذا رفض مقدم التعليقات هذا المستند.
meta.rejected السبب	سلسلة	سبب مقدم التعليقات لرفض المستند.
meta.runes	خيط[]	مصفوفة من الأحرف الرونية تمثل جميع الأحرف في نص الإدخال. تُستخدم لحساب تعويضات بداية ونهاية التعليق التوضيحي للكيان.

فيما يلي نموذج لمستند الإخراج تم التعليق عليه:

ملاحظة الرونية:

"الرون" في هذا السياق هو حرف واحد يمكن تمييزه في النص ، بما في ذلك الأحرف متعددة البايت مثل الرموز التعبيرية.

نظرًا لأن لغات البرمجة المختلفة تمثل أحرفًا متعددة البايت بشكل مختلف ، فإن استخدام "الأحرف الرونية" لتعريف كل حرف يمكن تمييزه كعنصر ذري واحد يعني أن لدينا طريقة لا لبس فيها لوصف أي نص محدد.
على سبيل المثال ، تعامل Python العلم السويدي كأربعة أحرف:

لكن JavaScript يعامل نفس الرموز التعبيرية كحرفين

للقضاء على أي غموض ، سنتعامل مع العلم السويدي (وجميع الرموز التعبيرية الأخرى والأحرف متعددة البايت) كعنصر ذري واحد.

الإزاحة: موضع الطلسم بالنسبة إلى إدخال النص (بدءًا من الفهرس 0)

أداء التعليقات التوضيحية NER مع الحقيقة الأساسية

كخدمة توسيم بيانات مُدارة بالكامل ، تقوم Ground Truth ببناء مجموعات بيانات تدريبية لـ ML. بالنسبة لحالة الاستخدام هذه ، نستخدم Ground Truth لإرسال مجموعة من المستندات النصية إلى مجموعة من العمال للتعليق عليها. أخيرًا ، نقوم بمراجعة الجودة.

يمكن تكوين Ground Truth لإنشاء وظيفة تسمية البيانات باستخدام أداة NER الجديدة كقالب مخصص.

على وجه التحديد ، سوف نقوم بما يلي:

قم بإنشاء قوة عاملة خاصة بوضع العلامات من العمال لأداء مهمة التعليق التوضيحي
قم بإنشاء بيان إدخال "حقيقة أساسية" بالمستندات التي نريد إضافة تعليق عليها ثم تحميلها إليها خدمة Amazon Simple Storage (Amazon S3)
إنشاء مهمة ما قبل الملصقات ومهمة اللاحق وظائف Lambda
قم بإنشاء وظيفة وضع العلامات على Ground Truth باستخدام قالب NER المخصص
علق الوثائق
مراجعة النتائج

موارد أداة NER

يمكن العثور على قائمة كاملة بالموارد المرجعية وعينات المستندات في الرسم البياني التالي:

وضع العلامات على خلق القوى العاملة

تستخدم Ground Truth قوى عاملة في وضع العلامات من SageMaker لإدارة العمال وتوزيع المهام. قم بإنشاء قوة عاملة خاصة ، فريق عامل يسمى ner-worker-team ، وقم بتعيين نفسك للفريق باستخدام الإرشادات الموجودة في إنشاء قوة عاملة خاصة (وحدة تحكم Amazon SageMaker).

بمجرد إضافة نفسك إلى قوة عاملة خاصة وتأكيد بريدك الإلكتروني ، لاحظ عنوان URL لبوابة العامل من وحدة الإدارة في AWS:

انتقل إلى SageMaker
انتقل إلى Ground Truth → Labeling workforces
إختار ال Private علامة التبويب
لاحظ عنوان URL Labeling portal sign-in URL

قم بتسجيل الدخول إلى بوابة العامل لعرض وبدء العمل على مهام وضع العلامات.

بيان الإدخال

بيان بيانات إدخال حقيقة الأرض هو ملف سطور JSON حيث يحتوي كل سطر على مهمة عامل واحدة. في حالتنا ، سيحتوي كل سطر على مستند إدخال واحد بترميز JSON يحتوي على النص الذي نريد التعليق عليه ومخطط التعليق التوضيحي NER.

تنزيل نموذج بيان الإدخال reviews.manifest تبدأ من https://assets.solutions-lab.ml/NER/0.2.1/sample-data/reviews.manifest

ملاحظات: يحتاج كل صف في بيان الإدخال إلى مفتاح مستوى أعلى source or source-ref. يمكنك معرفة المزيد في استخدم ملف بيان الإدخال في دليل مطور Amazon SageMaker.

تحميل بيان الإدخال إلى Amazon S3

قم بتحميل بيان الإدخال هذا إلى حاوية S3 باستخدام وحدة الإدارة في AWS أو من سطر الأوامر ، وبالتالي الاستبدال your-bucket باسم الحاوية الفعلي.

aws s3 cp reviews.manifest s3://your-bucket/ner-input/reviews.manifest

تنزيل نموذج عامل مخصص

قم بتنزيل قالب العامل المخصص لأداة NER من https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html من خلال عرض المصدر وحفظ المحتويات محليًا ، أو من سطر الأوامر:

wget https://assets.solutions-lab.ml/NER/0.2.1/worker-template.liquid.html

إنشاء مهمة ما قبل الملصقات ومهمة اللاحق وظائف Lambda

تنزيل نموذج لمهمة وضع العلامات المسبقة لوظيفة Lambda: smgt-ner-pre-labeling-task-lambda.py تبدأ من https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-pre-labeling-task-lambda.py

تنزيل نموذج لمهمة وضع العلامات المسبقة لوظيفة Lambda: smgt-ner-post-labeling-task-lambda.py تبدأ من https://assets.solutions-lab.ml/NER/0.2.1/sample-scripts/smgt-ner-post-labeling-task-lambda.py

قم بإنشاء مهمة Lambda لمهمة الملصق المسبق من وحدة الإدارة في AWS:
- انتقل إلى Lambda
- أختار Create function
- تحديد Function name as smgt-ner-pre-labeling-task-lambda
- أختار Runtime → Python 3.6
- أختار Create function
- In Function code → lambda_hanadler.py، الصق محتويات smgt-ner-pre-labeling-task-lambda.py
- أختار Deploy
قم بإنشاء وظيفة Lambda لمهمة اللاحق من وحدة الإدارة في AWS:
- انتقل إلى Lambda
- أختار Create function
- تحديد Function name as smgt-ner-post-labeling-task-lambda
- أختار Runtime → Python 3.6
- وسع Change default execution role
- أختار Create a new role from AWS policy templates
- أدخل Role name: smgt-ner-post-labeling-task-lambda-role
- أختار Create function
- إختار ال Permissions علامة التبويب
- إختار ال Role name: smgt-ner-post-labeling-task-lambda-role لفتح وحدة تحكم IAM
- أضف سياستين إلى الدور
  - أختار Attach policies
  - إرفاق AmazonS3FullAccess سياسة
  - أختار Add inline policy
  - إختار ال JSON علامة التبويب
  - الصق السياسة المضمنة التالية:
```
{ "Version": "2012-10-17", "Statement": { "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/AmazonSageMaker-ExecutionRole-*" }
}
```
- انتقل مرة أخرى إلى smgt-ner-post-labeling-task-lambda صفحة تكوين وظيفة Lambda
- إختار ال Configuration علامة التبويب
- In Function code → لambda_hanadler.py، الصق محتويات smgt-ner-post-labeling-task-lambda.py
- أختار Deploy

قم بإنشاء وظيفة وضع العلامات على الحقيقة الأرضية

من وحدة الإدارة في AWS:

انتقل إلى Amazon SageMaker الخدمة
انتقل إلى Ground Truth → Labeling Jobs.
أختار Create labeling job
حدد أ Job Name
أختار Manual Data Setup
حدد موقع مجموعة بيانات الإدخال حيث قمت بتحميل بيان الإدخال مسبقًا (على سبيل المثال ، s3://your-bucket/ner-input/sample-smgt-input-manifest.jsonl)
حدد موقع مجموعة بيانات الإخراج للإشارة إلى مجلد مختلف في نفس المجموعة (على سبيل المثال ، s3://your-bucket/ner-output/)
حدد ملف IAM Role عن طريق اختيار Create new role
- اسمح لهذا الدور بالوصول إلى أي حاوية S3 عن طريق التحديد S3 buckets you specify → Any S3 bucket عند إنشاء السياسة
- في نافذة AWS Management Console الجديدة ، افتح ملف IAM وحدة واختيار Roles
- ابحث عن اسم الدور الذي أنشأته للتو (على سبيل المثال ، AmazonSageMaker-ExecutionRole-20210301T154158)
- حدد اسم الدور لفتح الدور في وحدة التحكم
- أرفق السياسات الثلاث التالية:
  - حدد إرفاق السياسات
  - إرفاق AWSLambda_FullAccess للدور
  - أختار Trust Relationships → Edit Trust Relationships
  - تحرير علاقة الثقة JSON ،
  - استبدل YOUR_ACCOUNT_NUMBER برقم حساب AWS العددي الخاص بك ، على النحو التالي:
```
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": "sts:AssumeRole" }, { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::YOUR_ACCOUNT_NUMBER:role/service-role/smgt-ner-post-labeling-task-lambda-role" }, "Action": "sts:AssumeRole" } ]
}
```
  - احفظ علاقة الثقة
ارجع إلى وظيفة Ground Truth الجديدة في نافذة وحدة التحكم الإدارية السابقة في AWS: ضمن Task Category، حدد Custom
أختار Next
أختار Worker types: Private
إختار ال Private team : ner-worker-team الذي تم إنشاؤه في القسم السابق
في مجلة Custom labeling task setup منطقة النص ، امسح المحتوى الافتراضي والصق محتوى ملف worker-template.liquid.html تم الحصول على الملف في وقت سابق
تحديد Pre-labeling task Lambda function مع الوظيفة التي تم إنشاؤها مسبقًا: smgt-ner-pre-labeling
تحديد Post-labeling task Lambda function مع الوظيفة التي تم إنشاؤها مسبقًا: smgt-ner-post-labeling
أختار Create

علق الوثائق

بمجرد إنشاء وظيفة Ground Truth ، يمكننا البدء في وضع تعليقات توضيحية على المستندات. افتح بوابة العمال لقوى العمل لدينا التي تم إنشاؤها مسبقًا (في وحدة الإدارة في AWS ، انتقل إلى SageMaker , Ground Truth → Labeling workforces, Private، وافتح ملف Labeling portal sign-in URL )

قم بتسجيل الدخول وحدد مهمة وضع العلامات الأولى في الجدول ، ثم حدد "بدء العمل" لفتح التعليق التوضيحي. قم بإجراء التعليقات التوضيحية الخاصة بك وحدد إرسال في جميع نماذج المستندات الثلاثة.

مراجعة النتائج

عندما يكمل المعلقون على Ground Truth المهام ، ستكون النتائج متاحة في حاوية الإخراج S3:

s3://your-bucket/path-to-your-ner-job/annotations/worker-response/iteration-1/0/

بمجرد اكتمال جميع المهام لوظيفة وضع العلامات ، يتوفر الإخراج المدمج في ملف output.manifest الملف موجود هنا:

s3://your-bucket/path-to-your-ner-job/manifests/output/output.manifest

بيان الإخراج هذا عبارة عن ملف سطور JSON به مستند نصي مشروح واحد لكل سطر في "تنسيق مستند الإخراج" المحدد مسبقًا. هذا الملف متوافق مع "تنسيق مستند الإدخال" ، ويمكن تغذيته مباشرة في وظيفة Ground Truth اللاحقة لجولة أخرى من التعليقات التوضيحية. بدلاً من ذلك ، يمكن تحليلها وإرسالها إلى وظيفة تدريب ML. بعض السيناريوهات التي قد نستخدم فيها جولة ثانية من التعليقات التوضيحية هي:

تقسيم عملية التعليق التوضيحي إلى خطوتين حيث يحدد المعلق الأول التعليقات التوضيحية للكيان ويرسم المعلق الثاني العلاقات
أخذ عينة من output.manifest وإرساله إلى المعلق التوضيحي الثاني الأكثر خبرة لمراجعته باعتباره فحصًا لمراقبة الجودة

قوالب الشرح الأرضية المخصصة

يتم تنفيذ أداة التعليق التوضيحي NER الموضحة في هذا المستند كقالب مخصص للتعليق التوضيحي لـ Ground Truth. يمكن لعملاء AWS إنشاء واجهات التعليقات التوضيحية المخصصة الخاصة بهم باستخدام الإرشادات الموجودة هنا:

وفي الختام

من خلال العمل معًا ، تمكنت Booking.com و Amazon MLSL من تطوير أداة تعليقات توضيحية نصية قوية قادرة على إنشاء تعليقات توضيحية للعلاقة معقدة للتعرف على الكيانات المسماة.

نحن نشجع عملاء AWS الذين لديهم حالة استخدام التعليقات التوضيحية النصية NER لتجربة الأداة الموضحة في هذا المنشور. إذا كنت ترغب في المساعدة في تسريع استخدام ML في منتجاتك وخدماتك ، فيرجى الاتصال بـ مختبر أمازون لحلول التعلم الآلي.

حول المؤلف

دان نوبل هو مهندس تطوير برمجيات في أمازون حيث يساعد في بناء تجارب مستخدم مبهجة. في أوقات فراغه ، يستمتع بالقراءة وممارسة الرياضة والخوض في المغامرات مع أسرته.

بري نونيس هو مهندس التعلم العميق في Amazon ML Solutions Lab ، حيث يعمل مع العملاء عبر مختلف القطاعات ، ويساعدهم على تسريع رحلة ترحيلهم إلى السحابة ، وحل مشكلات التعلم الآلي الخاصة بهم باستخدام أحدث الحلول والتقنيات.

نيهاريكا جايانثي هي مهندسة الواجهة الأمامية في AWS ، حيث تقوم بتطوير حلول التعليقات التوضيحية المخصصة لعملاء Amazon SageMaker. خارج العمل ، تستمتع بالذهاب إلى المتاحف وممارسة التمارين.

أميت بيكا هو مدير تعلم الآلة في بوكينح.كوم، مع أكثر من 15 عامًا من الخبرة في تطوير البرمجيات والتعلم الآلي. إنه مفتون بالناس واللغات ، وكيف لا تزال أجهزة الكمبيوتر في حيرة من كلاهما.

المصدر: https://aws.amazon.com/blogs/machine-learning/labeling-text-for-aspect-based-sentiment-analysis-using-sagemaker-ground-truth/

الطابع الزمني: ٣ فبراير ٢٠٢٤

اكثر من AWS مدونة التعلم الآلي

إنشاء قوالب مشروع SageMaker مخصصة - أفضل الممارسات

الكتلة المصدر:

AWS مدونة التعلم الآلي

عقدة المصدر: 1289369

الطابع الزمني: أكتوبر 27، 2021

أتمتة الكشف عن أعمدة الكهرباء المكسورة باستخدام Amazon Rekognition Custom Labels SDK

الكتلة المصدر:

الكتلة المصدر:

AWS مدونة التعلم الآلي

عقدة المصدر: 1575229

الطابع الزمني: ديسمبر 23،

قم بتسمية النص لتحليل المشاعر القائم على العرض باستخدام SageMaker Ground Truth

أعاد نشره أفلاطون

حالة استخدام العميل: Booking.com

متطلبات وضع العلامات

نموذج الشرح

تكوين أداة التعليقات التوضيحية NER

تنسيق مستند الإدخال

تنسيق مستند الإخراج

ملاحظة الرونية:

أداء التعليقات التوضيحية NER مع الحقيقة الأساسية

موارد أداة NER

وضع العلامات على خلق القوى العاملة

بيان الإدخال

تحميل بيان الإدخال إلى Amazon S3

تنزيل نموذج عامل مخصص

إنشاء مهمة ما قبل الملصقات ومهمة اللاحق وظائف Lambda

قم بإنشاء وظيفة وضع العلامات على الحقيقة الأرضية

علق الوثائق

مراجعة النتائج

قوالب الشرح الأرضية المخصصة

وفي الختام

حول المؤلف

اكثر من AWS مدونة التعلم الآلي

إنشاء قوالب مشروع SageMaker مخصصة - أفضل الممارسات

أتمتة الكشف عن أعمدة الكهرباء المكسورة باستخدام Amazon Rekognition Custom Labels SDK

قم بتطوير ونشر نماذج ML باستخدام Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot

اكتشف الأشكال والكائنات الصغيرة داخل صورك باستخدام Amazon Rekognition Custom Labels

صمم طريقة مقنعة لتصفية السجلات باستخدام Amazon SageMaker Model Monitor

قم بأتمتة عمليات سير العمل متعددة الوسائط والمتوازية لتسمية البيانات باستخدام Amazon SageMaker Ground Truth و AWS Step Functions

ترجمة وتحليل النص باستخدام وظائف SQL مع Amazon Athena و Amazon Translate و Amazon Comprehend

الكشف الذكي عن شذوذ حركة المرور في المدينة باستخدام Amazon Lookout for Metrics و Amazon Kinesis Data Analytics Studio

استخدم أطر التعلم العميق في الأصل في Amazon SageMaker Processing

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي