دليل شامل للتعرف الضوئي على الحروف باستخدام تقنية RPA وفهم المستندات

أعاد نشره أفلاطون

المتابعون: 0

آخر تحديث: يناير 2021.

هذه المدونة عبارة عن نظرة عامة شاملة على استخدام OCR مع أي أداة RPA لأتمتة سير عمل المستند. نستكشف كيف أن أحدث تقنيات التعرف الضوئي على الحروف القائمة على التعلم الآلي لا تتطلب قواعد أو إعداد قالب.

RPAs أو أتمتة العمليات الروبوتية هي أدوات برمجية تهدف إلى القضاء على مهام العمل المتكررة. يتجه المزيد من مدراء المعلومات نحوهم لتقليل التكاليف ومساعدة الموظفين على التركيز على الأعمال التجارية ذات القيمة الأعلى. تشمل الأمثلة الرد على التعليقات على مواقع الويب أو معالجة طلبات العملاء. تتضمن المهام الأكثر تعقيدًا بعض الشيء التعامل مع مستندات مثل أشكال مكتوبة بخط اليد و الفواتير - تحتاج عادةً إلى نقلها من نظام قديم إلى آخر - مثل عميل البريد الإلكتروني الخاص بك إلى نظام SAP ERP الخاص بك حيث تحتاج إلى استخراج البيانات. هذا هو الجزء الإشكالي.

تعتمد معظم أدوات التعرف الضوئي على الحروف (OCR) التي تلتقط البيانات من هذه المستندات على القالب (على سبيل المثال ABBYY Flexicapture) ولا يتم قياسها بشكل جيد في المستندات شبه المنظمة. هناك جيل أحدث من الحلول القائمة على التعلم الآلي والتي توفر عادةً واجهة برمجة التطبيقات (API).
عمليات التكامل التي يمكنها التقاط أزواج القيمة الرئيسية من المستندات - عادةً ما تكون أنظمة المؤسسة قديمة وليست مفتوحة للتكامل مع واجهات برمجة التطبيقات الخارجية. على الجانب الآخر ، تم تصميم RPA للتعامل مع مهام سير عمل النظام القديم هذه مثل استيعاب المستندات من المجلدات وإدخال النتائج في ERPs أو CRMs.

نظرًا لأن أتمتة العمليات الروبوتية (RPA) و ML تتطور نحو التشغيل الآلي المفرط ، يمكننا الاستفادة من برامج الروبوت جنبًا إلى جنب مع ML للتعامل مع المهام المعقدة مثل تصنيف المستندات والاستخراج والتعرف البصري على الأحرف. في دراسة حديثة ، قيل إنه من خلال أتمتة 29٪ فقط من الوظائف لمهمة ما باستخدام RPAs ، فإن الإدارات المالية وحدها توفر أكثر من 25,000 ساعة من إعادة العمل الناجمة عن الأخطاء البشرية بتكلفة قدرها 878,000 دولار سنويًا لمؤسسة بها 40 موظفو محاسبة الوقت [1]. في هذه المدونة ، سنتعرف على استخدام OCRs مع RPAs والتعمق في فهم سير عمل المستندات. فيما يلي جدول المحتويات.

تعريفات ونظرة عامة

RPA، بشكل عام، هي تقنية تساعد على أتمتة المهام الإدارية عبر روبوتات البرامج والأجهزة. تستفيد هذه الروبوتات من واجهات المستخدم؛ لالتقاط البيانات ومعالجة التطبيقات كما يفعل البشر. على سبيل المثال، يمكن لتقنية RPA النظر في سلسلة من المهام التي تم تنفيذها في واجهة المستخدم الرسومية، مثل تحريك المؤشرات، والاتصال بواجهات برمجة التطبيقات، ونسخ البيانات ولصقها، وصياغة نفس تسلسل الإجراءات في إطار سلكي لتقنية RPA يتم ترجمته إلى تعليمات برمجية. علاوة على ذلك، يمكن تنفيذ هذه المهام دون تدخل بشري في المستقبل. يعد التعرف البصري على الأحرف (OCR) ميزة مهمة لأي حل وظيفي لأتمتة العمليات الآلية (RPA). تُستخدم هذه التقنية لقراءة النص واستخراجه من مصادر مختلفة مثل الصور أو الملفات ملفات PDF إلى تنسيق رقمي دون التقاطه يدويًا.

من ناحية أخرى ، فهم المستند هو المصطلح المستخدم لوصف قراءة بيانات المستند وتفسيرها والتعامل معها تلقائيًا. الأهم في هذه العملية هو أن برامج الروبوت نفسها تؤدي جميع المهام. تستفيد هذه الروبوتات من قوة الذكاء الاصطناعي والتعلم الآلي لفهم المستندات كمساعدات رقمية. بهذه الطريقة ، يمكننا القول أن فهم المستند يظهر عند تقاطع معالجة المستندات ، والذكاء الاصطناعي ، و RPA.

يظهر فهم المستند عند تقاطع معالجة المستندات والذكاء الاصطناعي و RPA. [مصدر الصورة: فهم مستند مسار واجهة المستخدم [2]]

كيف يمكن للروبوتات تعلم فهم المستندات باستخدام OCR و ML

قبل أن نتعمق في فهم المستند أولاً ، لنتحدث عن دور الروبوتات في فهم المستندات. هؤلاء المساعدون غير المرئيين تمامًا يجعلون حياتنا أكثر راحة. على عكس الأفلام والمسلسلات ، فإن هذه الروبوتات ليست أجهزة مادية أو برامج ذكاء اصطناعي توضع على سطح المكتب وتضغط على الأزرار لأداء المهام. يمكننا التفكير في هؤلاء كمساعدين رقميين تم تدريبهم على معالجة المستندات من خلال قراءة التطبيقات واستخدامها كما نفعل نحن. على الجانب الوظيفي ، الروبوتات جيدة في تحسين أداء وكفاءة العملية. ومع ذلك ، لكونهم برنامجًا مستقلًا ، لا يمكنهم تقييم العملية واتخاذ قرارات معرفية. ومع ذلك ، إذا تم دمج التعلم الآلي بنجاح ، ستصبح الروبوتات أكثر ديناميكية وتكيفًا. على سبيل المثال ، الروبوتات المستخدمة لمعالجة المستندات وإدارة البيانات والوظائف الأخرى عبر المكتب الأمامي والوسطى ستؤدي إجراءات أكثر ذكاءً ، مثل إزالة الإدخالات المكررة أو حل استثناءات النظام غير المعروفة في هذه العملية. علاوة على ذلك ، يتم تدريب الروبوتات على قراءة البيانات من المستندات واستخراجها وتفسيرها والعمل بناءً عليها باستخدام الذكاء الاصطناعي (AI).

كيف يمكن للشركات دمج OCR الذكي مع RPA لتحسين سير العمل

يعد استخراج بيانات المستند مكونًا مهمًا لفهم المستند. في هذا القسم ، سنناقش كيف يمكننا دمج OCR مع RPA أو العكس. أولاً ، عرفنا جميعًا أن هناك أنواعًا مختلفة من المستندات من حيث القوالب والأسلوب والتنسيق وأحيانًا اللغة. ومن ثم لا يمكننا الاعتماد على تقنية OCR بسيطة لاستخراج البيانات من هذه المستندات. لمعالجة هذه المشكلة ، سنستخدم كل من الأساليب القائمة على القواعد والأساليب القائمة على النماذج داخل OCR للتعامل مع البيانات من هياكل المستندات المختلفة. سنرى الآن كيف يمكن للشركات التي تقوم بالتعرف الضوئي على الحروف أن تدمج RPAs في نظامها الحالي بناءً على نوع المستندات.

المستندات المهيكلة: في هذا النوع من المستندات ، عادةً ما تكون التخطيطات والقوالب ثابتة ومتسقة تقريبًا. على سبيل المثال ، ضع في اعتبارك مؤسسة تتعامل مع "اعرف عميلك" ببطاقات هوية صادرة عن الحكومة مثل جواز السفر أو رخصة القيادة. ستكون جميع هذه المستندات متطابقة ولها نفس الحقول مثل رقم الهوية واسم الشخص والعمر وعدد قليل من المستندات الأخرى في نفس المناصب. لكن التفاصيل فقط تختلف. قد تكون هناك قيود قليلة مثل الجدول الفائض أو البيانات غير المجمعة.

عادةً ما يستخدم الأسلوب الموصى به نموذجًا أو محركًا قائمًا على القواعد لاستخراج المعلومات الخاصة بالمستندات المهيكلة. يمكن أن تشمل هذه التعبيرات العادية أو تعيين بسيط للموقع و OCR. ومن ثم لدمج الروبوتات البرمجية لأتمتة استخراج المعلومات ، يمكننا إما استخدام القوالب الموجودة مسبقًا أو إنشاء قواعد لبياناتنا المنظمة. هناك عيب واحد باستخدام النهج القائم على القواعد ، لأنه يعتمد على أجزاء ثابتة ، حتى التغييرات الطفيفة في هيكل النموذج يمكن أن تتسبب في انهيار القواعد.

المستندات شبه المهيكلة: تحتوي هذه المستندات على نفس المعلومات ولكنها مرتبة في مواضع مختلفة. على سبيل المثال، النظر في الفواتير تحتوي على 8-12 حقل متطابق. في عدد قليل الفواتير، يمكن العثور على عنوان التاجر في الأعلى، وفي حالات أخرى يمكن العثور عليه في الأسفل. عادةً لا تعطي هذه الأساليب المبنية على القواعد دقة عالية؛ ومن ثم فإننا ندخل نماذج التعلم الآلي والتعلم العميق في الصورة لاستخراج المعلومات باستخدام التعرف الضوئي على الحروف. وبدلاً من ذلك، في بعض الحالات، يمكننا استخدام النماذج المختلطة التي تتضمن كلاً من القواعد ونماذج تعلم الآلة. بعض النماذج الشائعة المدربة مسبقًا هي FastRCNN وAttention OCR وGraph Convolutions لاستخراج المعلومات في المستندات. ومع ذلك، مرة أخرى هذه النماذج لها عيوب قليلة؛ ومن ثم نقوم بقياس أداء الخوارزمية باستخدام مقاييس مثل الدقة أو درجة الثقة. ونظرًا لأن النموذج عبارة عن أنماط تعلم، بدلاً من العمل وفقًا لقواعد محددة، فقد يرتكب أخطاء في البداية بعد التصحيحات مباشرة. ومع ذلك، فإن الحل لهذه العيوب هو أنه كلما زاد عدد العينات التي يعالجها نموذج التعلم الآلي، زاد عدد الأنماط التي يتعلمها لضمان الدقة.

المستندات غير المنظمة: تقنية RPA اليوم غير قادرة على إدارة البيانات غير المنظمة بشكل مباشر، وبالتالي تتطلب من الروبوتات أولاً استخراج البيانات المنظمة وإنشائها باستخدام التعرف الضوئي على الحروف. على عكس المستندات المنظمة وشبه المنظمة، لا تحتوي البيانات غير المنظمة على عدد قليل من أزواج القيم الأساسية. على سبيل المثال، في عدد قليل الفواتيرنرى عنوان تاجر في مكان ما بدون أي اسم مفتاح؛ وبالمثل، نلاحظ الشيء نفسه بالنسبة للحقول الأخرى مثل التاريخ ومعرف الفاتورة. لكي تتمكن نماذج تعلم الآلة من معالجة هذه الأمور بدقة، تحتاج الروبوتات إلى تعلم كيفية ترجمة النص المكتوب إلى بيانات قابلة للتنفيذ، مثل البريد الإلكتروني ورقم الهاتف والعنوان وما إلى ذلك. وسيتعلم النموذج بعد ذلك أنه يجب استخراج أنماط الأرقام المكونة من 7 أو 10 أرقام كأرقام هواتف ونص ضخم يحتوي على رموز مكونة من خمسة أرقام وأسماء مختلفة كنص. ولجعل هذه النماذج أكثر دقة، يمكننا أيضًا استخدام تقنيات من معالجة اللغات الطبيعية (NLP) مثل التعرف على الكيانات المسماة وتضمين الكلمات.

بشكل عام لفهم المستندات ، من الضروري أولاً فهم البيانات ثم تنفيذ OCR باستخدام RPAs. بعد ذلك ، بدلاً من تخطيط العملية خطوة بخطوة ، يمكننا تعليم الروبوت "القيام بما أفعله" عن طريق تسجيل العملية كما تحدث مع إمكانات التعرف الضوئي على الحروف القوية كما تمت مناقشته أعلاه ، من خلال دمج القواعد وخوارزميات التعلم الآلي. يتتبع برنامج الروبوت نقراتك وإجراءاتك على الشاشة ثم يحولها إلى سير عمل قابل للتحرير. إذا كنت تعمل بالكامل في برامج محلية ، فهذا بقدر ما تحتاج إلى معرفته.

تحديات OCR التي يواجهها مطورو RPA

لقد رأينا كيف يمكننا دمج OCRR مع RPAs لمستندات مختلفة ، ولكن هناك حالات قليلة من التحديات حيث تحتاج الروبوتات إلى التعامل معها بشكل جيد. دعونا نناقشهم الآن!

بيانات ضعيفة أو غير متسقة: تلعب البيانات دورًا مهمًا في "فهم المستند". في معظم الحالات ، يتم مسح المستندات ضوئيًا باستخدام الكاميرات حيث توجد فرصة لفقدان تنسيق المستند أثناء مسح النص (على سبيل المثال ، لا يتم التعرف دائمًا على التنسيق الغامق والمائل والتسطير). في بعض الأحيان ، قد يستخرج OCR النص بطريقة خاطئة مما يؤدي إلى أخطاء إملائية وفواصل فقرات غير منتظمة ، مما يقلل من الأداء العام للروبوتات. ومن ثم فإن معالجة جميع القيم المفقودة والتقاط البيانات بدقة أعلى أمر حيوي لتحقيق دقة أعلى لـ OCR.
اتجاه الصفحة غير صحيح في المستندات: يعد اتجاه الصفحة والانحراف أيضًا أحد المشكلات الشائعة التي تؤدي إلى تصحيح النص غير الصحيح لـ OCR. يحدث هذا عادةً عندما يتم مسح المستندات ضوئيًا بشكل غير صحيح أثناء مرحلة جمع البيانات. للتغلب على هذا ، سيتعين علينا الإعلان عن بعض الوظائف للروبوتات مثل الملاءمة التلقائية للصفحة ، والتصفية التلقائية حتى يتمكنوا من زيادة جودة المستند الممسوح ضوئيًا وتلقي البيانات الصحيحة عند الإخراج.
مشاكل الاندماج: لا تعمل جميع أدوات RPA بشكل جيد في بيئات سطح المكتب البعيد - فهي تتسبب في حدوث أعطال ومشكلات خطيرة في التشغيل الآلي. علاوة على ذلك ، يحتاج مطور RPA إلى معرفة أي حل OCR سيكون الأفضل لحالة معينة. أيضًا ، للعمل مع أدوات أتمتة محددة ، يحتاج مطور RPA إلى اختيار تقنية OCR المحدودة فقط التي أنشأتها Microsoft ، Google. ومن ثم ، فإن دمج الخوارزميات والنماذج المخصصة لدينا يمثل تحديًا في بعض الأحيان.
كل النص عبارة عن نص مخلوط: بالنسبة لحالات الاستخدام الواقعية ، فإن النص الذي تم التقاطه بواسطة OCR عام مختلط بالكامل ولا يحتوي على معلومات مفيدة يمكن للروبوتات استخدامها لأداء عمليات مهمة. يحتاج مطورو تقنية RPA إلى دعم ML قوي ليتمكنوا من إنشاء تطبيقات مفيدة.

خط أنابيب لفهم المستند سير العمل

في الأقسام السابقة ، رأينا كيف تساعد الروبوتات في إجراء التعرف الضوئي على الحروف لأنواع مختلفة من المستندات. لكن OCR هو مجرد تقنية تقوم بتحويل الصور أو الملفات الأخرى إلى نص. الآن ، في هذا القسم ، سنلقي نظرة على سير عمل "فهم المستند" مباشرةً من بداية تجميع المستندات حتى نحفظها أخيرًا معلومات ذات مغزى في التنسيق المطلوب.

استيعاب المستند من مجلد باستخدام الروبوت الخاص بك: هذه هي الخطوة الأولى من خلال فهم المستندات من خلال برامج الروبوت. هنا ، سنقوم بإحضار المستند الموجود إما على منصة سحابية (باستخدام واجهة برمجة التطبيقات) أو من جهاز محلي. في حالات قليلة ، إذا كانت مستنداتنا على صفحات الويب ، فيمكننا أتمتة نصوص الكشط من خلال برامج الروبوت حيث يمكنهم جلب المستندات في الوقت المناسب.
وثيقة النوع: بعد جلب البيانات، من الضروري فهم نوع المستند والتنسيق الذي تم حفظه به في أنظمتنا، حيث أننا في بعض الأحيان نتلقى البيانات من مصادر مختلفة بتنسيقات ملفات مختلفة مثل PDFو PNG و JPG. ليس فقط أنواع الملفات، ففي بعض الأحيان عندما يتم مسح المستندات ضوئيًا باستخدام كاميرات الهاتف، يجب أيضًا معالجة بعض المشكلات الصعبة مثل انحراف الصورة أو التدوير أو السطوع أو الدقة المنخفضة. وبالتالي، سيتعين علينا التأكد من أن الروبوتات تصنف هذه المستندات إلى فئة منظمة، أو شبه منظمة، أو غير منظمة، وبالتالي حفظها بتنسيق عام. يتم تحقيق مهمة التصنيف من خلال مقارنة المستندات بالقوالب وتحليل الميزات مثل الخطوط واللغة ووجود أزواج القيمة الرئيسية والجداول وما إلى ذلك.
استخراج البيانات باستخدام OCR: حسنًا ، الآن بعد أن رتبت الروبوتات مستنداتنا في تنسيق عام وصنفتها ، حان الوقت بالنسبة لنا لتحويلها رقميًا باستخدام تقنية التعرف الضوئي على الحروف. بهذا ، سيكون لدينا النص وموقعه في الإحداثيات المشتركة من الصور. يساعد هذا في توحيد المستندات والبيانات للخطوات اللاحقة. نواجه أيضًا القليل عندما لا يتمكن برنامج OCR من التمييز بشكل صحيح بين الأحرف ، مثل "t" مقابل "i" أو "0" مقابل "O." يمكن أن تصبح الأخطاء التي تريد تفاديها باستخدام برنامج OCR مشكلة جديدة عندما تكون تقنية OCR غير قادرة على تحليل الفروق الدقيقة في المستند بناءً على جودته أو شكله الأصلي. هذا هو المكان الذي يظهر فيه التعلم الآلي في الصورة ، والذي سنناقشه في الخطوة التالية.
الاستفادة من ML / DL في التعرف الضوئي على الحروف الذكي باستخدام الروبوتات: بعد أن يتم رقمنة البيانات ، يجب أن يفهم برنامج OCR نوع المستند الذي يعمل به وما هو ملائم. لكن برنامج OCR التقليدي قد يواجه صعوبة في توسيع نطاق جهود تصنيف المستندات. ومن ثم يجب تدريب روبوتات البرامج على القدرات المعرفية من خلال الاستفادة من التعلم الآلي وتقنيات التعلم العميق لجعل OCRs أكثر ذكاءً. يمكن لحلول OCR المستندة إلى ML تحديد نوع المستند ومطابقته مع نوع مستند معروف يستخدمه عملك. يمكنهم أيضًا تحليل وفهم كتل النص في المستندات غير المهيكلة. بمجرد أن يعرف الحل المزيد عن المستند نفسه ، يمكنه البدء في استخراج المعلومات ذات الصلة بناءً على القصد والمعنى.
استخراج البيانات وتصنيفها بشكل أفضل: استخراج البيانات هو جوهر فهم الوثيقة. كما تمت مناقشته في القسم السابق حول دمج RPA مع OCR في هذه الخطوة ، اختر تقنية استخراج البيانات بناءً على نوع المستند. من خلال RPAs ، يمكننا بسهولة تكوين أي مستخرج لاستخدامه ، سواء كان أسلوب OCR قائم على القواعد أو قائم على ML أو نموذج هجين. استنادًا إلى مقاييس الثقة والأداء التي يتم إرجاعها بعد استخراج المعلومات ، ستقوم الروبوتات البرمجية بحفظها بالتنسيق المطلوب لمزيد من التحليل. يوجد أدناه صورة لكيفية تكوين أدوات الاستخراج وتعيين مستوى الثقة في أداة RPA بواسطة UIPath.

*اختيار المستخرجين الضروريين لفهم المستند في مسار واجهة المستخدم*

6. التحقق من صحة الأفكار وتمكينها: نماذج التعرف الضوئي على الحروف والتعلم الآلي ليست دقيقة بنسبة مائة بالمائة من حيث استخراج المعلومات ، وبالتالي فإن إضافة طبقة من التدخل البشري بمساعدة الروبوتات يمكن أن تحل المشكلة. الطريقة التي يعمل بها هذا التحقق هي أنه عندما تتعامل الروبوتات مع دقة واستثناءات منخفضة ، فإنها ترفع على الفور إشعارًا إلى مركز العمل حيث يمكن للموظف تلقي طلب للتحقق من صحة البيانات أو التعامل مع الاستثناءات ويمكنه حل أي شكوك في مسألة النقرات. علاوة على ذلك ، يمكننا إطلاق العنان لإمكانات الذكاء الاصطناعي لتوثيق البيانات بمرور الوقت لعمل تنبؤات ، وتحديد الحالات الشاذة المحتملة التي قد تشير إلى الاحتيال والنسخ والأخطاء الأخرى.

فوائد دمج الروبوتات مع Document Understanding

أتمتة العملية: السبب الرئيسي لدمج برامج الروبوت لفهم المستندات هو أتمتة العملية بأكملها من البداية إلى النهاية. كل ما نحتاج إلى القيام به هو إنشاء سير عمل للروبوتات للتعلم والجلوس والاسترخاء. أثناء عملية التحقق من الصحة ، قد نحتاج إلى معالجة المشكلات التي تم إعلام الروبوتات بها حيث يتم تحديد أي أخطاء أو عمليات احتيال.
الروبوتات مع التعلم الآلي: أثناء عملية الأتمتة ، يمكننا جعل الروبوتات مرنة للتعلم الآلي. بمعنى أن الروبوتات يمكنها أيضًا معرفة كيفية أداء نماذج التعلم الآلي وبالتالي تحسين النماذج لتحقيق دقة وأداء أعلى لاستخراج النصوص والمعلومات من المستندات.
معالجة مجموعة واسعة من معالجة المستندات: بالنسبة للمهام العامة مثل الجدول واستخراج المعلومات ، سيتعين علينا إنشاء خطوط أنابيب تعلم عميق مختلفة لأنواع مختلفة من المستندات. وهذا يؤدي إلى بناء تطبيقات متعددة ونشر نماذج مختلفة على خوادم مختلفة ، الأمر الذي يتطلب الكثير من الجهد والوقت. عندما تكون الروبوتات في الصورة لمجموعة كبيرة من المستندات ، يمكن أن يكون لدينا خط أنابيب واحد فقط حيث يمكن للروبوتات تصنيفها ثم استخدام النموذج المناسب لمهام مختلفة. يمكننا أيضًا دمج الخدمات المختلفة من خلال واجهات برمجة التطبيقات والتواصل مع المنظمات الأخرى من حيث جلب البيانات.
سهل النشر: لفهم المستند بعد إنشاء خطوط الأنابيب ، تستغرق عملية النشر دقيقة واحدة فقط. يمكننا إما تصدير واجهات برمجة التطبيقات بواسطة الروبوتات بعد التدريب ، أو يمكننا إنشاء حل RPA مخصص يمكن استخدامه في أنظمتنا المحلية. يمكن لهذا النوع من النشر أيضًا تحسين المؤسسات ويمكنه تقليل النفقات بأقل قدر ممكن من المخاطر.

أدخل Nanonets

NanoNets عبارة عن منصة للتعلم الآلي تتيح للمستخدمين التقاط البيانات منها الفواتيروالإيصالات والمستندات الأخرى دون أي إعداد للقالب. لدينا أحدث خوارزميات التعلم العميق ورؤية الكمبيوتر التي تعمل في الخلف والتي يمكنها التعامل مع أي نوع من مهام فهم المستندات مثل التعرف الضوئي على الحروف واستخراج الجدول واستخراج زوج القيمة الرئيسية. وعادةً ما يتم تصديرها كواجهات برمجة التطبيقات (APIs) أو يمكن نشرها محليًا بناءً على حالات الاستخدام المختلفة. وفيما يلي بعض الأمثلة على ذلك،

نموذج الفاتورة: تحديد الحقول الرئيسية من الفواتير مثل اسم المشترين ومعرف الفاتورة والتاريخ والمبلغ وما إلى ذلك.
نموذج الإيصالات: حدد الحقول الرئيسية من الإيصالات مثل اسم البائع والرقم والتاريخ والمبلغ وما إلى ذلك.
رخصة القيادة (الولايات المتحدة الأمريكية): حدد المجالات الرئيسية مثل رقم الترخيص ، DOB ، تاريخ انتهاء الصلاحية ، تاريخ الإصدار ، إلخ.
السير الذاتية: استخراج الخبرة والتعليم ومجموعات المهارات ومعلومات المرشح وما إلى ذلك.

ولجعل سير العمل أسرع وأكثر قوة، نستخدم UiPath، وهي أداة RPA لأتمتة مستنداتك بسلاسة دون أي قالب. في القسم التالي، سنتعرف على كيفية استخدام UiPath Connect مع Nanonets لفهم المستندات. أكبر ثلاثة لاعبين في سوق RPA هم UiPath وAutomation Anywhere و المنشور الأزرق. تركز هذه المدونة على Uipath.

NanoNets مع UiPath

لقد تعلمنا إنشاء خط أنابيب لفهم المستندات في الأقسام السابقة. يتطلب معرفة أساسية بـ OCR و RPA والتعلم الآلي ، حيث توجد طرق وخوارزميات مختلفة لمهام مختلفة في نقاط مختلفة. أيضًا ، علينا بذل الكثير من الجهد في بناء شبكات عصبية تفهم قوالبنا وتدريبها ونشرها. ومن ثم ، لكي تكون مرتاحًا وأتمتة كل شيء بدءًا من تحميل المستندات ، وتصنيفها ، وبناء OCR ، ودمج نماذج ML ، فإننا في Nanonets نعمل على Ui Path لإنشاء مسار سلس لفهم المستند. يوجد أدناه صورة لكيفية عمل ذلك.

الآن دعنا نراجع كلًا من هؤلاء ونتعلم كيف يمكننا دمج Nanonets مع UiPath.

الخطوة 1: التسجيل في UiPath وتنزيل UiPath Studio

لإنشاء سير عمل ، سيتعين علينا أولاً إنشاء حساب في UiPath. إذا كنت مستخدمًا حاليًا ، فيمكنك تسجيل الدخول مباشرة إلى حسابك ، وإعادة توجيه لوحة تحكم UiPath. بعد ذلك ، سيتعين عليك تنزيل وتثبيت UiPath Studio (إصدار المجتمع) ، وهو مجاني.

الخطوة 2: تنزيل مكون Nanonets

بعد ذلك ، لإعداد ملف خط أنابيب معالجة الفاتورة، سيتعين عليك تنزيل موصل Nanonets من الرابط أدناه.

-> NanoNets OCR - مكون RPA

يوجد أدناه لقطة شاشة لـ UiPath Marketplace ومكون Nanonets. أيضًا ، لتنزيل هذا ، تأكد من تسجيل الدخول إلى UiPath من نظام تشغيل Windows.

يجب أن تحتوي الملفات التي تم تنزيلها على الملفات المدرجة أدناه ،

UiPath OCR Predict ├── Main.xaml
└── project.json

الخطوة 3: افتح ملف Main.xaml Nanonets Component

للتحقق مما إذا كان Nanonets UiPath يعمل أم لا ، يمكنك فتح ملف Main.xml من مكون Nanonets الذي تم تنزيله باستخدام Ui Path Studio. ثم يمكنك رؤية خط الأنابيب الخاص بك الذي تم إنشاؤه بالفعل من أجلك لمعالجة المستندات.

الخطوة 4: اجمع معرف الطراز ومفتاح API ونقطة نهاية API من تطبيق Nanonets

بعد ذلك ، يمكنك استخدام أي من نماذج التعرف الضوئي على الحروف المدربة من تطبيق Nanonets وجمع معرّف الطراز ومفتاح واجهة برمجة التطبيقات ونقطة النهاية. فيما يلي مزيد من التفاصيل لتجدها بسرعة.

معرف النموذج: قم بتسجيل الدخول إلى حساب Nanonets الخاص بك وانتقل إلى "My Models." يمكنك تدريب نموذج جديد أو نسخ معرف التطبيق الخاص بنموذج موجود.

نقطة نهاية API: يمكنك اختيار أي نموذج موجود والنقر فوق دمج للعثور على نقطة نهاية API الخاصة بك. يوجد أدناه مثال لكيفية ظهور نقاط النهاية الخاصة بك.

https://app.nanonets.com/api/v2/OCR/Model/XXXXXXX-4840-4c27-8940-d3add200779e/LabelUrls/

3. مفتاح API: انتقل إلى علامة التبويب API Key ، ويمكنك نسخ أي مفتاح API موجود أو إنشاء مفتاح جديد.

الخطوة 5: أضف طلب HTTP للحصول على الطريقة والمتغيرات الخاصة بك إلى مسار واجهة المستخدم

الآن لدمج النموذج الخاص بك من Nanonets إلى مسار UI ، سيكون لديك أول نقرة على طلب HTTP وإضافة نقطة النهاية ، والتي يمكن العثور عليها في التنقل الأيسر ضمن قسم الإدخال. يوجد أدناه لقطة شاشة.

في وقت لاحق ، أضف جميع المتغيرات الخاصة بك لإنشاء اتصال من استوديو UiPath الخاص بك إلى Nanonets API. يمكنك العثور على هذا القسم في الجزء السفلي في "علامة تبويب المتغيرات". فيما يلي لقطة الشاشة ، سيتعين عليك تحديث / نسخ مفتاح API ونقطة النهاية ومعرف الطراز الخاص بطرازك هنا.

الخطوة 6: إضافة موقع الملف للتنبؤات

أخيرًا ، يمكنك إضافة موقع الملف الخاص بك ضمن علامة تبويب السمات ، كما هو موضح في لقطة الشاشة أدناه ، والضغط على زر التشغيل في الجزء العلوي من التنقل للتنبؤ بمخرجاتك.

هاهو! فيما يلي مخرجاتنا للمستند الذي طلبناه في لقطة الشاشة أدناه. لمعالجة المزيد ، يمكنك ببساطة إضافة مواقع الملفات والضغط على زر التشغيل.

الخطوة 7 - ادفع الإخراج إلى CSV / ERP

أخيرًا ، لتخصيص إخراجنا إلى التنسيق المرغوب فيه ، يمكننا إضافة كتل جديدة إلى خط الأنابيب الخاص بك في ملف Main.XML. يمكننا أيضًا دفع هذا إلى أي أنظمة ERP موجودة من خلال ملفات غير متصلة بالإنترنت أو مكالمات API.

للحصول على أي مساعدة ، اتصل بنا على support@nanonets.com

الويبينار

انضم إلينا في ندوة عبر الويب يوم الثلاثاء المقبل حول التعرف الضوئي على الحروف باستخدام تقنية RPA ، سجل هنا.

مراجع حسابات

[1] يقول Gartner إن أتمتة العمليات الروبوتية يمكن أن توفر 25,000 ساعة من العمل الذي يمكن تجنبه سنويًا

[2] فهم المستندات - معالجة المستندات بالذكاء الاصطناعي

[3] RPA OCR - رفع أتمتة العمليات | لطيف

[4] كيفية استخدام الذكاء الاصطناعي لتحسين فهم المستندات

[5] https://www.uipath.com/product/document-understanding

[6] استخدام NanoNets في UiPath Workflow لـ Invoice OCR

لمزيد من القراءة

قد تكون مهتمًا بآخر منشوراتنا على:

تحديث:‌
‌ تمت إضافة المزيد من مواد القراءة حول استخدام وتأثير OCR وRPA في فهم المستندات.

المصدر: https://nanonets.com/blog/ocr-with-rpa-and-document-understanding-uipath/

الطابع الزمني: 19 مايو 2021

الطابع الزمني: ديسمبر 7،

دليل شامل للتعرف الضوئي على الحروف مع تقنية RPA وفهم المستندات

أعاد نشره أفلاطون

تعريفات ونظرة عامة

كيف يمكن للروبوتات تعلم فهم المستندات باستخدام OCR و ML

كيف يمكن للشركات دمج OCR الذكي مع RPA لتحسين سير العمل

تحديات OCR التي يواجهها مطورو RPA

خط أنابيب لفهم المستند سير العمل

فوائد دمج الروبوتات مع Document Understanding

أدخل Nanonets

NanoNets مع UiPath

الويبينار

مراجع حسابات

لمزيد من القراءة

قد تكون مهتمًا بآخر منشوراتنا على:

اكثر من الذكاء الاصطناعي والتعلم الآلي

كيفية تحليل الملفات ...

قم ببناء روبوت Zendesk Answer Bot الخاص بك باستخدام LLMs

دليل متعمق لأتمتة الفواتير الإلكترونية

تبسيط طريقة عملك في التوفيق بين البيانات المصرفية

مستخرج رقم الهاتف: كل ما تحتاج إلى معرفته

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي