معالجة مستندات PDF مسبقًا باستخدام Amazon Textract: اكتشاف الصور المرئية وإزالتها

عقدة المصدر: 1204412

أمازون تيكستراك هي خدمة تعلم آلي مُدارة بالكامل (ML) تستخرج تلقائيًا النص المطبوع والكتابة اليدوية والبيانات الأخرى من المستندات الممسوحة ضوئيًا والتي تتجاوز التعرف الضوئي على الحروف (OCR) للتعرف على البيانات وفهمها واستخراجها من النماذج والجداول. يمكن لـ Amazon Textract اكتشاف النص في مجموعة متنوعة من المستندات ، بما في ذلك التقارير المالية والسجلات الطبية ونماذج الضرائب.

في العديد من حالات الاستخدام ، تحتاج إلى استخراج المستندات وتحليلها باستخدام عناصر مرئية متنوعة ، مثل الشعارات والصور والمخططات. تحتوي هذه العناصر المرئية على نص مضمن يلف إخراج Amazon Textract أو غير مطلوب لعملية المصب. على سبيل المثال ، تحتوي العديد من نماذج أو مستندات التقييم العقاري على صور للمنازل أو اتجاهات الأسعار التاريخية. هذه المعلومات ليست ضرورية في العمليات النهائية ، وعليك إزالتها قبل استخدام Amazon Textract لتحليل المستند. في هذا المنشور ، نوضح طريقتين فعالتين لإزالة هذه المرئيات كجزء من المعالجة المسبقة الخاصة بك.

حل نظرة عامة

في هذا المنشور ، نستخدم ملف PDF يحتوي على شعار ومخطط كمثال. نستخدم نوعين مختلفين من العمليات لتحويل واكتشاف هذه المرئيات ، ثم نقوم بتنقيحها.

في الطريقة الأولى ، نستخدم كاشف الحواف مكتبة OpenCV للكشف عن حافة المرئيات. بالنسبة للطريقة الثانية ، نكتب محلل تركيز بكسل مخصصًا لاكتشاف موقع هذه المرئيات.

يمكنك استخراج هذه العناصر المرئية لمزيد من المعالجة ، وتعديل الكود بسهولة ليناسب حالة الاستخدام الخاصة بك.

ملفات PDF القابلة للبحث هي ملفات PDF أصلية يتم إنشاؤها عادةً بواسطة تطبيقات أخرى ، مثل معالجات النصوص وطابعات PDF الافتراضية والمحررين الأصليين. تحتفظ هذه الأنواع من ملفات PDF بالبيانات الأولية والنصوص ومعلومات الصورة داخل المستند. يمكنك بسهولة استخدام مكتبات مثل PyMuPDF / fitz للتنقل في بنية PDF وتحديد الصور والنصوص. في هذا المنشور ، نركز على المستندات غير القابلة للبحث أو المستندة إلى الصور.

الخيار 1: الكشف عن المرئيات باستخدام كاشف الحافة OpenCV

في هذا الأسلوب ، نقوم بتحويل ملف PDF إلى تنسيق PNG ، ثم نقوم بتدريج المستند باستخدام تنسيق OpenCV-بيثون المكتبة واستخدم Canny Edge Detector لاكتشاف المواقع المرئية. يمكنك اتباع الخطوات التفصيلية في ما يلي مفكرة.

  1. قم بتحويل المستند إلى تدرج رمادي.

  1. قم بتطبيق خوارزمية Canny Edge لاكتشاف الخطوط العريضة في مستند Canny-Edged.
  2. حدد الخطوط المستطيلة ذات الأبعاد ذات الصلة.

يمكنك ضبط وتحسين بعض المعلمات لزيادة دقة الكشف اعتمادًا على حالة الاستخدام الخاصة بك:

  • الحد الأدنى للارتفاع والعرض - تحدد هذه المعلمات الحد الأدنى من عتبات الارتفاع والعرض للكشف البصري. يتم التعبير عنها بالنسبة المئوية لحجم الصفحة.
  • حشوة - عند اكتشاف محيط مستطيل ، نحدد منطقة الحشو الإضافية للحصول على بعض المرونة في المساحة الإجمالية للصفحة المراد تنقيحها. هذا مفيد في الحالات التي لا تكون فيها النصوص الموجودة في المرئيات داخل مناطق مستطيلة محددة بوضوح.

المميزات والعيوب

هذا النهج له المزايا التالية:

  • يرضي معظم حالات الاستخدام
  • إنه سهل التنفيذ وسريع الإعداد والتشغيل
  • المعلمات المثلى تعطي نتائج جيدة

ومع ذلك ، فإن النهج له العيوب التالية:

  • بالنسبة للعناصر المرئية التي لا تحتوي على مربع محيط أو حواف محيطة ، قد يختلف الأداء وفقًا لنوع العناصر المرئية
  • إذا كانت كتلة نصية داخل مربعات إحاطة كبيرة ، فيمكن اعتبار كتلة النص بأكملها مرئية وتتم إزالتها باستخدام هذا المنطق

الخيار 2: تحليل تركيز البكسل

نقوم بتنفيذ نهجنا الثاني من خلال تحليل بكسل الصورة. تحتفظ فقرات النص العادي بتوقيع التركيز في سطورها. يمكننا قياس وتحليل كثافة البكسل لتحديد المناطق ذات كثافة البكسل التي لا تشبه باقي المستند. يمكنك اتباع الخطوات التفصيلية في ما يلي مفكرة.

  1. قم بتحويل المستند إلى تدرج رمادي.
  2. تحويل المناطق الرمادية إلى بيضاء.
  3. قم بطي وحدات البكسل أفقيًا لحساب تركيز البكسل الأسود.
  4. قسّم المستند إلى خطوط أو مقاطع أفقية لتحديد تلك التي ليست نصًا كاملاً (تمتد عبر الصفحة بأكملها).

  1. بالنسبة لجميع المقاطع الأفقية التي ليست نصًا كاملاً ، حدد المناطق التي بها نص مقابل مناطق الصور. يتم ذلك عن طريق تصفية الأقسام باستخدام الحد الأدنى والحد الأقصى لتركيز البكسل الأسود.
  2. قم بإزالة المناطق التي تم تحديدها على أنها نصوص غير كاملة.

يمكنك ضبط المعلمات التالية لتحسين دقة تحديد المناطق غير النصية:

  • عتبات المقطع الأفقي غير النصية - تحديد الحد الأدنى والحد الأقصى من عتبات تركيز البكسل الأسود المستخدمة لاكتشاف المقاطع الأفقية غير النصية في الصفحة.
  • عتبات المقطع الرأسي غير النصية - تحديد الحد الأدنى والحد الأقصى من عتبات تركيز البكسل الأسود المستخدمة لاكتشاف المقاطع الرأسية غير النصية في الصفحة.
  • بحجم النافذه - يتحكم في كيفية تقسيم الصفحة إلى مقاطع أفقية ورأسية للتحليل (X_WINDOW ، Y_WINDOW). يتم تعريفه بعدد البكسل.
  • الحد الأدنى من المساحة المرئية - يحدد أصغر منطقة يمكن اعتبارها بصرية يجب إزالتها. يتم تعريفه بالبكسل.
  • عتبة النطاق الرمادي - عتبة إزالة ظلال الرمادي.

المميزات والعيوب

هذا النهج قابل للتخصيص بدرجة كبيرة. ومع ذلك ، فإنه يحتوي على العيوب التالية:

  • تستغرق المعلمات المثلى وقتًا أطول لتحقيق فهم أعمق للحل
  • إذا لم يتم تصحيح المستند تمامًا (تم التقاط الصورة بالكاميرا بزاوية) ، فقد تفشل هذه الطريقة.

وفي الختام

في هذا المنشور ، أوضحنا كيف يمكنك تنفيذ طريقتين لتنقيح المرئيات من مستندات مختلفة. كلا النهجين سهل التنفيذ. يمكنك الحصول على نتائج عالية الجودة وتخصيص أي من الطريقتين وفقًا لحالة الاستخدام الخاصة بك.

لمعرفة المزيد حول التقنيات المختلفة في Amazon Textract ، قم بزيارة الجمهور نماذج AWS GitHub repo.


حول المؤلف

 يوان جيانغ هو مهندس حلول Sr مع التركيز في التعلم الآلي. إنه عضو في برنامج Amazon Computer Vision Hero ومجتمع Amazon Machine Learning Technical Community.

فيكتور روجو هو مهندس حلول للشريك الأب مع التركيز على الذكاء الاصطناعي للمحادثة. وهو أيضًا عضو في برنامج Amazon Computer Vision Hero.

لويس بينيدا هو مهندس حلول إدارة شريك كبير. وهو أيضًا عضو في برنامج Amazon Computer Vision Hero.

ميغيل روميرو كالفو هو عالم بيانات من مختبر حلول التعلم الآلي في AWS.

المصدر: https://aws.amazon.com/blogs/machine-learning/process-text-and-images-in-pdf-documents-with-amazon-textract/

الطابع الزمني:

اكثر من AWS مدونة التعلم الآلي