עיבוד מקדים של מסמך PDF עם Textract של אמזון: איתור והסרה של ויזואליות

צומת המקור: 1204412

טקסטורה באמזון הוא שירות של למידת מכונה מנוהלת לחלוטין (ML) המפיק חילוץ אוטומטי טקסט מודפס, כתב יד ונתונים אחרים ממסמכים סרוקים, שמעבר לזיהוי תווים אופטי פשוט (OCR) לזיהוי, הבנה וחילוץ נתונים מטפסים וטבלאות. Amazon Textract יכול לזהות טקסט במגוון מסמכים, כולל דוחות כספיים, רשומות רפואיות וטופסי מס.

במקרים רבים של שימוש, עליך לחלץ ולנתח מסמכים עם תמונות שונות, כגון לוגו, תמונות ותרשימים. חזותיים אלה מכילים טקסט מוטבע המורכב את פלט הטקסט של אמזון או שאינו נדרש לתהליך שלך במורד הזרם. לדוגמה, טפסים רבים או מסמכי הערכת נדל"ן מכילים תמונות של בתים או מגמות של מחירים היסטוריים. אין צורך במידע זה בתהליכים במורד הזרם, ועליך להסיר אותו לפני שתשתמש באמזון Textract לניתוח המסמך. בפוסט זה אנו ממחישים שתי שיטות יעילות להסרת החזותיות הללו כחלק מעיבוד המקדים שלך.

סקירת פתרונות

לפוסט זה אנו משתמשים בקובץ PDF המכיל לוגו ותרשים כדוגמה. אנו משתמשים בשני סוגים שונים של תהליכים כדי להמיר ולזהות את החזותיות האלה, ואז לערוך אותם מחדש.

בשיטה הראשונה, אנו משתמשים בגלאי הקצה הקניני של ספריית OpenCV כדי לזהות את קצה הוויזואליה. לשיטה השנייה אנו כותבים מנתח ריכוז פיקסל מותאם אישית כדי לזהות את המיקום של הוויזואליות הללו.

באפשרותך לחלץ את הוויזואליות הזו לעיבוד נוסף, ולשנות את הקוד בקלות כך שיתאים למקרה השימוש שלך.

קבצי PDF הניתנים לחיפוש הם קבצי PDF מקוריים שנוצרים בדרך כלל על ידי יישומים אחרים, כגון מעבדי טקסט, מדפסות PDF וירטואליות ועורכי מקור. סוגים אלה של מסמכי PDF שומרים מידע על מטא נתונים, טקסט ותמונה בתוך המסמך. אתה יכול בקלות להשתמש בספריות כמו PyMuPDF / fitz לנווט במבנה ה- PDF ולזהות תמונות וטקסט. בפוסט זה אנו מתמקדים במסמכים שאינם ניתנים לחיפוש או על סמך תמונות.

אפשרות 1: איתור ויזואליות עם גלאי קצה של OpenCV

בגישה זו, אנו ממירים את ה- PDF לפורמט PNG, ואז מגדירים את המסמך באפור עם ה- OpenCV-Python לספרייה ולהשתמש בגלאי Canny Edge כדי לזהות את המיקומים החזותיים. תוכל לבצע את השלבים המפורטים בהמשך מחברה.

  1. המירו את המסמך לגודל אפור.

  1. החל את האלגוריתם של Canny Edge כדי לזהות קווי מתאר במסמך Canny-Edged.
  2. זהה את קווי המתאר המלבניים עם הממדים הרלוונטיים.

תוכל לכוונן ולבצע אופטימיזציה נוספת של כמה פרמטרים כדי להגביר את דיוק הזיהוי בהתאם למקרה השימוש שלך:

  • מינימום גובה ורוחב - פרמטרים אלה מגדירים את סף הגובה והרוחב המינימלי לזיהוי חזותי. זה מתבטא באחוזים מגודל העמוד.
  • רפוד - כאשר מתגלה קו מתאר של מלבן, אנו מגדירים את שטח הריפוד הנוסף כך שיש לו גמישות מסוימת בשטח הכולל של הדף שיש לבצע את מחיקתו. זה מועיל במקרים שבהם הטקסטים בוויזואליות אינם נמצאים באזורים מלבניים שתוחמו בבירור.

יתרונות וחסרונות

לגישה זו היתרונות הבאים:

  • זה מספק את רוב מקרי השימוש
  • קל ליישום, ומהיר לעלות
  • הפרמטרים האופטימליים שלו מניבים תוצאות טובות

עם זאת, לגישה יש חסרונות הבאים:

  • עבור חזותיים ללא תיבה תוחמת או קצוות מסביב, הביצועים עשויים להשתנות בהתאם לסוג הוויזואליה
  • אם גוש טקסט נמצא בתוך תיבות גדולות גדולות, גוש הטקסט כולו עשוי להיחשב חזותי ולהסיר אותו באמצעות הגיון זה

אפשרות 2: ניתוח ריכוז פיקסל

אנו מיישמים את הגישה השנייה שלנו על ידי ניתוח פיקסלים של התמונה. פסקאות טקסט רגילות שומרות על חתימת הריכוז בשורותיה. אנו יכולים למדוד ולנתח את צפיפות הפיקסלים כדי לזהות אזורים עם צפיפות פיקסל שאינם דומים לשאר המסמך. תוכל לבצע את השלבים המפורטים בהמשך מחברה.

  1. המירו את המסמך לגודל אפור.
  2. המרת אזורים אפורים ללבן.
  3. כווץ את הפיקסלים בצורה אופקית כדי לחשב את ריכוז הפיקסלים השחורים.
  4. פצל את המסמך לפסים או פלחים אופקיים כדי לזהות את אלה שאינם טקסט מלא (המשתרעים על פני כל הדף).

  1. בכל הקטעים האופקיים שאינם טקסט מלא, זהה את האזורים שהם טקסט לעומת אזורים שהם תמונות. זה נעשה על ידי סינון קטעים באמצעות סף ריכוז פיקסל שחור מינימלי ומקסימלי.
  2. הסר אזורים שזוהו כטקסט לא מלא.

ניתן לכוון את הפרמטרים הבאים כדי לייעל את הדיוק בזיהוי אזורים שאינם טקסטים:

  • ספי פלחים אופקיים שאינם טקסטים - הגדר את סף ריכוז הפיקסלים השחור המינימלי והמקסימלי המשמש לאיתור פלחים אופקיים שאינם טקסטים בעמוד.
  • ספי פלחים אנכיים שאינם טקסטים - הגדר את סף ריכוז הפיקסלים השחור המינימלי והמקסימלי המשמש לאיתור פלחים אנכיים שאינם טקסטים בעמוד.
  • גודל חלון - שולט כיצד מפוצל העמוד בקטעים אופקיים ואנכיים לניתוח (X_WINDOW, Y_WINDOW). זה מוגדר במספר פיקסלים.
  • שטח ראייה מינימלי - מגדיר את האזור הקטן ביותר שיכול להיחשב כחזותית להסרה. זה מוגדר בפיקסלים.
  • סף טווח אפור - הסף להסרת גוונים אפורים.

יתרונות וחסרונות

גישה זו ניתנת להתאמה אישית. עם זאת, יש לו את החסרונות הבאים:

  • פרמטרים אופטימליים אורכים זמן רב יותר וכדי להשיג הבנה מעמיקה יותר של הפתרון
  • אם המסמך לא תוקן בצורה מושלמת (תמונה שצולמה במצלמה בזווית), שיטה זו עלולה להיכשל.

סיכום

בפוסט זה הראינו כיצד ניתן ליישם שתי גישות להפחתת ויזואליות ממסמכים שונים. שתי הגישות קלות ליישום. אתה יכול לקבל תוצאות באיכות גבוהה ולהתאים אישית את שתי השיטות בהתאם למקרה השימוש שלך.

למידע נוסף על טכניקות שונות ב- Amazon Textract, בקר בציבור דוגמאות AWS ל- GitHub repo.


על הכותבים

 יואן ג'יאנג הוא אדריכל Sr Solution עם דגש על למידת מכונה. הוא חבר בתוכנית Amazon Computer Vision Hero וב- Community Machine Learning Learning Community.

ויקטור רוג'ו הוא אדריכל פתרונות השותף של Sr עם התמקדות ב- AI שיחה. הוא גם חבר בתוכנית Hero Computer Vision Hero.

לואיס פינדה הוא אדריכל פתרונות ניהול של Sr. הוא גם חבר בתוכנית Hero Computer Vision Hero.

מיגל רומרו קלבו הוא מדען נתונים ממעבדת AWS Machine Learning Solution.

מקור: https://aws.amazon.com/blogs/machine-learning/process-text-and-images-in-pdf-documents-with-amazon-textract/

בול זמן:

עוד מ בלוג למידת מכונות AWS