Προεπεξεργασία εγγράφων PDF με Amazon Textract: Ανίχνευση και αφαίρεση οπτικών

Κόμβος πηγής: 1204412

Textract Amazon είναι μια πλήρως διαχειριζόμενη υπηρεσία μηχανικής μάθησης (ML) που εξάγει αυτόματα έντυπο κείμενο, χειρόγραφα και άλλα δεδομένα από σαρωμένα έγγραφα που υπερβαίνει την απλή αναγνώριση οπτικού χαρακτήρα (OCR) για την αναγνώριση, την κατανόηση και την εξαγωγή δεδομένων από φόρμες και πίνακες. Το Amazon Textract μπορεί να εντοπίσει κείμενο σε μια ποικιλία εγγράφων, συμπεριλαμβανομένων οικονομικών εκθέσεων, ιατρικών αρχείων και φορολογικών εντύπων.

Σε πολλές περιπτώσεις χρήσης, πρέπει να εξαγάγετε και να αναλύσετε έγγραφα με διάφορα οπτικά, όπως λογότυπα, φωτογραφίες και γραφήματα. Αυτά τα γραφικά περιέχουν ενσωματωμένο κείμενο που συνεπάγεται την έξοδο του Textxt Amazon ή δεν απαιτείται για τη διαδικασία κατάντη. Για παράδειγμα, πολλές φόρμες ή έγγραφα αξιολόγησης ακινήτων περιέχουν εικόνες σπιτιών ή τάσεις ιστορικών τιμών. Αυτές οι πληροφορίες δεν απαιτούνται σε μεταγενέστερες διαδικασίες και πρέπει να τις καταργήσετε πριν χρησιμοποιήσετε το Amazon Textract για να αναλύσετε το έγγραφο. Σε αυτήν την ανάρτηση, παρουσιάζουμε δύο αποτελεσματικές μεθόδους για την κατάργηση αυτών των οπτικών στοιχείων ως μέρος της προεπεξεργασίας σας.

Επισκόπηση λύσεων

Για αυτήν την ανάρτηση, χρησιμοποιούμε ένα PDF που περιέχει ένα λογότυπο και ένα γράφημα ως παράδειγμα. Χρησιμοποιούμε δύο διαφορετικούς τύπους διαδικασιών για τη μετατροπή και την ανίχνευση αυτών των οπτικών εικόνων και, στη συνέχεια, τις αναλύουμε.

Στην πρώτη μέθοδο, χρησιμοποιούμε τον ανιχνευτή άκρης της βιβλιοθήκης OpenCV για να ανιχνεύσουμε το άκρο των οπτικών. Για τη δεύτερη μέθοδο, γράφουμε έναν προσαρμοσμένο αναλυτή συγκέντρωσης pixel για να εντοπίσουμε τη θέση αυτών των οπτικών.

Μπορείτε να εξαγάγετε αυτά τα γραφικά για περαιτέρω επεξεργασία και να τροποποιήσετε εύκολα τον κώδικα για να ταιριάζει στη θήκη χρήσης σας.

Τα PDF με δυνατότητα αναζήτησης είναι εγγενή αρχεία PDF που δημιουργούνται συνήθως από άλλες εφαρμογές, όπως επεξεργαστές κειμένου, εικονικούς εκτυπωτές PDF και εγγενείς επεξεργαστές. Αυτοί οι τύποι PDF διατηρούν μεταδεδομένα, κείμενο και πληροφορίες εικόνας μέσα στο έγγραφο. Μπορείτε εύκολα να χρησιμοποιήσετε βιβλιοθήκες όπως PyMuPDF / fitz για πλοήγηση στη δομή PDF και αναγνώριση εικόνων και κειμένου. Σε αυτήν την ανάρτηση, εστιάζουμε σε έγγραφα χωρίς δυνατότητα αναζήτησης ή βάσει εικόνας.

Επιλογή 1: Ανίχνευση οπτικών με τον ανιχνευτή άκρων OpenCV

Σε αυτήν την προσέγγιση, μετατρέπουμε το PDF σε μορφή PNG και, στη συνέχεια, σε κλίμακα του γκρι το έγγραφο με το OpenCV-Python βιβλιοθήκη και χρησιμοποιήστε το Canny Edge Detector για να εντοπίσετε τις οπτικές τοποθεσίες. Μπορείτε να ακολουθήσετε τα λεπτομερή βήματα παρακάτω σημειωματάριο.

  1. Μετατρέψτε το έγγραφο σε κλίμακα του γκρι.

  1. Εφαρμόστε τον αλγόριθμο Canny Edge για να εντοπίσετε περιγράμματα στο έγγραφο Canny-Edged.
  2. Προσδιορίστε τα ορθογώνια περιγράμματα με σχετικές διαστάσεις.

Μπορείτε να συντονίσετε περαιτέρω και να βελτιστοποιήσετε μερικές παραμέτρους για να αυξήσετε την ακρίβεια ανίχνευσης ανάλογα με την περίπτωση χρήσης σας:

  • Ελάχιστο ύψος και πλάτος - Αυτές οι παράμετροι καθορίζουν τα ελάχιστα όρια ύψους και πλάτους για οπτική ανίχνευση. Εκφράζεται σε ποσοστό του μεγέθους της σελίδας.
  • Υλικό παραγεμίσματος - Όταν ανιχνεύεται ένα ορθογώνιο περίγραμμα, ορίζουμε την επιπλέον περιοχή γεμίσματος ώστε να υπάρχει κάποια ευελιξία στη συνολική επιφάνεια της σελίδας που πρόκειται να αφαιρεθεί. Αυτό είναι χρήσιμο σε περιπτώσεις όπου τα κείμενα στα οπτικά δεν είναι μέσα σε σαφώς οριοθετημένες περιοχές.

Πλεονεκτήματα και μειονεκτήματα

Αυτή η προσέγγιση έχει τα ακόλουθα πλεονεκτήματα:

  • Ικανοποιεί τις περισσότερες περιπτώσεις χρήσης
  • Είναι εύκολο να εφαρμοστεί και να ξεκινήσετε γρήγορα
  • Οι βέλτιστες παράμετροι του δίνουν καλά αποτελέσματα

Ωστόσο, η προσέγγιση έχει τα ακόλουθα μειονεκτήματα:

  • Για εικόνες χωρίς πλαίσιο οριοθέτησης ή περιβάλλουσες άκρες, η απόδοση ενδέχεται να διαφέρει ανάλογα με τον τύπο των οπτικών εικόνων
  • Εάν ένα μπλοκ κειμένου βρίσκεται μέσα σε μεγάλα πλαίσια οριοθέτησης, ολόκληρο το μπλοκ κειμένου μπορεί να θεωρηθεί οπτικό και να αφαιρεθεί χρησιμοποιώντας αυτήν τη λογική

Επιλογή 2: Ανάλυση συγκέντρωσης pixel

Εφαρμόζουμε τη δεύτερη προσέγγισή μας αναλύοντας τα pixel εικόνας. Οι παράγραφοι κανονικού κειμένου διατηρούν μια υπογραφή συγκέντρωσης στις γραμμές της. Μπορούμε να μετρήσουμε και να αναλύσουμε τις πυκνότητες των pixel για να προσδιορίσουμε περιοχές με πυκνότητες pixel που δεν είναι παρόμοιες με το υπόλοιπο έγγραφο. Μπορείτε να ακολουθήσετε τα λεπτομερή βήματα παρακάτω σημειωματάριο.

  1. Μετατρέψτε το έγγραφο σε κλίμακα του γκρι.
  2. Μετατροπή γκρι περιοχών σε λευκό.
  3. Σύμπτυξη των pixel οριζόντια για τον υπολογισμό της συγκέντρωσης των μαύρων pixel.
  4. Διαχωρίστε το έγγραφο σε οριζόντιες ρίγες ή τμήματα για να προσδιορίσετε εκείνες που δεν είναι πλήρες κείμενο (επεκτείνεται σε ολόκληρη τη σελίδα).

  1. Για όλα τα οριζόντια τμήματα που δεν είναι πλήρες κείμενο, προσδιορίστε τις περιοχές με κείμενο έναντι περιοχών που είναι εικόνες. Αυτό γίνεται με φιλτράρισμα τμημάτων χρησιμοποιώντας ελάχιστα και μέγιστα όρια συγκέντρωσης μαύρων εικονοστοιχείων.
  2. Καταργήστε περιοχές που έχουν χαρακτηριστεί ως μη πλήρες κείμενο.

Μπορείτε να συντονίσετε τις ακόλουθες παραμέτρους για να βελτιστοποιήσετε την ακρίβεια του προσδιορισμού περιοχών χωρίς κείμενο:

  • Όρια οριζόντιου τμήματος χωρίς κείμενο - Καθορίστε τα ελάχιστα και μέγιστα όρια συγκέντρωσης μαύρων εικονοστοιχείων που χρησιμοποιούνται για την ανίχνευση οριζόντιων τμημάτων εκτός κειμένου στη σελίδα.
  • Όρια κατακόρυφου τμήματος χωρίς κείμενο - Καθορίστε τα ελάχιστα και μέγιστα όρια συγκέντρωσης μαύρων εικονοστοιχείων που χρησιμοποιούνται για την ανίχνευση κατακόρυφων τμημάτων εκτός κειμένου στη σελίδα.
  • Μέγεθος παραθύρου - Ελέγχει τον τρόπο κατανομής της σελίδας σε οριζόντια και κάθετα τμήματα για ανάλυση (X_WINDOW, Y_WINDOW). Ορίζεται σε αριθμό pixel.
  • Ελάχιστη οπτική περιοχή - Ορίζει τη μικρότερη περιοχή που μπορεί να θεωρηθεί ως οπτική προς αφαίρεση. Ορίζεται σε pixel.
  • Όριο γκρι εύρους - Το κατώφλι για την απομάκρυνση των αποχρώσεων του γκρι.

Πλεονεκτήματα και μειονεκτήματα

Αυτή η προσέγγιση είναι εξαιρετικά προσαρμόσιμη. Ωστόσο, έχει τα ακόλουθα μειονεκτήματα:

  • Οι βέλτιστες παράμετροι διαρκούν περισσότερο και για την επίτευξη βαθύτερης κατανόησης της λύσης
  • Εάν το έγγραφο δεν διορθωθεί τέλεια (η εικόνα τραβήχτηκε με κάμερα υπό γωνία), αυτή η μέθοδος ενδέχεται να αποτύχει.

Συμπέρασμα

Σε αυτήν την ανάρτηση, δείξαμε πώς μπορείτε να εφαρμόσετε δύο προσεγγίσεις για τη μείωση των οπτικών από διαφορετικά έγγραφα. Και οι δύο προσεγγίσεις είναι εύκολο να εφαρμοστούν. Μπορείτε να λάβετε αποτελέσματα υψηλής ποιότητας και να προσαρμόσετε οποιαδήποτε από τις δύο μεθόδους ανάλογα με τη δική σας περίπτωση χρήσης.

Για να μάθετε περισσότερα σχετικά με τις διαφορετικές τεχνικές στο Amazon Textract, επισκεφτείτε το κοινό Αποθετήριο AWS Samples GitHub.


Σχετικά με τους Συγγραφείς

 Γιουάν Τζιάνγκ είναι Sr Solution Architect με έμφαση στη μηχανική μάθηση. Είναι μέλος του προγράμματος Amazon Computer Vision Hero και της κοινότητας τεχνικού πεδίου Amazon Machine Learning.

Βίκτορ Ρότζο είναι ένας αρχιτέκτονας λύσης συνεργατών Sr με εστίαση συνομιλίας AI. Είναι επίσης μέλος του προγράμματος Amazon Computer Vision Hero.

Luis Pineda είναι Sr Partner Management Solution Architect. Είναι επίσης μέλος του προγράμματος Amazon Computer Vision Hero.

Μιγκέλ Ρομέρο Κάλβο είναι Επιστήμονας δεδομένων από το Εργαστήριο Λύσης Μηχανικής Μάθησης AWS.

Πηγή: https://aws.amazon.com/blogs/machine-learning/process-text-and-images-in-pdf-documents-with-amazon-textract/

Σφραγίδα ώρας:

Περισσότερα από Ιστολόγιο μηχανικής εκμάθησης AWS