Εξαγωγή δεδομένων από σαρωμένα έγγραφα

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Εξαγωγή δεδομένων από σαρωμένα έγγραφα

Θέλετε να εξαγάγετε δεδομένα από σαρωμένα έγγραφα; Προσπαθήστε Νανοδίκτυα™ προηγμένες Σαρωτής OCR που βασίζεται σε AI για την εξαγωγή και οργάνωση πληροφοριών από σαρωμένα έγγραφα αυτομάτως.

Εισαγωγή

Καθώς ο κόσμος έχει μετατραπεί από χαρτιά και χειρόγραφα σε ψηφιακά έγγραφα για λόγους ευκολίας, η σημασία της μετατροπής εικόνων και σαρωμένων εγγράφων σε δεδομένα με νόημα έχει εκτοξευθεί στα ύψη.

Για να συμβαδίσουν με την ανάγκη για εξαιρετικά ακριβή εξαγωγή δεδομένων εγγράφων, πολυάριθμες ερευνητικές εγκαταστάσεις και εταιρείες (π.χ. Google, AWS, Nanonets κ.λπ.) επικεντρώθηκαν βαθιά στις τεχνολογίες στους τομείς της όρασης υπολογιστών και της επεξεργασίας φυσικής γλώσσας (NLP).

Η άνθηση των τεχνολογιών βαθιάς μάθησης έχει εξασφαλίσει ένα τεράστιο άλμα στο είδος των δεδομένων που μπορούν να εξαχθούν. δεν περιοριζόμαστε πλέον μόνο στην εξαγωγή κειμένου, αλλά και σε άλλες δομές δεδομένων, όπως πίνακες και ζεύγη κλειδιών-τιμών. Πολλές λύσεις προσφέρουν πλέον διάφορα προϊόντα για την κάλυψη των αναγκών των ατόμων και των ιδιοκτητών επιχειρήσεων στην εξαγωγή δεδομένων εγγράφων.

Αυτό το άρθρο εξετάζει την τρέχουσα τεχνολογία που χρησιμοποιείται για την εξαγωγή δεδομένων από σαρωμένα έγγραφα, ακολουθούμενη από ένα σύντομο πρακτικό σεμινάριο στην Python. Θα εξετάσουμε επίσης μερικές από τις δημοφιλείς λύσεις που κυκλοφορούν αυτή τη στιγμή στην αγορά που παρέχουν τις καλύτερες προσφορές σε αυτόν τον τομέα.

Τι είναι η εξαγωγή δεδομένων;

Η εξαγωγή δεδομένων είναι η διαδικασία μετατροπής μη δομημένων δεδομένων σε ερμηνεύσιμες πληροφορίες από προγράμματα για να επιτραπεί η περαιτέρω επεξεργασία δεδομένων από τον άνθρωπο. Εδώ παραθέτουμε αρκετούς από τους πιο συνηθισμένους τύπους δεδομένων που πρέπει να εξαχθούν από σαρωμένα έγγραφα.

Δεδομένα κειμένου

Η πιο κοινή και η πιο σημαντική εργασία στην εξαγωγή δεδομένων από σαρωμένα έγγραφα είναι η εξαγωγή κειμένου. Αυτή η διαδικασία, αν και φαίνεται απλή, είναι στην πραγματικότητα πολύ δύσκολη καθώς τα σαρωμένα έγγραφα παρουσιάζονται συχνά σε μορφή εικόνων. Επιπλέον, οι μέθοδοι εξαγωγής εξαρτώνται σε μεγάλο βαθμό από τους τύπους του κειμένου. Ενώ το κείμενο υπάρχει σε πυκνές εκτυπωμένες μορφές τις περισσότερες φορές, η δυνατότητα εξαγωγής αραιού κειμένου από λιγότερο καλά σαρωμένα έγγραφα ή από χειρόγραφες επιστολές με δραστικά διαφορετικά στυλ είναι εξίσου σημαντική. Μια τέτοια διαδικασία θα επιτρέψει στα προγράμματα να μετατρέψουν εικόνες σε κείμενο κωδικοποιημένο από μηχανή, όπου μπορούμε να τις οργανώσουμε περαιτέρω από μη δομημένα δεδομένα (χωρίς συγκεκριμένη μορφοποίηση) σε δομημένα δεδομένα για περαιτέρω ανάλυση.

💡

Θέλετε να κατανοήσετε τους αλγόριθμους βαθιάς μάθησης που τροφοδοτούν τέτοιες διαδικασίες; Προχωρήστε στο δικό μας LayoutLM Explained blog

πίνακες

Οι φόρμες πινάκων είναι η πιο δημοφιλής προσέγγιση για την αποθήκευση δεδομένων, καθώς η μορφή είναι εύκολα ερμηνεύσιμη με ανθρώπινα μάτια. Η διαδικασία εξαγωγής πινάκων από σαρωμένα έγγραφα απαιτεί τεχνολογία πέρα από την ανίχνευση χαρακτήρων — πρέπει κανείς να ανιχνεύσει τις γραμμές και άλλα οπτικά χαρακτηριστικά προκειμένου να εκτελέσει μια σωστή εξαγωγή πίνακα και να μετατρέψει περαιτέρω αυτές τις πληροφορίες σε δομημένα δεδομένα για περαιτέρω υπολογισμό. Οι μέθοδοι υπολογιστικής όρασης (που περιγράφονται λεπτομερώς στις ακόλουθες ενότητες) χρησιμοποιούνται σε μεγάλο βαθμό για την επίτευξη εξαγωγής πίνακα υψηλής ακρίβειας.

Ζεύγη κλειδιών-τιμών

Μια εναλλακτική μορφή που υιοθετούμε συχνά στα έγγραφα για αποθήκευση δεδομένων είναι τα ζεύγη κλειδιού-τιμής (KVP).

Τα KVP είναι ουσιαστικά δύο στοιχεία δεδομένων - ένα κλειδί και μια τιμή - που συνδέονται μεταξύ τους ως ένα. Το κλειδί χρησιμοποιείται ως μοναδικό αναγνωριστικό για την τιμή που θα ανακτηθεί. Ένα κλασικό παράδειγμα KVP είναι το λεξικό, όπου τα λεξιλόγια είναι τα κλειδιά και οι αντίστοιχοι ορισμοί είναι οι τιμές. Αυτά τα ζεύγη, αν και συνήθως απαρατήρητα, στην πραγματικότητα χρησιμοποιούνται πολύ συχνά σε έγγραφα: ερωτήσεις σε έρευνες όπως το όνομα, η ηλικία και οι τιμές των ειδών στα τιμολόγια είναι όλα σιωπηρά KVP.

Ωστόσο, σε αντίθεση με τους πίνακες, τα KVP συχνά υπάρχουν σε άγνωστες μορφές και μερικές φορές είναι ακόμη και εν μέρει χειρόγραφα. Για παράδειγμα, τα κλειδιά θα μπορούσαν να προεκτυπωθούν σε κουτιά και οι τιμές είναι χειρόγραφες κατά τη συμπλήρωση της φόρμας. Επομένως, η εύρεση των υποκείμενων δομών για την αυτόματη εκτέλεση της εξαγωγής KVP είναι μια συνεχής ερευνητική διαδικασία ακόμη και για τις πιο προηγμένες εγκαταστάσεις και εργαστήρια.

Σχήματα

Τέλος, είναι επίσης πολύ σημαντικό να εξαγάγετε ή λήψη δεδομένων από στοιχεία σε ένα σαρωμένο έγγραφο. Οι στατιστικοί δείκτες όπως τα γραφήματα πίτας και τα γραφήματα ράβδων περιλαμβάνουν συχνά κρίσιμες πληροφορίες για έγγραφα. Μια καλή διαδικασία εξαγωγής δεδομένων θα πρέπει να μπορεί να συμπεράνει από τους μύθους και τους αριθμούς για να εξαγάγει εν μέρει δεδομένα από σχήματα για περαιτέρω χρήση.

Θέλετε να εξαγάγετε δεδομένα από σαρωμένα έγγραφα; Δώστε Nanonets™ μια περιστροφή για μεγαλύτερη ακρίβεια, μεγαλύτερη ευελιξία, μετά την επεξεργασία και ένα ευρύ φάσμα ενσωματώσεων!

Τεχνολογίες πίσω από την εξαγωγή δεδομένων

Η εξαγωγή δεδομένων περιστρέφεται γύρω από δύο κύριες διαδικασίες: Οπτική αναγνώριση χαρακτήρων (OCR) ακολουθούμενη από την Επεξεργασία Φυσικής Γλώσσας (NLP).

Η εξαγωγή OCR είναι η διαδικασία μετατροπής εικόνων κειμένου σε κείμενο κωδικοποιημένο από μηχανή, ενώ η τελευταία είναι η ανάλυση των λέξεων για την εξαγωγή σημασιών. Συχνά συνοδεύονται με το OCR και άλλες τεχνικές όρασης υπολογιστή, όπως η ανίχνευση κουτιών και γραμμών για την εξαγωγή των προαναφερθέντων τύπων δεδομένων, όπως πίνακες και KVP για πιο ολοκληρωμένη εξαγωγή.

Οι βασικές βελτιώσεις πίσω από τη γραμμή εξαγωγής δεδομένων συνδέονται στενά με τις προόδους στη βαθιά μάθηση που συνέβαλαν σε μεγάλο βαθμό στα πεδία της όρασης υπολογιστή και της επεξεργασίας φυσικής γλώσσας (NLP).

Τι είναι η βαθιά μάθηση;

Η βαθιά μάθηση, διαδραματίζει σημαντικό ρόλο πίσω από τη διαφημιστική εκστρατεία της εποχής της τεχνητής νοημοσύνης και έχει προωθηθεί συνεχώς στο προσκήνιο σε πολλές εφαρμογές. Στην παραδοσιακή μηχανική, στόχος μας είναι να σχεδιάσουμε ένα σύστημα/συνάρτηση που παράγει μια έξοδο από μια δεδομένη είσοδο. Η βαθιά μάθηση, από την άλλη πλευρά, βασίζεται στις εισροές και τις εκροές για να βρει την ενδιάμεση σχέση που μπορεί να επεκταθεί σε νέα αόρατα δεδομένα μέσω του λεγόμενου νευρικό σύστημα.

Ένα νευρωνικό δίκτυο ή ένα πολυστρωματικό perceptron (MLP), είναι μια αρχιτεκτονική μηχανικής μάθησης εμπνευσμένη από το πώς μαθαίνουν οι ανθρώπινοι εγκέφαλοι. Το δίκτυο περιέχει νευρώνες, οι οποίοι μιμούνται βιολογικούς νευρώνες και «ενεργοποιούνται» όταν δίνονται διαφορετικές πληροφορίες. Σύνολα νευρώνων σχηματίζουν στρώματα και πολλαπλά στρώματα στοιβάζονται μαζί για να σχηματίσουν ένα δίκτυο που εξυπηρετεί τους σκοπούς πρόβλεψης πολλαπλών μορφών (δηλαδή, ταξινομήσεις εικόνων ή οριοθετημένα πλαίσια για ανιχνεύσεις αντικειμένων).

Στον τομέα της όρασης υπολογιστών, εφαρμόζεται σε μεγάλο βαθμό ένας τύπος παραλλαγής νευρωνικών δικτύων - συνελικτικά νευρωνικά δίκτυα (CNN). Αντί για παραδοσιακά επίπεδα, ένα CNN υιοθετεί συνελικτικούς πυρήνες που ολισθαίνουν μέσα από τανυστές (ή διανύσματα υψηλών διαστάσεων) για εξαγωγή χαρακτηριστικών. Συνοδευόμενα με τα παραδοσιακά επίπεδα δικτύου στο τέλος, τα CNN είναι πολύ επιτυχημένα σε εργασίες που σχετίζονται με την εικόνα και αποτέλεσαν περαιτέρω τη βάση για την εξαγωγή OCR και την ανίχνευση άλλων χαρακτηριστικών.

Από την άλλη πλευρά, το NLP βασίζεται σε ένα άλλο σύνολο δικτύων, το οποίο εστιάζει σε δεδομένα χρονοσειρών. Σε αντίθεση με τις εικόνες, όπου μια εικόνα είναι ανεξάρτητη η μία από την άλλη, η πρόβλεψη κειμένου μπορεί να ωφεληθεί σε μεγάλο βαθμό εάν ληφθούν υπόψη και οι λέξεις πριν ή μετά. Τα τελευταία χρόνια, μια οικογένεια δικτύων, δηλαδή μακροχρόνιες βραχυπρόθεσμες αναμνήσεις (LSTM), το οποίο λαμβάνει τα προηγούμενα αποτελέσματα ως είσοδο για να προβλέψει τα τρέχοντα αποτελέσματα. Τα διμερή LSTM υιοθετήθηκαν επίσης συχνά για τη βελτίωση της παραγωγής πρόβλεψης, όπου λαμβάνονταν υπόψη τόσο τα αποτελέσματα πριν όσο και μετά. Ωστόσο, τα τελευταία χρόνια, η έννοια των μετασχηματιστών που χρησιμοποιεί έναν μηχανισμό προσοχής αρχίζει να αυξάνεται λόγω της υψηλότερης ευελιξίας του που οδηγεί σε καλύτερα αποτελέσματα από τα παραδοσιακά δίκτυα που χειρίζονται διαδοχικές χρονοσειρές.

Εφαρμογές Εξαγωγής Δεδομένων

Ο κύριος στόχος της εξαγωγής δεδομένων είναι η μετατροπή δεδομένων από μη δομημένα έγγραφα σε δομημένες μορφές, στις οποίες μια εξαιρετικά ακριβής ανάκτηση κειμένου, σχημάτων και δομών δεδομένων μπορεί να είναι πολύ χρήσιμη για αριθμητική και συμφραζόμενη ανάλυση. Αυτές οι αναλύσεις μπορεί να είναι πολύ χρήσιμες σε ειδικά για τις επιχειρήσεις:

Business

Επιχειρηματικές εταιρείες και μεγάλοι οργανισμοί ασχολούνται καθημερινά με χιλιάδες έγγραφα με παρόμοια μορφή — Οι μεγάλες τράπεζες λαμβάνουν πολλές πανομοιότυπες εφαρμογές και οι ερευνητικές ομάδες πρέπει να αναλύσουν σωρούς εντύπων για να πραγματοποιήσουν στατιστική ανάλυση. Ως εκ τούτου, η αυτοματοποίηση του αρχικού βήματος της εξαγωγής δεδομένων από έγγραφα μειώνει σημαντικά τον πλεονασμό ανθρώπινου δυναμικού και επιτρέπει στους εργαζόμενους να επικεντρωθούν στην ανάλυση δεδομένων και στην εξέταση εφαρμογών αντί να πληκτρολογούν πληροφορίες.

Επαλήθευση εφαρμογών — Οι εταιρείες λαμβάνουν τόνους αιτήσεων, είτε χειρόγραφες είτε μόνο μέσω εντύπων αιτήσεων. Τις περισσότερες φορές, αυτές οι εφαρμογές ενδέχεται να συνοδεύονται από προσωπικά αναγνωριστικά για λόγους επαλήθευσης. Τα σαρωμένα έγγραφα ταυτοτήτων όπως διαβατήρια ή κάρτες συνήθως διατίθενται σε παρτίδες με παρόμοια μορφή. Επομένως, ένας καλογραμμένος εξολκέας δεδομένων μπορεί γρήγορα να μετατρέψει τα δεδομένα (κείμενα, πίνακες, σχήματα, KVP) σε κείμενα κατανοητά από μηχανής, τα οποία θα μπορούσαν να μειώσουν σημαντικά τις ανθρωποώρες σε αυτές τις εργασίες και να επικεντρωθούν στην επιλογή εφαρμογών αντί στην εξαγωγή.
Συμφωνία πληρωμών — Συμφωνία πληρωμών είναι η διαδικασία σύγκρισης τραπεζικών κινήσεων για τη διασφάλιση της αντιστοίχισης αριθμών μεταξύ λογαριασμών, η οποία περιστρέφεται σε μεγάλο βαθμό γύρω από την εξαγωγή δεδομένων από έγγραφα — ένα δύσκολο ζήτημα για μια εταιρεία με σημαντικό μέγεθος και διάφορες πηγές εισοδήματος. Η εξαγωγή δεδομένων μπορεί να διευκολύνει αυτή τη διαδικασία και να επιτρέψει στους υπαλλήλους να επικεντρωθούν σε ελαττωματικά δεδομένα και να διερευνήσουν πιθανά δόλια γεγονότα σχετικά με τις ταμειακές ροές.
Στατιστική ανάλυση — Τα σχόλια από πελάτες ή συμμετέχοντες στο πείραμα χρησιμοποιούνται από εταιρείες και οργανισμούς για τη βελτίωση των προϊόντων και των υπηρεσιών τους, και μια ολοκληρωμένη αξιολόγηση ανατροφοδότησης συνήθως απαιτεί στατιστική ανάλυση. Ωστόσο, τα δεδομένα έρευνας μπορεί να υπάρχουν σε πολλές μορφές ή κρυμμένα ανάμεσα σε κείμενο με διάφορες μορφές. Η εξαγωγή δεδομένων θα μπορούσε να διευκολύνει τη διαδικασία επισημαίνοντας προφανή δεδομένα από έγγραφα σε παρτίδες, να διευκολύνει τη διαδικασία εύρεσης χρήσιμων διαδικασιών και, τελικά, να αυξήσει την αποτελεσματικότητα.
Κοινή χρήση προηγούμενων αρχείων — Από την υγειονομική περίθαλψη έως την αλλαγή τραπεζικών υπηρεσιών, οι μεγάλες βιομηχανίες απαιτούν συχνά νέες πληροφορίες πελατών που μπορεί να υπήρχαν ήδη αλλού. Για παράδειγμα, ένας ασθενής που αλλάζει νοσοκομείο λόγω μετακόμισης μπορεί να έχει προϋπάρχοντα ιατρικά αρχεία που θα μπορούσαν να είναι χρήσιμα για το νέο νοσοκομείο. Σε τέτοιες περιπτώσεις, ένα καλό λογισμικό εξαγωγής δεδομένων είναι χρήσιμο, καθώς το μόνο που απαιτείται είναι να φέρει το άτομο ένα σαρωμένο ιστορικό αρχείων στο νέο νοσοκομείο για να συμπληρώσει αυτόματα όλες τις πληροφορίες. Αυτό όχι μόνο θα ήταν βολικό, αλλά θα μπορούσε επίσης να αποφύγει εκτεταμένους κινδύνους, ιδίως στον κλάδο της υγειονομικής περίθαλψης, να παραβλέπονται σημαντικά αρχεία ασθενών.

Οδηγίες

Για να παρέχουμε μια σαφέστερη άποψη σχετικά με τον τρόπο εκτέλεσης της εξαγωγής δεδομένων, παρουσιάζουμε δύο σετ μεθόδων για την εκτέλεση εξαγωγής δεδομένων από έγγραφα σάρωσης.

Κτίριο από το μηδέν

Κάποιος μπορεί να δημιουργήσει μια απλή μηχανή εξαγωγής δεδομένων OCR μέσω της μηχανής PyTesseract ως εξής:

try: from PIL import Image
except ImportError: import Image
import pytesseract # If you don't have tesseract executable in your PATH, include the following:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# Example tesseract_cmd = r'C:Program Files (x86)Tesseract-OCRtesseract' # Simple image to string
print(pytesseract.image_to_string(Image.open('test.png'))) # List of available languages
print(pytesseract.get_languages(config='')) # French text image to string
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra')) # In order to bypass the image conversions of pytesseract, just use relative or absolute image path
# NOTE: In this case you should provide tesseract supported images or tesseract will return error
print(pytesseract.image_to_string('test.png')) # Batch processing with a single file containing the list of multiple image file paths
print(pytesseract.image_to_string('images.txt')) # Timeout/terminate the tesseract job after a period of time
try: print(pytesseract.image_to_string('test.jpg', timeout=2)) # Timeout after 2 seconds print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # Timeout after half a second
except RuntimeError as timeout_error: # Tesseract processing is terminated pass # Get bounding box estimates
print(pytesseract.image_to_boxes(Image.open('test.png'))) # Get verbose data including boxes, confidences, line and page numbers
print(pytesseract.image_to_data(Image.open('test.png'))) # Get information about orientation and script detection
print(pytesseract.image_to_osd(Image.open('test.png'))) # Get a searchable PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f: f.write(pdf) # pdf type is bytes by default # Get HOCR output
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr') # Get ALTO XML output
xml = pytesseract.image_to_alto_xml('test.png')

Για περισσότερες πληροφορίες σχετικά με τον κωδικό, μπορείτε να ελέγξετε την επίσημη υπηρεσία τους απόδειξη με έγγραφα.

Με απλά λόγια, ο κώδικας εξάγει δεδομένα όπως κείμενα και πλαίσια οριοθέτησης από μια δεδομένη εικόνα. Αν και είναι αρκετά χρήσιμος, ο κινητήρας δεν είναι τόσο δυνατός όσο αυτοί που παρέχονται από προηγμένες λύσεις λόγω της σημαντικής υπολογιστικής τους ισχύος για εκπαίδευση.

Χρήση του Google Document API

 def async_detect_document(gcs_source_uri, gcs_destination_uri):
"""OCR with PDF/TIFF as source files on GCS""" import json import re from google.cloud import vision from google.cloud import storage # Supported mime_types are: 'application/pdf' and 'image/tiff' mime_type = 'application/pdf' # How many pages should be grouped into each json output file. batch_size = 2 client = vision.ImageAnnotatorClient() feature = vision.Feature( type_=vision.Feature.Type.DOCUMENT_TEXT_DETECTION) gcs_source = vision.GcsSource(uri=gcs_source_uri) input_config = vision.InputConfig( gcs_source=gcs_source, mime_type=mime_type) gcs_destination = vision.GcsDestination(uri=gcs_destination_uri) output_config = vision.OutputConfig( gcs_destination=gcs_destination, batch_size=batch_size) async_request = vision.AsyncAnnotateFileRequest( features=[feature], input_config=input_config, output_config=output_config) operation = client.async_batch_annotate_files( requests=[async_request]) print('Waiting for the operation to finish.') operation.result(timeout=420) # Once the request has completed and the output has been # written to GCS, we can list all the output files. storage_client = storage.Client() match = re.match(r'gs://([^/]+)/(.+)', gcs_destination_uri) bucket_name = match.group(1) prefix = match.group(2) bucket = storage_client.get_bucket(bucket_name) # List objects with the given prefix. blob_list = list(bucket.list_blobs(prefix=prefix)) print('Output files:') for blob in blob_list: print(blob.name) # Process the first output file from GCS. # Since we specified batch_size=2, the first response contains # the first two pages of the input file. output = blob_list[0] json_string = output.download_as_string() response = json.loads(json_string) # The actual response for the first page of the input file. first_page_response = response['responses'][0] annotation = first_page_response['fullTextAnnotation'] # Here we print the full text from the first page. # The response contains more information: # annotation/pages/blocks/paragraphs/words/symbols # including confidence scores and bounding boxes print('Full text:n') print(annotation['text'])

Τελικά, η τεχνητή νοημοσύνη εγγράφων της Google σάς επιτρέπει να εξάγετε πολλές πληροφορίες από έγγραφα με υψηλή ακρίβεια. Επιπλέον, η υπηρεσία προσφέρεται και για συγκεκριμένες χρήσεις, συμπεριλαμβανομένης της εξαγωγής κειμένου τόσο για κανονικές όσο και για άγριες εικόνες.

Παρακαλώ αναφερθείτε σε εδώ για περισσότερα.

Τρέχουσες λύσεις που προσφέρουν εξαγωγή δεδομένων

Εκτός από τις μεγάλες εταιρείες με API για εξαγωγή δεδομένων εγγράφων, υπάρχουν αρκετές λύσεις που παρέχουν υψηλή ακρίβεια PDFOCR Υπηρεσίες. Παρουσιάζουμε πολλές επιλογές PDF OCR που είναι εξειδικευμένες σε διαφορετικές πτυχές, καθώς και ορισμένα πρόσφατα ερευνητικά πρωτότυπα που φαίνεται να παρέχουν πολλά υποσχόμενα αποτελέσματα*:

*Πλάγια σημείωση: Υπάρχουν πολλές υπηρεσίες OCR που στοχεύουν σε εργασίες όπως εικόνες-in-the wild. Παραλείψαμε αυτές τις υπηρεσίες καθώς επί του παρόντος εστιάζουμε μόνο στην ανάγνωση εγγράφων PDF.

API Google — Ως ένας από τους μεγαλύτερους παρόχους διαδικτυακών υπηρεσιών, η Google προσφέρει εκπληκτικά αποτελέσματα στην εξαγωγή εγγράφων με την πρωτοποριακή τεχνολογία όρασης υπολογιστών. Μπορεί κανείς να χρησιμοποιήσει τις υπηρεσίες του δωρεάν εάν η χρήση είναι αρκετά χαμηλή, αλλά η τιμή αυξάνεται καθώς αυξάνονται οι κλήσεις του API.
Βαθύς αναγνώστης — Το Deep Reader είναι μια ερευνητική εργασία που δημοσιεύτηκε στο ACCV Conference 2019. Ενσωματώνει πολλαπλές αρχιτεκτονικές δικτύου αιχμής για την εκτέλεση εργασιών όπως π.χ. αντιστοίχιση εγγράφων, ανάκτηση κειμένου και διαγραφή εικόνων. Υπάρχουν πρόσθετες λειτουργίες, όπως πίνακες και εξαγωγή ζεύγους κλειδιών-τιμών, που επιτρέπουν την ανάκτηση και την αποθήκευση δεδομένων με οργανωμένο τρόπο.
Nanonets ™ — Με μια εξαιρετικά επιδέξια ομάδα βαθιάς εκμάθησης, το Nanonets™ PDF OCR είναι εντελώς ανεξάρτητο από πρότυπα και κανόνες. Επομένως, το Nanonets όχι μόνο μπορεί να λειτουργήσει σε συγκεκριμένους τύπους PDF, αλλά θα μπορούσε επίσης να εφαρμοστεί σε οποιονδήποτε τύπο εγγράφου για ανάκτηση κειμένου.

Συμπέρασμα

Συμπερασματικά, αυτό το άρθρο παρουσιάζει μια διεξοδική εξήγηση για την εξαγωγή δεδομένων από σαρωμένα έγγραφα, συμπεριλαμβανομένων των προκλήσεων πίσω από αυτό και της τεχνολογίας που απαιτείται για αυτήν τη διαδικασία.

Παρουσιάζονται δύο σεμινάρια διαφορετικών μεθόδων και παρουσιάζονται επίσης για αναφορά οι τρέχουσες λύσεις που το προσφέρουν εκτός συσκευασίας.

Σφραγίδα ώρας: 17 Μαΐου 2022

Σφραγίδα ώρας: 21 Μαρτίου, 2024

Απεικόνιση τιμολογίου: Πώς μπορεί να αυτοματοποιήσει τη διαδικασία AP σας

Σύμπλεγμα πηγής:

AI και μηχανική μάθηση

Κόμβος πηγής: 2196651

Σφραγίδα ώρας: 1 Αυγούστου 2023

RPA vs BPM: Συνέργειες και διαφορές

Σύμπλεγμα πηγής:

AI και μηχανική μάθηση

Κόμβος πηγής: 1430928

Σφραγίδα ώρας: 15 Ιουνίου 2022

Τι είναι ένας πάροχος υπηρεσιών πληρωμών (PSP);

Σύμπλεγμα πηγής:

AI και μηχανική μάθηση

Κόμβος πηγής: 2304250

Σφραγίδα ώρας: 1 Οκτωβρίου 2023

Ο αναλυτικός οδηγός για την τεχνητή νοημοσύνη στη σύλληψη δεδομένων τιμολογίων

Σύμπλεγμα πηγής:

AI και μηχανική μάθηση

Κόμβος πηγής: 2483164

Σφραγίδα ώρας: 16 Φεβρουαρίου 2024

Επεξεργασία τιμολογίων AI: Πώς να αξιοποιήσετε την τεχνητή νοημοσύνη στο AP Automation

Σύμπλεγμα πηγής:

AI και μηχανική μάθηση

Κόμβος πηγής: 2213296

Σφραγίδα ώρας: 14 Αυγούστου 2023

Εξαγωγή δεδομένων από σαρωμένα έγγραφα

Αναδημοσίευση από τον Πλάτωνα

Εισαγωγή

Τι είναι η εξαγωγή δεδομένων;

Δεδομένα κειμένου

πίνακες

Ζεύγη κλειδιών-τιμών

Σχήματα

Τεχνολογίες πίσω από την εξαγωγή δεδομένων

Τι είναι η βαθιά μάθηση;

Εφαρμογές Εξαγωγής Δεδομένων

Business

Οδηγίες

Κτίριο από το μηδέν

Χρήση του Google Document API

Τρέχουσες λύσεις που προσφέρουν εξαγωγή δεδομένων

Συμπέρασμα

Περισσότερα από AI και μηχανική μάθηση

Τι είναι η συμφωνία λογαριασμού;

Τι είναι η συμφωνία τιμολογίων;

Λογισμικό OCR και σάρωσης τιμολογίων για το Xero

Μετασχηματίστε τις διαδικασίες έγκρισης με το πρότυπο ροής εργασιών έγκρισης

Πώς να μετατρέψετε PDF σε κείμενο με το Nanonets;

Απεικόνιση τιμολογίου: Πώς μπορεί να αυτοματοποιήσει τη διαδικασία AP σας

Ο αναλυτικός οδηγός για την τεχνητή νοημοσύνη στη σύλληψη δεδομένων τιμολογίων

Επεξεργασία τιμολογίων AI: Πώς να αξιοποιήσετε την τεχνητή νοημοσύνη στο AP Automation

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός