Τελευταία ενημέρωση: Ιαν, 2021.
Αυτό το ιστολόγιο είναι μια ολοκληρωμένη επισκόπηση της χρήσης του OCR με οποιοδήποτε εργαλείο RPA για την αυτοματοποίηση των ροών εργασίας του εγγράφου σας. Εξετάζουμε πώς οι τελευταίες τεχνολογίες OCR που βασίζονται σε μηχανική εκμάθηση δεν απαιτούν κανόνες ή ρυθμίσεις προτύπων.
Τα RPA ή αυτοματοποίηση ρομποτικής διαδικασίας είναι εργαλεία λογισμικού που αποσκοπούν στην εξάλειψη επαναλαμβανόμενων επιχειρηματικών εργασιών. Περισσότεροι CIO στρέφονται προς αυτούς για τη μείωση του κόστους και βοηθώντας τους υπαλλήλους να επικεντρωθούν στην επιχειρηματική εργασία υψηλότερης αξίας. Παραδείγματα περιλαμβάνουν απάντηση σε σχόλια σε ιστότοπους ή επεξεργασία παραγγελιών πελατών. Ελαφρώς πιο περίπλοκες εργασίες περιλαμβάνουν χειρισμό εγγράφων όπως χειρόγραφες φόρμες και τιμολόγια – αυτά συνήθως πρέπει να μετακινηθούν από το ένα παλαιού τύπου σύστημα στο άλλο – πείτε το πρόγραμμα-πελάτη ηλεκτρονικού ταχυδρομείου σας στο σύστημα SAP ERP όπου πρέπει να εξαγάγετε δεδομένα. Αυτό είναι το προβληματικό μέρος.
Τα περισσότερα εργαλεία OCR που καταγράφουν δεδομένα από αυτά τα έγγραφα βασίζονται σε πρότυπα (ας πούμε Άμπι Flexicapture) και μην κάνετε καλή κλίμακα σε ημιδομημένα έγγραφα. Υπάρχουν λύσεις νεότερης γενιάς που βασίζονται στη μηχανική εκμάθηση που συνήθως παρέχουν API
ενσωματώσεις που μπορούν να συλλάβουν ζεύγη τιμών-κλειδιών από έγγραφα - τα εταιρικά συστήματα συνήθως είναι παλαιού τύπου και δεν είναι ανοιχτά για ενσωμάτωση με εξωτερικά API. Από την άλλη πλευρά, τα RPA είναι κατασκευασμένα για να χειρίζονται αυτές τις ροές εργασιών του παλαιού συστήματος, όπως η λήψη εγγράφων από φακέλους και η εισαγωγή αποτελεσμάτων σε ERP ή CRM.
Καθώς ο αυτοματισμός ρομποτικής διαδικασίας (RPA) και το ML εξελίσσονται προς τον αυτοματισμό, μπορούμε να χρησιμοποιήσουμε ρομπότ λογισμικού σε συνδυασμό με το ML για να χειριστούμε περίπλοκες εργασίες όπως ταξινόμηση εγγράφων, εξαγωγή και αναγνώριση οπτικών χαρακτήρων. Σε μια πρόσφατη μελέτη, ειπώθηκε ότι αυτοματοποιώντας μόνο το 29% των λειτουργιών για μια εργασία που χρησιμοποιεί RPA, τα οικονομικά τμήματα και μόνο εξοικονομούν περισσότερες από 25,000 ώρες εργασίας που προκαλούνται από ανθρώπινα λάθη με κόστος 878,000 $ ετησίως για έναν οργανισμό με 40 πλήρεις Προσωπικό λογιστικής χρόνου [1]. Σε αυτό το ιστολόγιο, θα μάθουμε να χρησιμοποιούμε OCR με RPA και να εμβαθύνουμε στις ροές εργασιών που κατανοούν τα έγγραφα. Ακολουθεί ο πίνακας περιεχομένων.
Ορισμοί και επισκόπηση
Το RPA, γενικά, είναι μια τεχνολογία που βοηθά στην αυτοματοποίηση των διοικητικών εργασιών μέσω ρομπότ λογισμικού-υλισμικού. Αυτά τα ρομπότ εκμεταλλεύονται τις διεπαφές χρήστη. να συλλάβει τα δεδομένα και να χειριστεί τις εφαρμογές όπως κάνουν οι άνθρωποι. Για παράδειγμα, ένα RPA μπορεί να εξετάσει μια σειρά εργασιών που εκτελούνται σε ένα GUI, ας πούμε κινούμενους δρομείς, σύνδεση σε API, αντιγραφή-επικόλληση των δεδομένων και διατύπωση της ίδιας ακολουθίας ενεργειών σε ένα wireframe RPA που μεταφράζεται σε κώδικα. Επιπλέον, αυτές οι εργασίες μπορούν να εκτελεστούν χωρίς ανθρώπινη παρέμβαση στο μέλλον. Η Οπτική Αναγνώριση Χαρακτήρων (OCR) είναι ένα κρίσιμο χαρακτηριστικό οποιασδήποτε λύσης λειτουργικής ρομποτικής αυτοματοποίησης διεργασιών (RPA). Αυτή η τεχνολογία χρησιμοποιείται για την ανάγνωση και εξαγωγή κειμένου από διαφορετικές πηγές, όπως εικόνες ή pdfs σε ψηφιακή μορφή χωρίς χειροκίνητη λήψη.
Από την άλλη πλευρά, η κατανόηση εγγράφων είναι ο όρος που χρησιμοποιείται για την αυτόματη περιγραφή της ανάγνωσης, της ερμηνείας και της δράσης σε δεδομένα εγγράφων. Το πιο σημαντικό σε αυτήν τη διαδικασία είναι ότι τα ίδια τα bots λογισμικού εκτελούν όλες τις εργασίες. Αυτά τα bots αξιοποιούν τη δύναμη της Τεχνητής Νοημοσύνης και της Μηχανικής Μάθησης να κατανοούν τα έγγραφα ως ψηφιακοί βοηθοί. Με αυτόν τον τρόπο, μπορούμε να πούμε ότι η κατανόηση εγγράφων εμφανίζεται στη διασταύρωση της επεξεργασίας εγγράφων, AI και RPA.
Πώς τα ρομπότ μπορούν να μάθουν να κατανοούν τα έγγραφα με OCR και ML
Πριν βυθίσουμε πρώτα την κατανόηση εγγράφων, ας μιλήσουμε για το ρόλο των ρομπότ για την κατανόηση εγγράφων. Αυτοί οι εντελώς αόρατοι βοηθοί κάνουν τη ζωή μας πολύ πιο άνετη. Σε αντίθεση με τις ταινίες και τις σειρές, αυτά τα ρομπότ δεν είναι φυσικές συσκευές ή προγράμματα τεχνητής νοημοσύνης που κάθονται σε έναν επιτραπέζιο υπολογιστή και πιέζουν κουμπιά για την εκτέλεση εργασιών. Μπορούμε να τα θεωρήσουμε ως ψηφιακοί βοηθοί που έχουν εκπαιδευτεί να επεξεργάζονται έγγραφα διαβάζοντας και χρησιμοποιώντας εφαρμογές όπως εμείς. Από τη λειτουργική πλευρά, τα ρομπότ είναι καλά στη βελτίωση της απόδοσης και της αποτελεσματικότητας μιας διαδικασίας. Ωστόσο, είναι αυτόνομο λογισμικό, δεν μπορούν να αξιολογήσουν τη διαδικασία και να λάβουν γνωστικές αποφάσεις. Ωστόσο, εάν η μηχανική μάθηση ενσωματωθεί επιτυχώς, η ρομποτική θα γίνει πιο δυναμική και προσαρμοστική. Για παράδειγμα, τα ρομπότ που χρησιμοποιούνται για την επεξεργασία εγγράφων, τη διαχείριση δεδομένων και άλλες λειτουργίες στο μπροστινό και μεσαίο γραφείο θα εκτελούν πιο έξυπνες ενέργειες, όπως εξάλειψη διπλών καταχωρίσεων ή επίλυση άγνωστων εξαιρέσεων συστήματος στη διαδικασία. Επιπλέον, τα ρομπότ εκπαιδεύονται να διαβάζουν, να εξάγουν, να ερμηνεύουν και να ενεργούν βάσει δεδομένων από τα έγγραφα χρησιμοποιώντας τεχνητή νοημοσύνη (AI).
Πώς μπορούν οι εταιρείες να ενσωματώσουν έξυπνο OCR με RPA για να βελτιώσουν τις ροές εργασίας
Η εξαγωγή δεδομένων εγγράφου είναι ένα κρίσιμο στοιχείο για την κατανόηση εγγράφων. Σε αυτήν την ενότητα, θα συζητήσουμε πώς μπορούμε να ενσωματώσουμε το OCR με το RPA ή το αντίστροφο. Πρώτον, όλοι γνωρίζαμε ότι υπάρχουν διαφορετικά είδη εγγράφων όσον αφορά τα πρότυπα, το στυλ, τη μορφοποίηση και μερικές φορές τη γλώσσα. Ως εκ τούτου, δεν μπορούμε να βασιστούμε σε μια απλή τεχνική OCR για εξαγωγή των δεδομένων από αυτά τα έγγραφα. Για να αντιμετωπίσουμε αυτό το πρόβλημα, θα χρησιμοποιήσουμε προσεγγίσεις βάσει κανόνων και προσεγγίσεις βάσει μοντέλου εντός του OCR για να χειριστούμε δεδομένα από διαφορετικές δομές εγγράφων. Τώρα θα δούμε πώς εταιρείες που κάνουν OCR μπορούν να ενσωματώσουν RPAs στο υπάρχον σύστημά τους με βάση τον τύπο των εγγράφων.
Δομημένα έγγραφα: Σε αυτόν τον τύπο εγγράφων, οι διατάξεις και τα πρότυπα είναι συνήθως σταθερά και σχεδόν συνεπή. Για παράδειγμα, σκεφτείτε έναν οργανισμό που κάνει KYC με πιστοποιητικά που εκδίδονται από την κυβέρνηση, όπως διαβατήριο ή άδεια οδήγησης. Όλα αυτά τα έγγραφα θα είναι πανομοιότυπα και θα έχουν τα ίδια πεδία με τον αριθμό ταυτότητας, το όνομα του ατόμου, την ηλικία και λίγα άλλα στις ίδιες θέσεις. Αλλά μόνο οι λεπτομέρειες διαφέρουν. Μπορεί να υπάρχουν μερικοί περιορισμοί όπως η υπερχείλιση του πίνακα ή τα δεδομένα που δεν έχουν δημιουργηθεί.
Συνήθως, η προτεινόμενη προσέγγιση χρησιμοποιεί ένα πρότυπο ή μια μηχανή που βασίζεται σε κανόνες για την εξαγωγή των πληροφοριών για δομημένα έγγραφα. Αυτά μπορεί να περιλαμβάνουν κανονικές εκφράσεις ή απλή χαρτογράφηση θέσης και OCR. Ως εκ τούτου, για την ενσωμάτωση ρομπότ λογισμικού για την αυτοματοποίηση της εξαγωγής πληροφοριών, μπορούμε είτε να χρησιμοποιήσουμε προϋπάρχοντα πρότυπα είτε να δημιουργήσουμε κανόνες για τα δομημένα δεδομένα μας. Υπάρχει ένα μειονέκτημα από τη χρήση της προσέγγισης βάσει κανόνα, καθώς βασίζεται σε σταθερά μέρη, ακόμη και μικρές αλλαγές στη δομή της φόρμας μπορεί να προκαλέσουν την κατάρρευση των κανόνων.
Ημι-δομημένα έγγραφα: Αυτά τα έγγραφα έχουν τις ίδιες πληροφορίες, αλλά είναι διατεταγμένα σε διαφορετικές θέσεις. Για παράδειγμα, σκεφτείτε τιμολόγια που περιέχει 8-12 πανομοιότυπα πεδία. Σε λίγο τιμολόγια, η διεύθυνση του εμπόρου μπορεί να βρίσκεται στο επάνω μέρος και σε άλλα μπορεί να βρίσκεται στο κάτω μέρος. Συνήθως αυτές οι προσεγγίσεις που βασίζονται σε κανόνες δεν δίνουν υψηλή ακρίβεια. Ως εκ τούτου, εισάγουμε μοντέλα μηχανικής μάθησης και βαθιάς μάθησης στην εικόνα για εξαγωγή πληροφοριών με χρήση OCR. Εναλλακτικά, σε ορισμένες περιπτώσεις, μπορούμε να χρησιμοποιήσουμε υβριδικά μοντέλα που περιλαμβάνουν κανόνες και μοντέλα ML. Μερικά δημοφιλή προεκπαιδευμένα μοντέλα είναι τα FastRCNN, Attention OCR, Graph Convolutions για εξαγωγή πληροφοριών σε έγγραφα. Ωστόσο, και πάλι αυτά τα μοντέλα έχουν λίγα μειονεκτήματα. Ως εκ τούτου, μετράμε την απόδοση του αλγορίθμου χρησιμοποιώντας μετρήσεις όπως η ακρίβεια ή η βαθμολογία εμπιστοσύνης. Επειδή το μοντέλο μαθαίνει μοτίβα, αντί να λειτουργεί με συγκεκριμένους κανόνες, μπορεί να κάνει λάθη αρχικά αμέσως μετά τις διορθώσεις. Ωστόσο, η λύση σε αυτά τα μειονεκτήματα - όσο περισσότερα δείγματα επεξεργάζεται το μοντέλο ML, τόσο περισσότερα μοτίβα μαθαίνει να διασφαλίζει την ακρίβεια.
Μη δομημένα έγγραφα: Το RPA, σήμερα δεν είναι σε θέση να διαχειριστεί άμεσα μη δομημένα δεδομένα, επομένως απαιτεί από τα ρομπότ πρώτα να εξάγουν και να δημιουργούν δομημένα δεδομένα χρησιμοποιώντας OCR. Σε αντίθεση με τα δομημένα και ημι-δομημένα έγγραφα, τα μη δομημένα δεδομένα δεν έχουν μερικά ζεύγη κλειδιών-τιμών. Για παράδειγμα, σε λίγα τιμολόγια, βλέπουμε μια διεύθυνση εμπόρου κάπου χωρίς όνομα κλειδιού. Ομοίως, το ίδιο παρατηρούμε και για άλλα πεδία όπως ημερομηνία, αναγνωριστικό τιμολογίου. Προκειμένου τα μοντέλα ML να τα επεξεργάζονται με ακρίβεια, τα ρομπότ πρέπει να μάθουν πώς να μεταφράζουν γραπτό κείμενο σε δεδομένα ενεργειών, όπως email, αριθμό τηλεφώνου, διεύθυνση κ.λπ. Στη συνέχεια, το μοντέλο θα μάθει ότι θα πρέπει να εξάγονται μοτίβα αριθμών 7 ή 10 ψηφίων ως αριθμοί τηλεφώνου και τεράστιο κείμενο που περιέχει πενταψήφιους κωδικούς και διαφορετικά ουσιαστικά ως κείμενο. Για να κάνουμε αυτά τα μοντέλα πιο ακριβή, μπορούμε επίσης να χρησιμοποιήσουμε τεχνικές από την Επεξεργασία Φυσικής Γλώσσας (NLP), όπως η Αναγνώριση ονομαστικών οντοτήτων και η ενσωμάτωση λέξεων.
Συνολικά για την κατανόηση εγγράφων, είναι πρώτα απαραίτητο να κατανοήσουμε τα δεδομένα και μετά να εφαρμόσουμε το OCR με RPA. Στη συνέχεια, αντί να χαρτογραφήσουμε μια διαδικασία βήμα προς βήμα, μπορούμε να διδάξουμε ένα ρομπότ να «κάνει όπως κάνω» καταγράφοντας τη διαδικασία όπως συμβαίνει με ισχυρές δυνατότητες OCR όπως συζητήθηκε παραπάνω, ενσωματώνοντας κανόνες και αλγόριθμους μηχανικής μάθησης. Το ρομπότ λογισμικού ακολουθεί τα κλικ και τις ενέργειές σας στην οθόνη και στη συνέχεια τα μετατρέπει σε επεξεργάσιμη ροή εργασίας. Εάν εργάζεστε εξ ολοκλήρου σε τοπικά προγράμματα, αυτό θα πρέπει να γνωρίζετε.
Προκλήσεις OCR που αντιμετωπίζουν οι προγραμματιστές RPA
Έχουμε δει πώς μπορούμε να ενσωματώσουμε το OCRR με RPA για διαφορετικά έγγραφα, αλλά υπάρχουν μερικές περιπτώσεις προκλήσεων στις οποίες τα ρομπότ πρέπει να χειριστούν καλά. Ας τα συζητήσουμε τώρα!
- Αδύνατα ή ασυνεπή δεδομένα: Τα δεδομένα διαδραματίζουν καθοριστικό ρόλο στην κατανόηση εγγράφων. Στις περισσότερες περιπτώσεις, τα έγγραφα σαρώνονται χρησιμοποιώντας κάμερες όπου υπάρχει πιθανότητα απώλειας μορφοποίησης εγγράφων κατά τη σάρωση κειμένου (δηλ., Έντονα, πλάγια και υπογραμμισμένα δεν αναγνωρίζονται πάντα). Μερικές φορές, το OCR ενδέχεται να εξαγάγει κείμενο με λάθος τρόπο οδηγώντας σε ορθογραφικά λάθη, ακανόνιστα διαλείμματα παραγράφων, γεγονός που μειώνει τη συνολική απόδοση των ρομπότ. Επομένως, ο χειρισμός όλων των τιμών που λείπουν και η καταγραφή των δεδομένων με μεγαλύτερη ακρίβεια είναι ζωτικής σημασίας για την επίτευξη μεγαλύτερης ακρίβειας για το OCR.
- Εσφαλμένος προσανατολισμός σελίδας σε έγγραφα: Προσανατολισμός σελίδας και Skewness είναι επίσης ένα από τα κοινά προβλήματα που οδηγούν σε εσφαλμένη διόρθωση κειμένου του OCR. Αυτό συμβαίνει συνήθως όταν τα έγγραφα σαρώνονται εσφαλμένα κατά τη φάση συλλογής δεδομένων. Για να ξεπεραστεί αυτό, θα πρέπει να δηλώσουμε μερικές λειτουργίες σε ρομπότ όπως αυτόματη προσαρμογή στη σελίδα, αυτόματο φιλτράρισμα έτσι ώστε να επιτρέψουν την αύξηση της ποιότητας του σαρωμένου εγγράφου και τη λήψη σωστών δεδομένων σχετικά με την έξοδο.
- Προβλήματα ολοκλήρωσης: Δεν έχουν καλή απόδοση όλα τα εργαλεία RPA σε περιβάλλοντα απομακρυσμένης επιφάνειας εργασίας - προκαλούν σφάλματα και κρίσιμα προβλήματα στον αυτοματισμό. Επιπλέον, ο προγραμματιστής RPA πρέπει να γνωρίζει ποια λύση OCR θα είναι η καλύτερη για μια συγκεκριμένη περίπτωση. Επίσης, για να εργαστεί με συγκεκριμένα εργαλεία αυτοματισμού, ο προγραμματιστής RPA πρέπει να επιλέξει μόνο περιορισμένη τεχνολογία OCR που δημιουργήθηκε από τη Microsoft, την Google. Ως εκ τούτου, η ενοποίηση των προσαρμοσμένων αλγορίθμων και μοντέλων μας είναι μερικές φορές δύσκολη.
- Όλο το κείμενο είναι ομαδοποιημένο κείμενο: Για πραγματικές περιπτώσεις χρήσης, το κείμενο που καταγράφεται από ένα γενικό OCR είναι αναμεμειγμένο και δεν έχει σημαντικές πληροφορίες που μπορούν να χρησιμοποιήσουν τα bots για να εκτελέσουν σημαντικές λειτουργίες. Οι προγραμματιστές RPA χρειάζονται ισχυρή υποστήριξη ML για να είναι σε θέση να δημιουργήσουν χρήσιμες εφαρμογές.
Αγωγός για τη ροή εργασίας για την κατανόηση εγγράφων
Στις προηγούμενες ενότητες, έχουμε δει πώς τα bots βοηθούν στην εκτέλεση OCR για διαφορετικούς τύπους εγγράφων. Αλλά το OCR είναι απλώς μια τεχνική που μετατρέπει εικόνες ή άλλα αρχεία στο κείμενο. Τώρα, σε αυτήν την ενότητα, θα εξετάσουμε τη ροή εργασιών κατανόησης εγγράφων από την αρχή της συλλογής εγγράφων για να αποθηκεύσουμε επιτέλους σημαντικές πληροφορίες στην επιθυμητή μορφή.
- Καταναλώστε το έγγραφο από ένα φάκελο χρησιμοποιώντας το Bot σας: Αυτό είναι το πρώτο βήμα για την επίτευξη κατανόησης εγγράφων μέσω bots. Εδώ, θα ανακτήσουμε το έγγραφο που βρίσκεται είτε σε μια πλατφόρμα cloud (χρησιμοποιώντας ένα API) είτε από ένα τοπικό μηχάνημα. Σε μερικές περιπτώσεις, εάν τα έγγραφά μας βρίσκονται σε ιστοσελίδες, μπορούμε να αυτοματοποιήσουμε τη διαγραφή σεναρίων μέσω bots όπου μπορούν να πάρουν έγγραφα εγκαίρως.
- Είδος αρχείου: Αφού ανακτήσουμε τα δεδομένα, είναι σημαντικό να κατανοήσουμε τον τύπο του εγγράφου και τη μορφή με την οποία αποθηκεύονται στα συστήματά μας, καθώς μερικές φορές, λαμβάνουμε δεδομένα από διαφορετικές πηγές σε διάφορες μορφές αρχείων, όπως π.χ. PDF, PNG και JPG. Όχι μόνο οι τύποι αρχείων, μερικές φορές όταν τα έγγραφα σαρώνονται με κάμερες τηλεφώνου, θα πρέπει επίσης να αντιμετωπίζονται μερικά δύσκολα προβλήματα όπως η λοξή εικόνα, η περιστροφή, η φωτεινότητα ή η χαμηλή ανάλυση. Ως εκ τούτου, θα πρέπει να βεβαιωθούμε ότι τα ρομπότ ταξινομούν αυτά τα έγγραφα στη δομημένη, ημιδομημένη ή μη δομημένη κατηγορία, αποθηκεύοντάς τα έτσι σε γενική μορφή. Η εργασία ταξινόμησης επιτυγχάνεται συγκρίνοντας τα έγγραφα με πρότυπα και αναλύοντας χαρακτηριστικά όπως γραμματοσειρές, γλώσσα, παρουσία ζευγών κλειδιών-τιμών, πίνακες κ.λπ.
- Εξαγωγή των δεδομένων με OCR: Εντάξει, τώρα που τα bots τακτοποίησαν τα έγγραφά μας σε γενική μορφή και τα ταξινομούσαν, ήρθε η ώρα να τα ψηφιοποιήσουμε χρησιμοποιώντας την τεχνική OCR. Με αυτό, θα έχουμε το κείμενο, τη θέση του σε συντεταγμένες από τις εικόνες. Αυτό βοηθά στην τυποποίηση των εγγράφων και των δεδομένων για τα επόμενα βήματα. Αντιμετωπίζουμε επίσης μερικά όταν το λογισμικό OCR δεν μπόρεσε να διακρίνει σωστά μεταξύ χαρακτήρων, όπως «t» έναντι «i» ή «0» έναντι «O.» Τα ίδια τα λάθη που θέλετε να αποφύγετε χρησιμοποιώντας το λογισμικό OCR μπορούν να γίνουν νέοι πονοκέφαλοι όταν η τεχνολογία OCR δεν είναι σε θέση να αναλύσει τις αποχρώσεις ενός εγγράφου με βάση την ποιότητα ή την αρχική του μορφή. Αυτό είναι όπου η Μηχανική Εκμάθηση έρχεται στην εικόνα, την οποία θα συζητήσουμε στο επόμενο βήμα.
- Αξιοποίηση ML / DL για έξυπνο OCR χρησιμοποιώντας Bots: Μετά την ψηφιοποίηση των δεδομένων, το λογισμικό OCR θα πρέπει να κατανοήσει το είδος του εγγράφου με το οποίο λειτουργεί και τι είναι σχετικό. Αλλά το παραδοσιακό λογισμικό OCR μπορεί να αγωνιστεί να κλιμακώσει τις προσπάθειες ταξινόμησης εγγράφων. Ως εκ τούτου, τα bots λογισμικού θα πρέπει να εκπαιδεύονται με γνωστικές ικανότητες αξιοποιώντας τη μηχανική εκμάθηση και τις τεχνικές βαθιάς μάθησης για να κάνουν τα OCR πιο έξυπνα. Οι λύσεις OCR που βασίζονται σε ML μπορούν να προσδιορίσουν έναν τύπο εγγράφου και να ταιριάξουν με έναν γνωστό τύπο εγγράφου που χρησιμοποιείται από την επιχείρησή σας. Μπορούν επίσης να αναλύσουν και να κατανοήσουν τμήματα κειμένου σε μη δομημένα έγγραφα. Μόλις η λύση γνωρίσει περισσότερα για το ίδιο το έγγραφο, μπορεί να αρχίσει να εξάγει σχετικές πληροφορίες με βάση την πρόθεση και το νόημα.
- Καλύτερη εξαγωγή δεδομένων και ταξινόμηση: Η εξαγωγή δεδομένων είναι ο πυρήνας της κατανόησης εγγράφων. Όπως συζητήθηκε στην προηγούμενη ενότητα για την Ενσωμάτωση RPA με OCR σε αυτό το βήμα, επιλέξτε την τεχνική εξαγωγής δεδομένων με βάση τον τύπο του εγγράφου. Μέσω των RPA, μπορούμε εύκολα να διαμορφώσουμε ποιον εξολκέα θα χρησιμοποιήσουμε, είτε βασίζεται σε κανόνες είτε σε ML ή σε υβριδικό μοντέλο OCR. Με βάση τις μετρήσεις εμπιστοσύνης και απόδοσης που επιστρέφονται μετά την εξαγωγή πληροφοριών, τα ρομπότ λογισμικού θα τα αποθηκεύσουν στην επιθυμητή μορφή μας για περαιτέρω ανάλυση. Ακολουθεί μια εικόνα για το πώς μπορούμε να διαμορφώσουμε τα εργαλεία εξαγωγής και να ορίσουμε επίπεδο εμπιστοσύνης σε ένα εργαλείο RPA από το UIPath.
6. Επικύρωση και ενδυνάμωση πληροφοριών: Τα μοντέλα OCR και Machine Learning δεν είναι εκατό τοις εκατό ακριβή όσον αφορά την εξαγωγή πληροφοριών, επομένως η προσθήκη ενός στρώματος ανθρώπινης παρέμβασης με τη βοήθεια ρομπότ μπορεί να λύσει το πρόβλημα. Ο τρόπος με τον οποίο λειτουργεί αυτή η επικύρωση είναι ότι κάθε φορά που τα ρομπότ αντιμετωπίζουν χαμηλή ακρίβεια και εξαιρέσεις, θέτει αμέσως μια ειδοποίηση στο κέντρο δράσης όπου ένας υπάλληλος μπορεί να λάβει αίτημα για επικύρωση δεδομένων ή να χειριστεί εξαιρέσεις και μπορεί να λύσει τυχόν αβεβαιότητες σε περίπτωση κλικ. Επιπλέον, μπορούμε να ξεκλειδώσουμε το δυναμικό της Τεχνητής Νοημοσύνης για την τεκμηρίωση δεδομένων με την πάροδο του χρόνου για να κάνουμε προβλέψεις και να εντοπίσουμε πιθανές ανωμαλίες που μπορεί να υποδηλώνουν απάτη, επανάληψη και άλλα σφάλματα.
Οφέλη από την ενσωμάτωση ρομπότ με την κατανόηση εγγράφων
- Αυτοματοποίηση διαδικασίας: Ο βασικός λόγος για την ενσωμάτωση bots για κατανόηση εγγράφων είναι η αυτοματοποίηση ολόκληρης της διαδικασίας από την αρχή έως το τέλος. Το μόνο που πρέπει να κάνουμε είναι να δημιουργήσουμε μια ροή εργασίας για να μάθουν τα bots, να καθίσουν και να χαλαρώσουν. Κατά τη διαδικασία επικύρωσης, ενδέχεται να χρειαστεί να αντιμετωπίσουμε τα ζητήματα που ειδοποιούνται από τα bots όπου εντοπίζονται τυχόν λάθη ή απάτες.
- Bots με μηχανική εκμάθηση: Κατά τη διαδικασία αυτοματοποίησης, μπορούμε να κάνουμε τα bots ανθεκτικά στη μηχανική εκμάθηση. Αυτό σημαίνει ότι τα ρομπότ μπορούν επίσης να μάθουν την απόδοση των μοντέλων Machine Learning και έτσι να βελτιώσουν τα μοντέλα για να επιτύχουν μεγαλύτερη ακρίβεια και απόδοση για την εξαγωγή κειμένων και πληροφοριών.
- Ευρεία γκάμα επεξεργασίας εγγράφων: Για γενικές εργασίες όπως εξαγωγή πίνακα και πληροφοριών, θα πρέπει να δημιουργήσουμε διαφορετικούς αγωγούς βαθιάς μάθησης για διαφορετικούς τύπους εγγράφων. Αυτό οδηγεί στη δημιουργία πολλαπλών εφαρμογών και στην ανάπτυξη διαφόρων μοντέλων σε διαφορετικούς διακομιστές, κάτι που απαιτεί πολλή προσπάθεια και χρόνο. Όταν τα bots είναι στην εικόνα για ένα ευρύ φάσμα εγγράφων, θα μπορούσαμε να έχουμε μόνο έναν αγωγό όπου τα bots μπορούν να τα ταξινομήσουν και στη συνέχεια να χρησιμοποιήσουν το κατάλληλο μοντέλο για διαφορετικές εργασίες. Μπορούμε επίσης να ενσωματώσουμε διάφορες υπηρεσίες μέσω API και να επικοινωνήσουμε με άλλους οργανισμούς όσον αφορά τη λήψη των δεδομένων.
- Εύκολο στην ανάπτυξη: Για την κατανόηση των εγγράφων μετά τη δημιουργία των αγωγών, η διαδικασία ανάπτυξης είναι μόνο ένα λεπτό. Μπορούμε είτε να εξαγάγουμε API από bots μετά την προπόνηση είτε αλλιώς μπορούμε να δημιουργήσουμε μια προσαρμοσμένη λύση RPA που μπορεί να χρησιμοποιηθεί στα τοπικά μας συστήματα. Αυτός ο τύπος ανάπτυξης μπορεί επίσης να βελτιστοποιήσει τις επιχειρήσεις και να μειώσει τις δαπάνες με πολύ ελάχιστους κινδύνους.
Εισαγάγετε Nanonets
Το NanoNets είναι μια πλατφόρμα Machine Learning που επιτρέπει στους χρήστες να συλλαμβάνουν δεδομένα από τιμολόγια, αποδείξεις και άλλα έγγραφα χωρίς ρύθμιση προτύπου. Διαθέτουμε αλγόριθμους βαθιάς εκμάθησης αιχμής και υπολογιστικής όρασης που εκτελούνται στο πίσω μέρος που μπορούν να χειριστούν κάθε είδους εργασίες κατανόησης εγγράφων όπως OCR, εξαγωγή πίνακα, εξαγωγή ζεύγους κλειδιού-τιμής. Συνήθως εξάγονται ως API ή μπορούν να αναπτυχθούν στις εγκαταστάσεις με βάση διαφορετικές περιπτώσεις χρήσης. Εδώ είναι μερικά παραδείγματα,
- Μοντέλο τιμολογίου: Προσδιορίστε βασικά πεδία από Τιμολόγια όπως Όνομα αγοραστή, Αναγνωριστικό τιμολογίου, Ημερομηνία, Ποσό κ.λπ.
- Μοντέλο αποδείξεων: Προσδιορίστε βασικά πεδία από αποδείξεις όπως όνομα πωλητή, αριθμός, ημερομηνία, ποσό κ.λπ.
- Άδεια οδήγησης (ΗΠΑ): Προσδιορίστε βασικά πεδία όπως Αριθμός άδειας, DOB, Ημερομηνία λήξης, Ημερομηνία έκδοσης κ.λπ.
- Βιογραφικά: Απόσπασμα εμπειρίας, εκπαίδευση, σετ δεξιοτήτων, πληροφορίες υποψηφίων κ.λπ.
Για να κάνουμε αυτές τις ροές εργασίας πιο γρήγορες και ισχυρές, χρησιμοποιούμε το UiPath, ένα εργαλείο RPA για απρόσκοπτη αυτοματοποίηση των εγγράφων σας χωρίς κανένα πρότυπο. Στην επόμενη ενότητα, θα δούμε πώς μπορείτε να χρησιμοποιήσετε το UiPath Connect με Nanonets για κατανόηση εγγράφων. Οι 3 μεγαλύτεροι παίκτες στην αγορά RPA είναι οι UiPath, Automation Anywhere και Μπλε πρίσμα. Αυτό το ιστολόγιο εστιάζει στο Uipath.
NanoNets με UiPath
Έχουμε μάθει να δημιουργούμε έναν αγωγό κατανόησης εγγράφων στις προηγούμενες ενότητες μας. Απαιτεί βασικές γνώσεις για OCR, RPA και Machine learning, καθώς υπάρχουν διαφορετικές προσεγγίσεις και αλγόριθμοι για διαφορετικές εργασίες σε διάφορα σημεία. Επίσης, πρέπει να καταβάλουμε μεγάλη προσπάθεια για τη δημιουργία νευρωνικών δικτύων που κατανοούν τα πρότυπα μας, εκπαιδεύουμε και αναπτύσσουμε. Ως εκ τούτου, για να είμαστε άνετοι και να αυτοματοποιούμε τα πάντα, από τη μεταφόρτωση εγγράφων, την ταξινόμησή τους, την κατασκευή OCR, την ενσωμάτωση μοντέλων ML, εμείς στη Nanonets εργαζόμαστε στο Ui Path για να δημιουργήσουμε έναν απρόσκοπτο αγωγό για κατανόηση εγγράφων. Ακολουθεί μια εικόνα για το πώς λειτουργεί αυτό.
Τώρα ας εξετάσουμε καθένα από αυτά και μάθετε πώς μπορούμε να ενσωματώσουμε τα Nanonets με το UiPath.
Βήμα 1: Εγγραφείτε στο UiPath και κάντε λήψη του UiPath Studio
Για να δημιουργήσουμε μια ροή εργασίας, πρώτα, θα πρέπει να δημιουργήσουμε έναν λογαριασμό στο UiPath. Εάν είστε ήδη χρήστης, μπορείτε να συνδεθείτε απευθείας στον λογαριασμό σας, ανακατευθύνοντας τον πίνακα ελέγχου του UiPath. Στη συνέχεια, θα πρέπει να κατεβάσετε και να εγκαταστήσετε το UiPath Studio (Community Edition), το οποίο είναι δωρεάν.
Βήμα 2: Λήψη στοιχείου Nanonets
Στη συνέχεια, για να ρυθμίσετε το δικό σας αγωγός επεξεργασίας τιμολογίων, θα πρέπει να κατεβάσετε το Nanonets Connector από τον παρακάτω σύνδεσμο.
-> NanoNets OCR - Συστατικό RPA
Ακολουθεί ένα στιγμιότυπο οθόνης του UiPath Marketplace και του Nanonets Component. Επίσης, για να το κατεβάσετε, βεβαιωθείτε ότι έχετε συνδεθεί στο UiPath από ένα λειτουργικό σύστημα Windows.
Τα ληφθέντα αρχεία σας πρέπει να περιέχουν τα αρχεία που αναφέρονται παρακάτω,
UiPath OCR Predict ├── Main.xaml
└── project.json
Βήμα 3: Ανοίξτε το στοιχείο Main.xaml Component Nanonets
Για να ελέγξετε αν το Nanonets UiPath λειτουργεί ή όχι, μπορείτε να ανοίξετε το αρχείο Main.xml από το στοιχείο Nanonets που έχετε λάβει χρησιμοποιώντας το Ui Path Studio. Στη συνέχεια, μπορείτε να δείτε τον αγωγό σας που έχει ήδη δημιουργηθεί για επεξεργασία εγγράφων.
Βήμα 4: Συγκεντρώστε το αναγνωριστικό μοντέλου, το κλειδί API και το τελικό σημείο API από την εφαρμογή Nanonets
Στη συνέχεια, μπορείτε να χρησιμοποιήσετε οποιοδήποτε από τα εκπαιδευμένα μοντέλα OCR από την εφαρμογή Nanonets APP και να συλλέξετε το αναγνωριστικό μοντέλου, το κλειδί API και το τελικό σημείο. Ακολουθούν περισσότερες λεπτομέρειες για να τις βρείτε γρήγορα.
Αναγνωριστικό μοντέλου: Συνδεθείτε στον λογαριασμό σας Nanonets και μεταβείτε στην ενότητα "Τα μοντέλα μου". Μπορείτε να εκπαιδεύσετε ένα νέο μοντέλο ή να αντιγράψετε το αναγνωριστικό εφαρμογής ενός υπάρχοντος μοντέλου.
Τελικό σημείο API: Μπορείτε να επιλέξετε οποιοδήποτε υπάρχον μοντέλο και να κάνετε κλικ στο Ενσωμάτωση για να βρείτε το τελικό σημείο του API σας. Ακολουθεί ένα παράδειγμα για το πώς μοιάζουν τα τελικά σημεία σας.
https://app.nanonets.com/api/v2/OCR/Model/XXXXXXX-4840-4c27-8940-d3add200779e/LabelUrls/
3. Κλειδί API: Μεταβείτε στην καρτέλα Κλειδί API και μπορείτε να αντιγράψετε οποιοδήποτε υπάρχον Κλειδί API ή να δημιουργήσετε ένα νέο.
Βήμα 5: Προσθέστε αίτημα HTTP για να λάβετε τη μέθοδο και τις μεταβλητές σας στη διαδρομή διεπαφής χρήστη
Τώρα για να ενσωματώσετε το Μοντέλο σας από Nanonets στη Διαδρομή UI, θα έχετε το πρώτο κλικ στο HTTP Request και θα προσθέσετε το EndPoint, το οποίο μπορείτε να βρείτε στην αριστερή πλοήγηση στην ενότητα Εισαγωγή. Ακολουθεί ένα στιγμιότυπο οθόνης.
Αργότερα, προσθέστε όλες τις μεταβλητές σας για να δημιουργήσετε μια σύνδεση από το στούντιο UiPath στο API Nanonets. Μπορείτε να βρείτε αυτήν την ενότητα στο κάτω τμήμα του παραθύρου στην καρτέλα "Μεταβλητές". Παρακάτω είναι το στιγμιότυπο οθόνης, θα πρέπει να ενημερώσετε / αντιγράψετε το κλειδί API, το τελικό σημείο και το αναγνωριστικό μοντέλου του μοντέλου σας εδώ.
Βήμα 6: Προσθήκη θέσης αρχείου για προβλέψεις
Τέλος, μπορείτε να προσθέσετε τη θέση του αρχείου σας στην καρτέλα χαρακτηριστικών, όπως φαίνεται στο παρακάτω στιγμιότυπο οθόνης και να πατήσετε το κουμπί αναπαραγωγής στην επάνω πλοήγηση για να προβλέψετε τις εξόδους σας.
Βόιλα! Ακολουθούν τα αποτελέσματά μας για το έγγραφο που ζητήσαμε στο παρακάτω στιγμιότυπο οθόνης. Για να επεξεργαστείτε περισσότερα, μπορείτε απλώς να προσθέσετε τις τοποθεσίες του αρχείου σας και να πατήσετε το κουμπί εκτέλεσης.
Βήμα 7 - Προώθηση εξόδου σε CSV / ERP
Τέλος, για να προσαρμόσουμε την παραγωγή μας στην επιθυμητή μορφή σας, μπορούμε να προσθέσουμε νέα μπλοκ στον αγωγό σας στο αρχείο Main.XML. Μπορούμε επίσης να το προωθήσουμε σε υπάρχοντα συστήματα ERP μέσω αρχείων εκτός σύνδεσης ή κλήσεων API.
Για οποιαδήποτε βοήθεια επικοινωνήστε μαζί μας στο support@nanonets.com
Webinar
Ελάτε μαζί μας για ένα διαδικτυακό σεμινάριο την επόμενη Τρίτη στο OCR με RPA, Εγγραφείτε εδώ.
αναφορές
[2] Κατανόηση εγγράφων - Επεξεργασία εγγράφων AI
[3] RPA OCR - αυτοματισμός διαδικασίας ανύψωσης | ΟΜΟΡΦΗ
[4] Πώς να χρησιμοποιήσετε το AI για να βελτιστοποιήσετε την κατανόηση εγγράφων
[5] https://www.uipath.com/product/document-understanding
[6] Χρήση του NanoNets στη ροή εργασίας UiPath για το τιμολόγιο OCR
Περισσότερες Πληροφορίες
Ίσως σας ενδιαφέρει οι τελευταίες δημοσιεύσεις μας σχετικά με:
Ενημέρωση:
Προστέθηκε περισσότερο αναγνωστικό υλικό σχετικά με τη χρήση και τον αντίκτυπο των OCR, RPA στην κατανόηση εγγράφων.
Πηγή: https://nanonets.com/blog/ocr-with-rpa-and-document-understanding-uipath/
- '
- &
- 000
- 2021
- 7
- Λογαριασμός
- Λογιστήριο
- Ενέργειες
- Πλεονέκτημα
- AI
- αλγόριθμος
- αλγόριθμοι
- Όλα
- ανάλυση
- api
- APIs
- app
- Εφαρμογή
- εφαρμογές
- Τέχνη
- τεχνητή νοημοσύνη
- Τεχνητή νοημοσύνη (AI)
- Τεχνητή Νοημοσύνη και Εκμάθηση Μηχανών
- Αυτοματοποίηση
- αυτοματοποίηση οπουδήποτε
- ΚΑΛΎΤΕΡΟΣ
- Μεγαλύτερη
- Blog
- Bot
- bots
- χτίζω
- Κτίριο
- επιχείρηση
- φωτογραφικές μηχανές
- περιπτώσεις
- Αιτία
- προκαλούνται
- αναγνώριση χαρακτήρων
- ταξινόμηση
- Backup
- Cloud Platform
- κωδικός
- γνωστική
- Συλλέγοντας
- σχόλια
- Κοινός
- κοινότητα
- Εταιρείες
- συστατικό
- Computer Vision
- εμπιστοσύνη
- περιεχόμενα
- Διορθώσεις
- Δικαστικά έξοδα
- ταμπλό
- ημερομηνία
- διαχείριση δεδομένων
- συμφωνία
- βαθιά μάθηση
- Εργολάβος
- προγραμματιστές
- Συσκευές
- ψηφιακό
- έγγραφα
- αποφεύγω
- οδήγηση
- Εκπαίδευση
- αποδοτικότητα
- ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
- υπαλλήλους
- Τελικό σημείο
- Εταιρεία
- κ.λπ.
- εξαγάγετε τα δεδομένα
- εξαγωγή
- Χαρακτηριστικό
- Χαρακτηριστικά
- Πεδία
- Τελικά
- χρηματοδότηση
- Όνομα
- Συγκέντρωση
- μορφή
- μορφή
- απάτη
- Δωρεάν
- μελλοντικός
- Gartner
- General
- gif
- καλός
- καθοδηγήσει
- Χειρισμός
- πονοκεφάλους
- εδώ
- Ψηλά
- Πως
- Πώς να
- HTTPS
- τεράστιος
- Οι άνθρωποι
- Υβριδικό
- προσδιορίσει
- εικόνα
- Επίπτωση
- Αυξάνουν
- πληροφορίες
- πληροφορίες
- εξαγωγή πληροφοριών
- Νοημοσύνη
- πρόθεση
- θέματα
- IT
- Κλειδί
- γνώση
- KYC
- Γλώσσα
- αργότερο
- οδηγήσει
- που οδηγεί
- ΜΑΘΑΊΝΩ
- μάθει
- μάθηση
- Επίπεδο
- Μόχλευση
- Άδεια
- Περιωρισμένος
- LINK
- τοπικός
- τοποθεσία
- μάθηση μηχανής
- διαχείριση
- αγορά
- αγορά
- Ταίριασμα
- μέτρο
- Εμπορος
- Metrics
- Microsoft
- ML
- μοντέλο
- Κινηματογράφος
- Φυσική γλώσσα
- Επεξεργασία φυσικής γλώσσας
- Πλοήγηση
- δίκτυα
- Νευρικός
- νευρωνικά δίκτυα
- nlp
- κοινοποίηση
- αριθμοί
- OCR
- ανοίξτε
- λειτουργίας
- το λειτουργικό σύστημα
- λειτουργίες
- οπτική αναγνώριση χαρακτήρων
- τάξη
- ΑΛΛΑ
- Άλλα
- διαβατήριο
- επίδοση
- εικόνα
- πλατφόρμες
- Δημοφιλής
- Δημοσιεύσεις
- δύναμη
- Ακρίβεια
- Προβλέψεις
- Αυτοματοποίηση διαδικασιών
- Προγράμματα
- σχέδιο
- ποιότητα
- αυξήσεις
- σειρά
- RE
- Ανάγνωση
- μείωση
- Αποτελέσματα
- ανασκόπηση
- ρομπότ
- Αυτοματοποίηση ρομποτικών διαδικασιών
- ρομποτική
- ρομπότ
- Νότια Αφρική
- κανόνες
- τρέξιμο
- τρέξιμο
- SAP
- οικονομία
- Κλίμακα
- σάρωσης
- απόξεση
- Οθόνη
- αδιάλειπτη
- πωλητές
- Σειρές
- Υπηρεσίες
- σειρά
- Απλούς
- So
- λογισμικό
- Λογισμικό bots
- Λύσεις
- SOLVE
- δαπανήσει
- Εκκίνηση
- Κατάσταση
- Μελέτη
- υποστήριξη
- σύστημα
- συστήματα
- εξαγωγή τραπεζιού
- Τεχνολογίες
- Τεχνολογία
- Το μέλλον
- ώρα
- κορυφή
- Εκπαίδευση
- ui
- Uipath
- Ενημέρωση
- us
- ΗΠΑ
- περιπτώσεις χρήσης
- Χρήστες
- αξία
- Εναντίον
- όραμα
- ιστός
- webinar
- ιστοσελίδες
- Ο ΟΠΟΊΟΣ
- παράθυρα
- εντός
- Εργασία
- ροής εργασίας
- λειτουργεί
- XML
- έτος
- YouTube