Ein umfassender Leitfaden für OCR mit RPA und Dokumentenverständnis

Neuauflage von Plato

Verfolger: 0

Letzte Aktualisierung: Januar 2021.

Dieser Blog bietet einen umfassenden Überblick über die Verwendung von OCR mit jedem RPA-Tool zur Automatisierung Ihrer Dokumentworkflows. Wir untersuchen, wie die neuesten auf maschinellem Lernen basierenden OCR-Technologien keine Regeln oder Vorlageneinrichtung erfordern.

RPAs oder Robotic Process Automation sind Softwaretools, mit denen sich wiederholende Geschäftsaufgaben vermieden werden sollen. Immer mehr CIOs wenden sich an sie, um Kosten zu senken und den Mitarbeitern zu helfen, sich auf höherwertige Geschäftsarbeit zu konzentrieren. Beispiele hierfür sind die Beantwortung von Kommentaren auf Websites oder die Bearbeitung von Kundenbestellungen. Etwas komplexere Aufgaben umfassen den Umgang mit Dokumenten wie handschriftliche Formulare und Rechnungen – Diese müssen normalerweise von einem Altsystem auf das andere verschoben werden – beispielsweise Ihren E-Mail-Client in Ihr SAP ERP-System, wo Sie Daten extrahieren müssen. Dies ist der problematische Teil.

Die meisten OCR-Tools, die Daten aus diesen Dokumenten erfassen, basieren auf Vorlagen (z. B Abbyy Flexicapture) und lassen sich bei halbstrukturierten Dokumenten nicht gut skalieren. Es gibt auf maschinellem Lernen basierende Lösungen der neueren Generation, die typischerweise eine API bereitstellen
Integrationen, mit denen Schlüssel-Wert-Paare aus Dokumenten erfasst werden können - Unternehmenssysteme sind in der Regel Legacy-Systeme und können nicht in externe APIs integriert werden. Auf der anderen Seite werden RPAs entwickelt, um diese Legacy-System-Workflows wie das Aufnehmen von Dokumenten aus Ordnern und das Eingeben von Ergebnissen in ERPs oder CRMs zu handhaben.

Da sich Robotic Process Automation (RPA) und ML in Richtung Hyperautomatisierung weiterentwickeln, können wir Software-Bots in Verbindung mit ML verwenden, um komplexe Aufgaben wie Dokumentklassifizierung, Extraktion und optische Zeichenerkennung zu erledigen. In einer kürzlich durchgeführten Studie wurde festgestellt, dass allein durch die Automatisierung von nur 29% der Funktionen für eine Aufgabe mithilfe von RPAs die Finanzabteilungen mehr als 25,000 Stunden Nacharbeit durch menschliche Fehler einsparen und 878,000 USD pro Jahr für ein Unternehmen mit 40 Voll- Zeitbuchhalter [1]. In diesem Blog lernen wir die Verwendung von OCRs mit RPAs kennen und vertiefen uns in das Verständnis von Dokumenten. Unten finden Sie das Inhaltsverzeichnis.

Definitionen und Übersicht

RPA ist im Allgemeinen eine Technologie, die dabei hilft, Verwaltungsaufgaben über Software-Hardware-Bots zu automatisieren. Diese Bots machen sich Benutzeroberflächen zunutze; um die Daten zu erfassen und Anwendungen so zu manipulieren, wie es Menschen tun. Ein RPA kann sich beispielsweise eine Reihe von Aufgaben ansehen, die in einer GUI ausgeführt werden, beispielsweise das Bewegen von Cursorn, das Herstellen einer Verbindung zu APIs, das Kopieren und Einfügen der Daten und das Formulieren derselben Aktionssequenz in einem RPA-Drahtmodell, das in Code übersetzt wird. Darüber hinaus können diese Aufgaben in Zukunft ohne menschliches Eingreifen ausgeführt werden. Die optische Zeichenerkennung (OCR) ist ein entscheidendes Merkmal jeder funktionalen RPA-Lösung (Robotic Process Automation). Diese Technologie wird verwendet, um Text aus verschiedenen Quellen wie Bildern oder Bildern zu lesen und zu extrahieren pdfs in ein digitales Format konvertieren, ohne es manuell zu erfassen.

Andererseits ist Dokumentverständnis der Begriff, der verwendet wird, um das Lesen, Interpretieren und Verarbeiten von Dokumentdaten automatisch zu beschreiben. Das Wichtigste in diesem Prozess ist, dass Software-Bots selbst alle Aufgaben ausführen. Diese Bots nutzen die Möglichkeiten der künstlichen Intelligenz und des maschinellen Lernens, um Dokumente als digitale Assistenten zu verstehen. Auf diese Weise können wir sagen, dass das Verständnis von Dokumenten an der Schnittstelle von Dokumentenverarbeitung, KI und RPA entsteht.

Das Verständnis von Dokumenten entsteht an der Schnittstelle von Dokumentenverarbeitung, KI und RPA. [Bildquelle: Ui Path Document Understanding [2]]

Wie Roboter lernen können, die Dokumente mit OCR und ML zu verstehen

Bevor wir uns zunächst eingehend mit dem Verständnis von Dokumenten befassen, wollen wir uns mit der Rolle von Robotern für das Verständnis von Dokumenten befassen. Diese völlig unsichtbaren Helfer machen unser Leben viel angenehmer. Im Gegensatz zu Filmen und Serien sind diese Roboter keine physischen Geräte oder Programme für künstliche Intelligenz, die an einem Desktop sitzen und Tasten drücken, um Aufgaben auszuführen. Wir können uns diese als digitale Assistenten vorstellen, die darin geschult sind, Dokumente zu verarbeiten, indem sie wie wir Anwendungen lesen und verwenden. Auf der funktionalen Seite können Roboter die Leistung und Effizienz eines Prozesses gut verbessern. Da sie jedoch eine eigenständige Software sind, können sie den Prozess nicht bewerten und kognitive Entscheidungen treffen. Wenn maschinelles Lernen jedoch erfolgreich integriert wird, wird die Robotik dynamischer und anpassungsfähiger. Beispielsweise führen Roboter, die für die Dokumentenverarbeitung, Datenverwaltung und andere Funktionen im Front- und Middle Office verwendet werden, intelligentere Aktionen aus, z. B. das Entfernen doppelter Einträge oder das Lösen unbekannter Systemausnahmen. Darüber hinaus werden die Roboter darin geschult, Daten aus den Dokumenten mithilfe künstlicher Intelligenz (KI) zu lesen, zu extrahieren, zu interpretieren und darauf zu reagieren.

Wie können Unternehmen intelligente OCR in RPA integrieren, um die Arbeitsabläufe zu verbessern?

Das Extrahieren von Dokumentdaten ist eine entscheidende Komponente für das Verständnis von Dokumenten. In diesem Abschnitt werden wir diskutieren, wie wir OCR in RPA integrieren können oder umgekehrt. Erstens wussten wir alle, dass es verschiedene Arten von Dokumenten in Bezug auf Vorlagen, Stil, Formatierung und manchmal Sprache gibt. Daher können wir uns nicht auf eine einfache OCR-Technik verlassen, um die Daten aus diesen Dokumenten zu extrahieren. Um dieses Problem zu lösen, verwenden wir sowohl regelbasierte als auch modellbasierte Ansätze innerhalb von OCR, um Daten aus verschiedenen Dokumentstrukturen zu verarbeiten. Jetzt werden wir sehen, wie Unternehmen, die OCR durchführen, RPAs basierend auf der Art der Dokumente in ihr bestehendes System integrieren können.

Strukturierte Dokumente: Bei dieser Art von Dokumenten sind die Layouts und Vorlagen normalerweise fest und nahezu konsistent. Stellen Sie sich beispielsweise eine Organisation vor, die KYC mit von der Regierung ausgestellten Ausweisen wie einem Reisepass oder einem Führerschein durchführt. Alle diese Dokumente sind identisch und haben dieselben Felder wie ID-Nummer, Name der Person, Alter und wenige andere an denselben Positionen. Aber nur die Details variieren. Möglicherweise gibt es nur wenige Einschränkungen wie Tabellenüberlauf oder nicht eingereichte Daten.

Normalerweise verwendet der empfohlene Ansatz eine Vorlage oder eine regelbasierte Engine, um die Informationen für strukturierte Dokumente zu extrahieren. Dies können reguläre Ausdrücke oder einfache Positionszuordnung und OCR sein. Um Softwareroboter zur Automatisierung der Informationsextraktion zu integrieren, können wir entweder bereits vorhandene Vorlagen verwenden oder Regeln für unsere strukturierten Daten erstellen. Der regelbasierte Ansatz hat einen Nachteil, da er auf festen Teilen basiert. Selbst geringfügige Änderungen in der Formularstruktur können dazu führen, dass Regeln nicht mehr funktionieren.

Halbstrukturierte Dokumente: Diese Dokumente enthalten die gleichen Informationen, sind jedoch an unterschiedlichen Positionen angeordnet. Bedenken Sie zum Beispiel Rechnungen enthält 8-12 identische Felder. In ein paar Rechnungen, befindet sich die Händleradresse oben und in anderen Fällen unten. Typischerweise liefern diese regelbasierten Ansätze keine hohe Genauigkeit; Daher beziehen wir maschinelles Lernen und Deep-Learning-Modelle für die Informationsextraktion mithilfe von OCR ein. Alternativ können wir in einigen Fällen Hybridmodelle verwenden, die sowohl Regeln als auch ML-Modelle umfassen. Einige beliebte vorab trainierte Modelle sind FastRCNN, Attention OCR und Graph Convolutions zur Informationsextraktion in Dokumenten. Allerdings haben diese Modelle auch hier nur wenige Nachteile; Daher messen wir die Leistung des Algorithmus anhand von Metriken wie Genauigkeit oder Konfidenzwert. Da das Modell Muster lernt und nicht nach konkreten Regeln arbeitet, kann es direkt nach Korrekturen zunächst zu Fehlern kommen. Die Lösung für diese Nachteile besteht jedoch darin, dass je mehr Stichproben das ML-Modell verarbeitet, desto mehr Muster lernt es, um die Genauigkeit sicherzustellen.

Unstrukturierte Dokumente: RPA ist heute nicht in der Lage, unstrukturierte Daten direkt zu verwalten, weshalb Roboter zunächst strukturierte Daten mithilfe von OCR extrahieren und erstellen müssen. Im Gegensatz zu strukturierten und halbstrukturierten Dokumenten verfügen unstrukturierte Daten nicht über wenige Schlüssel-Wert-Paare. Zum Beispiel in einigen Rechnungen, sehen wir irgendwo eine Händleradresse ohne Schlüsselnamen; Ebenso beobachten wir dasselbe für andere Felder wie Datum, Rechnungs-ID. Damit ML-Modelle diese korrekt verarbeiten können, müssen die Roboter lernen, geschriebenen Text in verwertbare Daten wie E-Mail, Telefonnummer, Adresse usw. zu übersetzen. Das Modell lernt dann, dass 7- oder 10-stellige Zahlenmuster extrahiert werden sollten B. Telefonnummern und großer Text mit fünfstelligen Codes und verschiedenen Substantiven als Text. Um diese Modelle genauer zu machen, können wir auch Techniken der Verarbeitung natürlicher Sprache (NLP) wie die Erkennung benannter Entitäten und die Worteinbettung verwenden.

Insgesamt ist es für das Verständnis von Dokumenten zunächst wichtig, die Daten zu verstehen und dann OCR mit RPAs zu implementieren. Anstatt einen Prozess Schritt für Schritt abzubilden, können wir einem Roboter beibringen, „so zu tun, wie ich es tue“, indem wir den Prozess wie oben beschrieben mit leistungsstarken OCR-Funktionen aufzeichnen, indem wir Regeln und Algorithmen für maschinelles Lernen integrieren. Der Softwareroboter verfolgt Ihre Klicks und Aktionen auf dem Bildschirm und verwandelt sie dann in einen bearbeitbaren Workflow. Wenn Sie ausschließlich in lokalen Programmen arbeiten, ist das so viel, wie Sie wissen müssen.

OCR-Herausforderungen für RPA-Entwickler

Wir haben gesehen, wie wir OCRR in RPAs für verschiedene Dokumente integrieren können, aber es gibt einige Fälle von Herausforderungen, bei denen die Roboter gut umgehen müssen. Lassen Sie uns sie jetzt diskutieren!

Schwache oder inkonsistente Daten: Daten spielen eine entscheidende Rolle beim Verständnis von Dokumenten. In den meisten Fällen werden die Dokumente mit Kameras gescannt, bei denen die Möglichkeit besteht, dass die Dokumentformatierung beim Scannen von Text verloren geht (dh Fett, Kursiv und Unterstrichen werden nicht immer erkannt). Manchmal extrahiert die OCR Text auf falsche Weise, was zu Rechtschreibfehlern und unregelmäßigen Absatzumbrüchen führt, was die Gesamtleistung von Robotern verringert. Daher ist es wichtig, alle fehlenden Werte zu behandeln und die Daten mit höherer Genauigkeit zu erfassen, um eine höhere Genauigkeit für die OCR zu erzielen.
Falsche Seitenausrichtung in Dokumenten: Seitenorientierung und Schiefe ist auch eines der häufigsten Probleme, die zu einer falschen Textkorrektur der OCR führen. Dies tritt normalerweise auf, wenn die Dokumente während der Datenerfassungsphase falsch gescannt werden. Um dies zu überwinden, müssen wir Robotern einige Funktionen wie automatische Anpassung an die Seite und automatische Filterung deklarieren, damit sie die Qualität des gescannten Dokuments verbessern und bei der Ausgabe korrekte Daten empfangen können.
Integrationsprobleme: Nicht alle RPA-Tools funktionieren in Remotedesktopumgebungen gut - sie verursachen Abstürze und kritische Probleme bei der Automatisierung. Darüber hinaus muss der RPA-Entwickler wissen, welche OCR-Lösung für einen bestimmten Fall die beste ist. Um mit bestimmten Automatisierungstools arbeiten zu können, muss der RPA-Entwickler nur die eingeschränkte OCR-Technologie auswählen, die von Microsoft, Google, erstellt wurde. Daher ist die Integration unserer benutzerdefinierten Algorithmen und Modelle manchmal eine Herausforderung.
Der gesamte Text ist verschlüsselter Text: Für reale Anwendungsfälle wird der von einer generischen OCR erfasste Text vollständig verschlüsselt und enthält keine aussagekräftigen Informationen, mit denen die Bots wichtige Vorgänge ausführen können. RPA-Entwickler benötigen eine starke ML-Unterstützung, um nützliche Anwendungen erstellen zu können.

Pipeline für das Dokument zum Verständnis des Workflows

In den vorherigen Abschnitten haben wir gesehen, wie Bots OCR für verschiedene Arten von Dokumenten durchführen. OCR ist jedoch nur eine Technik, mit der Bilder oder andere Dateien in Text konvertiert werden. In diesem Abschnitt werden wir uns nun vom Beginn des Sammelns von Dokumenten bis zum endgültigen Speichern aussagekräftiger Informationen im gewünschten Format mit dem Workflow zum Dokumentverstehen befassen.

Nehmen Sie das Dokument mit Ihrem Bot aus einem Ordner auf: Dies ist der erste Schritt zum Erreichen des Dokumentenverständnisses durch Bots. Hier rufen wir das Dokument ab, das sich entweder auf einer Cloud-Plattform (mithilfe einer API) oder von einem lokalen Computer befindet. In einigen Fällen, wenn sich unsere Dokumente auf Webseiten befinden, können wir das Scraping von Skripten durch Bots automatisieren, wo sie Dokumente rechtzeitig abrufen können.
Dokumententyp: Nachdem wir die Daten abgerufen haben, ist es wichtig, die Art des Dokuments und das Format zu verstehen, in dem sie in unseren Systemen gespeichert werden, da wir manchmal Daten aus verschiedenen Quellen in verschiedenen Dateiformaten erhalten, z PDF, PNG und JPG. Nicht nur die Dateitypen, manchmal müssen beim Scannen der Dokumente mit Telefonkameras auch einige herausfordernde Probleme wie Bildschiefe, Drehung, Helligkeit oder niedrige Auflösung berücksichtigt werden. Dabei müssen wir sicherstellen, dass Bots diese Dokumente in die Kategorien „strukturiert“, „halbstrukturiert“ oder „unstrukturiert“ klassifizieren und sie so in einem generischen Format speichern. Die Klassifizierungsaufgabe wird durch den Vergleich der Dokumente mit Vorlagen und die Analyse von Merkmalen wie Schriftarten, Sprache, Vorhandensein von Schlüssel-Wert-Paaren, Tabellen usw. erreicht.
Extrahieren der Daten mit OCR: Nun gut, da die Bots unsere Dokumente in einem generischen Format angeordnet und klassifiziert haben, ist es Zeit für uns, sie mithilfe der OCR-Technik zu digitalisieren. Damit haben wir den Text, seine Position in Koordinaten aus den Bildern. Dies hilft, die Dokumente und Daten für die nachfolgenden Schritte zu standardisieren. Wir stoßen auch auf einige, bei denen die OCR-Software Zeichen nicht korrekt unterscheiden konnte, z. B. 't' gegen 'i' oder '0' gegen 'O.' Die Fehler, denen Sie mit der OCR-Software ausweichen möchten, können zu neuen Kopfschmerzen werden, wenn die OCR-Technologie nicht in der Lage ist, die Nuancen eines Dokuments anhand seiner Qualität oder Originalform zu analysieren. Hier kommt maschinelles Lernen ins Spiel, das wir im nächsten Schritt diskutieren werden.
Nutzung von ML / DL für intelligente OCR mithilfe von Bots: Nach der Digitalisierung der Daten sollte die OCR-Software verstehen, mit welcher Art von Dokument sie arbeitet und was relevant ist. Die traditionelle OCR-Software kann jedoch Schwierigkeiten haben, die Bemühungen zur Klassifizierung von Dokumenten zu skalieren. Daher sollten Software-Bots mit kognitiven Fähigkeiten trainiert werden, indem maschinelles Lernen und Deep-Learning-Techniken eingesetzt werden, um die OCRs intelligenter zu machen. ML-basierte OCR-Lösungen können einen Dokumenttyp identifizieren und mit einem bekannten Dokumenttyp abgleichen, der von Ihrem Unternehmen verwendet wird. Sie können auch Textblöcke in unstrukturierten Dokumenten analysieren und verstehen. Sobald die Lösung mehr über das Dokument selbst weiß, kann sie beginnen, relevante Informationen basierend auf Absicht und Bedeutung zu extrahieren.
Bessere Datenextraktion und Klassifizierung: Die Datenextraktion ist der Kern des Dokumentenverständnisses. Wie im vorherigen Abschnitt zur Integration von RPAs in OCR in diesem Schritt erläutert, wählen Sie die Datenextraktionstechnik basierend auf dem Dokumenttyp. Durch RPAs können wir einfach konfigurieren, welcher Extraktor verwendet werden soll, ob eine regelbasierte oder ML-basierte oder eine Hybridmodell-OCR-Technik. Basierend auf den Vertrauens- und Leistungsmetriken, die nach der Informationsextraktion zurückgegeben werden, speichern die Softwareroboter diese zur weiteren Analyse in unserem gewünschten Format. Unten sehen Sie ein Bild davon, wie wir Extraktoren konfigurieren und das Konfidenzniveau in einem RPA-Tool von UIPath festlegen können.

*Auswählen der erforderlichen Extraktoren für das Dokumentverständnis im UI-Pfad*

6. Validierung und Empowerment von Einsichten: OCR- und maschinelle Lernmodelle sind in Bezug auf die Informationsextraktion nicht hundertprozentig genau. Daher kann das Problem durch Hinzufügen einer Schicht menschlicher Eingriffe mithilfe von Robotern gelöst werden. Diese Validierung funktioniert so, dass bei jedem Umgang der Roboter mit geringer Genauigkeit und Ausnahmen sofort eine Benachrichtigung an das Action Center gesendet wird, in der ein Mitarbeiter eine Anforderung zur Validierung von Daten oder zur Behandlung von Ausnahmen erhalten und Unsicherheiten mit nur wenigen Klicks beheben kann. Darüber hinaus können wir das Potenzial der künstlichen Intelligenz nutzen, um Daten im Laufe der Zeit zu dokumentieren, um Vorhersagen zu treffen, und potenzielle Anomalien zu identifizieren, die auf Betrug, Doppelarbeit und andere Fehler hinweisen können.

Vorteile der Integration von Robotern in Document Understanding

Prozess automatisieren: Der Hauptgrund für die Integration von Bots zum Verständnis von Dokumenten ist die Automatisierung des gesamten Prozesses von Anfang bis Ende. Wir müssen lediglich einen Workflow erstellen, damit die Bots lernen, sich zurücklehnen und entspannen können. Während des Validierungsprozesses müssen wir möglicherweise die Probleme beheben, die von den Bots gemeldet werden, wenn Fehler oder Betrug festgestellt werden.
Bots mit maschinellem Lernen: Während des Automatisierungsprozesses können wir die Bots für maschinelles Lernen widerstandsfähig machen. Das heißt, die Roboter können auch lernen, wie Modelle für maschinelles Lernen funktionieren, und dadurch die Modelle verbessern, um eine höhere Genauigkeit und Leistung für die Text- und Informationsextraktion von Dokumenten zu erzielen.
Prozessweite Palette der Dokumentenverarbeitung: Für allgemeine Aufgaben wie das Extrahieren von Tabellen und Informationen müssen wir verschiedene Deep-Learning-Pipelines für verschiedene Dokumenttypen erstellen. Dies führt dazu, dass mehrere Anwendungen erstellt und verschiedene Modelle auf verschiedenen Servern bereitgestellt werden, was viel Aufwand und Zeit erfordert. Wenn die Bots für eine Vielzahl von Dokumenten im Bild sind, können wir nur eine einzige Pipeline haben, in der die Bots sie klassifizieren und dann das entsprechende Modell für verschiedene Aufgaben verwenden können. Wir können auch verschiedene Dienste über APIs integrieren und mit anderen Organisationen kommunizieren, um die Daten abzurufen.
Einfach bereitzustellen: Zum Verständnis der Dokumente nach dem Erstellen der Pipelines dauert der Bereitstellungsprozess nur eine Minute. Wir können APIs entweder nach dem Training von Bots exportieren lassen oder eine benutzerdefinierte RPA-Lösung erstellen, die in unseren lokalen Systemen verwendet werden kann. Diese Art der Bereitstellung kann auch die Unternehmen optimieren und die Ausgaben mit sehr geringen Risiken reduzieren.

Geben Sie Nanonets ein

NanoNets ist eine Plattform für maschinelles Lernen, mit der Benutzer Daten erfassen können Rechnungen, Quittungen und andere Dokumente, ohne dass eine Vorlage eingerichtet werden muss. Wir verfügen über hochmoderne Deep-Learning- und Computer-Vision-Algorithmen, die alle Arten von Dokumentenverständnisaufgaben wie OCR, Tabellenextraktion und Schlüssel-Wert-Paar-Extraktion bewältigen können. Sie werden normalerweise als APIs exportiert oder können basierend auf verschiedenen Anwendungsfällen vor Ort bereitgestellt werden. Hier ein paar Beispiele,

Rechnungsmodell: Identifizieren Sie Schlüsselfelder anhand Rechnungen wie Name des Käufers, Rechnungsnummer, Datum, Betrag usw.
Belegmodell: Identifizieren Sie Schlüsselfelder aus Belegen wie Name, Nummer, Datum, Betrag usw. des Verkäufers.
Führerschein (USA): Identifizieren Sie Schlüsselfelder wie Lizenznummer, Geburtsdatum, Ablaufdatum, Ausstellungsdatum usw.
Lebensläufe: Extrahieren Sie Erfahrung, Ausbildung, Fähigkeiten, Kandidateninformationen usw.

Um diese Arbeitsabläufe schneller und robuster zu gestalten, verwenden wir UiPath, ein RPA-Tool zur nahtlosen Automatisierung Ihrer Dokumente ohne Vorlage. Im nächsten Abschnitt erfahren Sie, wie Sie UiPath Connect mit Nanonets zum Verstehen von Dokumenten verwenden können. Die drei größten Player auf dem RPA-Markt sind UiPath, Automation Anywhere und Blaues Prisma. Dieser Blog konzentriert sich auf Uipath.

NanoNets mit UiPath

In unseren vorherigen Abschnitten haben wir gelernt, eine Pipeline zum Verständnis von Dokumenten zu erstellen. Es erfordert Grundkenntnisse in OCR, RPA und maschinellem Lernen, da es an verschiedenen Stellen unterschiedliche Ansätze und Algorithmen für unterschiedliche Aufgaben gibt. Außerdem müssen wir viel Aufwand betreiben, um neuronale Netze aufzubauen, die unsere Vorlagen verstehen, sie schulen und bereitstellen. Daher arbeiten wir bei Nanonets an Ui Path, um eine nahtlose Pipeline für das Dokumentverständnis zu erstellen, damit Sie sich wohlfühlen und alles automatisieren können, vom Hochladen, Klassifizieren, Erstellen von OCR und Integrieren von ML-Modellen. Unten sehen Sie ein Bild davon, wie dies funktioniert.

Lassen Sie uns nun jedes dieser Elemente überprüfen und erfahren, wie wir Nanonets in UiPath integrieren können.

Schritt 1: Melden Sie sich bei UiPath an und laden Sie UiPath Studio herunter

Um einen Workflow zu erstellen, müssen wir zunächst ein Konto in UiPath erstellen. Wenn Sie bereits Benutzer sind, können Sie sich direkt bei Ihrem Konto anmelden und Ihr UiPath-Dashboard umleiten. Als nächstes müssen Sie das kostenlose UiPath Studio (Community Edition) herunterladen und installieren.

Schritt 2: Laden Sie die Nanonets-Komponente herunter

Als nächstes richten Sie Ihre ein Rechnungsverarbeitungs-Pipelinemüssen Sie den Nanonets Connector über den folgenden Link herunterladen.

-> NanoNets OCR - RPA-Komponente

Unten finden Sie einen Screenshot des UiPath-Marktplatzes und der Nanonets-Komponente. Um dies herunterzuladen, stellen Sie außerdem sicher, dass Sie sich von einem Windows-Betriebssystem bei UiPath angemeldet haben.

Ihre heruntergeladenen Dateien sollten die unten aufgeführten Dateien enthalten.

UiPath OCR Predict ├── Main.xaml
└── project.json

Schritt 3: Öffnen Sie die Nanonets-Komponente der Datei Main.xaml

Um zu überprüfen, ob der Nanonets UiPath funktioniert oder nicht, können Sie Ihre Main.xml-Datei über die heruntergeladene Nanonets-Komponente mit Ui Path Studio öffnen. Dann können Sie sehen, dass Ihre Pipeline bereits für Sie zur Dokumentverarbeitung erstellt wurde.

Schritt 4: Sammeln Sie Ihre Modell-ID, Ihren API-Schlüssel und Ihren API-Endpunkt in der Nanonets-App

Als Nächstes können Sie jedes der trainierten OCR-Modelle von Nanonets APP verwenden und die Modell-ID, den API-Schlüssel und den Endpunkt erfassen. Im Folgenden finden Sie weitere Details, damit Sie sie schnell finden können.

Modell-ID: Melden Sie sich bei Ihrem Nanonets-Konto an und navigieren Sie zu "Meine Modelle". Sie können ein neues Modell trainieren oder die Anwendungs-ID eines vorhandenen Modells kopieren.

API-Endpunkt: Sie können ein beliebiges vorhandenes Modell auswählen und auf Integrieren klicken, um Ihren API-Endpunkt zu finden. Unten finden Sie ein Beispiel dafür, wie Ihre Endpunkte aussehen.

https://app.nanonets.com/api/v2/OCR/Model/XXXXXXX-4840-4c27-8940-d3add200779e/LabelUrls/

3. API-Schlüssel: Navigieren Sie zur Registerkarte API-Schlüssel, und Sie können jeden vorhandenen API-Schlüssel kopieren oder einen neuen erstellen.

Schritt 5: Fügen Sie eine HTTP-Anforderung hinzu, um Ihre Methode und Variablen zum UI-Pfad abzurufen

Um Ihr Modell von Nanonets in den UI-Pfad zu integrieren, klicken Sie zunächst auf HTTP-Anforderung und fügen den Endpunkt hinzu, den Sie in der linken Navigation im Abschnitt Eingabe finden. Unten ist ein Screenshot.

Fügen Sie später alle Ihre Variablen hinzu, um eine Verbindung von Ihrem UiPath-Studio zur Nanonets-API herzustellen. Sie finden diesen Abschnitt im unteren Bereich auf der Registerkarte "Variablen". Unten sehen Sie den Screenshot. Hier müssen Sie Ihren API-Schlüssel, Ihren Endpunkt und die Modell-ID Ihres Modells aktualisieren / kopieren.

Schritt 6: Dateispeicherort für Vorhersagen hinzufügen

Zuletzt können Sie Ihren Dateispeicherort auf der Registerkarte Attribute hinzufügen, wie im folgenden Screenshot gezeigt, und auf die Wiedergabetaste in Ihrer oberen Navigation klicken, um Ihre Ausgaben vorherzusagen.

Voila! Hier sind unsere Ausgaben für das Dokument, das wir im folgenden Screenshot angefordert haben. Um mehr zu verarbeiten, können Sie einfach Ihre Dateispeicherorte hinzufügen und auf die Schaltfläche Ausführen klicken.

Schritt 7 - Ausgabe in CSV / ERP übertragen

Um unsere Ausgabe an Ihr gewünschtes Format anzupassen, können wir Ihrer Pipeline in der Datei Main.XML neue Blöcke hinzufügen. Wir können dies auch über Offlinedateien oder API-Aufrufe in alle vorhandenen ERP-Systeme übertragen.