Menüdigitalisierung mit OCR und Deep Learning

Neuauflage von Plato

Verfolger: 0

Einleitung

In diesem Artikel erfahren Sie, wie diese Unternehmen verschiedene Verfahren wie die Digitalisierung von Speisekarten automatisieren können in rechnung stellen Verarbeitung, die traditionell manuell durchgeführt wird, um Zeit und Betriebskosten zu sparen.

Wir hatten alle Momente, in denen wir uns plötzlich nach einem guten Dessert sehnen. Vor ein paar Jahren wäre es eine Unannehmlichkeit gewesen, diese große Wanne Eis nach einem langen Arbeitstag zu bekommen. Aber Apps für die Zustellung von Lebensmitteln können es blitzschnell zu Ihnen bringen. Angesichts der Tatsache, dass Unternehmen wie DoorDash, DeliveryHero, GrubHub, FoodPanda, Swiggy, Zomato und Uber Eats um einen größeren Marktanteil auf dem Markt für Lebensmittellieferungen konkurrieren, ist die Einführung von Technologien, die Unternehmen bei der Skalierung ihrer Geschäftstätigkeit unterstützen, zu einer Notwendigkeit geworden, um relevant zu bleiben.

Analyse von Digitalisierungsworkflows

Die Digitalisierung hat sich geändert wie Restaurants oder Lieferservices funktionieren. Auf dem Markt für Lebensmittellieferungen hat die Digitalisierung diesen Unternehmen geholfen, ihre Onboarding-Prozesse effizienter und genauer zu gestalten. Restaurants verwenden unter anderem digitale Menüs, interaktive Tischplatten, Tablets auf dem Tisch und Augmented-Reality-Menüs Ja -

[Eingebetteten Inhalt]

Traditionell wurde dieser Prozess meist manuell oder mit Hilfe einer OCR-Software durchgeführt. Oft ist dieser Prozess nicht sehr genau, sodass der Mensch die Ergebnisse in mehreren Phasen der Pipeline mehrmals überprüfen muss.

So würde ein Workflow zur Digitalisierung von Menüs normalerweise aussehen:

Bilder des Menüs werden aufgenommen
Die Bilder des Menüs werden zusammen mit Angaben wie Name, Kontakt, Adresse usw. des Restaurants an den Lieferservice gesendet.
Die übermittelten Daten werden überprüft und das Menü zur Digitalisierung und Eingabe gesendet.
Die Lebensmittel, ihre Kosten, Zutaten, Beschreibungen usw. werden aus den Bildern extrahiert und manuell in eine Dateneingabesoftware eingegeben.
Diese Einträge werden manuell überprüft und die Fehler werden korrigiert, bevor alles endgültig in die Datenbank übertragen wird.

Der oben erwähnte Workflow wird durch Workflows ersetzt, die OCR enthalten, um die Dateneingabe zu reduzieren und die OCR-Ergebnisse durch mehrere manuelle Überprüfungen auf minimale Fehler auszuführen. Dieser Prozess ist jedoch alles andere als perfekt. Ein effizienterer Prozess kann entwickelt werden, um den Zeitaufwand, den manuellen Arbeitsaufwand und die Kosten dafür zu reduzieren. Im nächsten Abschnitt erfahren Sie, wie ein moderner Workflow aussieht und was besser gemacht werden kann.

Nanonetze OCR-API hat viele interessante Anwendungsfälle. Sprechen Sie mit einem Nanonets-KI-Experten, um mehr zu erfahren.

Wie es gemacht werden soll

Der Prozess der manuellen Dateneingabe und -prüfung liegt in der Vergangenheit. Diese Prozesse wurden durch schnellere Workflows ersetzt, die durch die Digitalisierung unterstützt werden. So würde ein moderner Workflow für die Digitalisierung von Menükarten aussehen:

Bilder des Menüs werden aufgenommen
Die Bilder werden verarbeitet, auf Ausrichtung, Unschärfe, Rauschen usw. korrigiert. Wenn die Bildqualität niedrig ist, wird der Anbieter über die schlechte Qualität informiert und aufgefordert, die Bilder erneut hochzuladen.
Sobald die Bilder vorverarbeitet sind, werden sie über eine OCR-Software gesendet und der Text aus den Bildern extrahiert.
Der extrahierte Text wird bereinigt, in eine Struktur eingefügt und automatisch in eine Dateneingabesoftware eingegeben (vorlagenbasiert oder nicht vorlagenbasiert).
Die eingegebenen Daten werden schließlich von manuellen Gutachtern auf Fehler überprüft.

Diese Art von automatisiertem Workflow war mit unseren herkömmlichen OCR-Methoden aufgrund der mangelnden Genauigkeit dieser Methoden, ihrer Fehleranfälligkeit in extremen Fällen und der hohen Variabilität in der Struktur verschiedener Menükarten nicht möglich. Mit lernunterstützten OCR-Lösungen können wir jedoch auf OCR-Lösungen verzichten, die auf Regeln oder Vorlagen basieren und nicht nur die Texterkennung, sondern auch die Informationsextraktion automatisieren können.

Stellen Sie sich vor, ein Anbieter hat Bilder der Menükarte zusammen mit einigen zusätzlichen Details und dem Prozess des Findens der Namen der verkauften Artikel hochgeladen, deren Preise, Beschreibungen und Kategorien automatisch extrahiert und in eine Tabelle aufgenommen. Sie benötigen lediglich einen Prüfer am Ende dieser Schleife, der nach Fehlern im OCR-Text sucht, die gefundenen Fehler korrigiert und in die Datenbank überträgt. Ihre Lebensmittel-Lieferservices können höhere Onboarding-Raten mit weniger Fehlern erzielen, die Ausgaben für die Einstellung manueller Prüfer und Mitarbeiter für die Dateneingabe reduzieren und die Kundenzufriedenheit erhöhen.

Herausforderungen bei der Umsetzung

Das aktuelle OCR-Technologie Die Verfügbarkeit von Open Source-Tools oder handelsüblichen Produkten ist nicht genau genug, um diesen Prozess vollständig zu automatisieren. Dies ist auf mehrere Faktoren zurückzuführen:

Zu viele verschiedene Vorlagen von Menüs
Für ein Modell, das Text sowie die Struktur und Felder des Menüs wie Kategorien, Gerichte, Beschreibungen, Preise usw. extrahieren kann, sind nicht vorlagenbasierte Lösungen erforderlich.
Ausrichtung des Menüs in Bildern
Das Modell muss trainiert werden Augmented Bilder in unterschiedlichen Ausrichtungen oder die Originalbilder müssen sein verwandelt effektiv, um die Modellleistung nicht zu beeinträchtigen.
Mehrere Sprachen in einem Menü
Um ein verallgemeinertes Modell für mehrere Sprachen zu erstellen, sind entweder viele Daten oder separate Modelle erforderlich, die zusammenarbeiten, um die Sprache zu identifizieren und dann das entsprechende Modell für die OCR anzuwenden.
Mehrere Schriftarten und Schriftgrößen in einem Menü
Ein Modell kann auf eine völlig neue und schwer lesbare Schriftart stoßen. Dies erfordert, dass wir unsere Modelle regelmäßig mit neuen Daten neu trainieren, um unsere Modelle im Laufe der Zeit kontinuierlich zu verbessern.
Zeichengenauigkeit vs. Sequenzgenauigkeit
Ein Abfall der Sequenzgenauigkeit aufgrund einer mittelmäßigen Zeichengenauigkeit kann durch Koppeln von Faltungsschichten mit behoben werden wiederkehrende Schichten und Aufmerksamkeitsmechanismen.
Rauschen oder Unschärfe in den Menübildern
Rauschen und Unschärfe in Bildern führen zu schlechter Genauigkeit und Rauschen. Die Entfernung von Unschärfe und die Superauflösung von Bildern werden zu notwendigen Schritten bei der Vorverarbeitung von Bildern.
Schwierigkeiten, angemessene Trainingsdaten zu finden
Daten, die unterschiedliche Vorlagen, Schriftarten, Schriftgrößen, Auflösungen, Sprachen, Rauschen, Licht- und Unschärfebedingungen darstellen, können nicht in einem oder mehreren Open-Source-Datensätzen gefunden werden.
Mangel an Tools und Services, die eine einfache Erstellung von benutzerdefinierten Modellen ermöglichen
Bei vielen Open Source- oder kostenpflichtigen Diensten können Benutzer ihre Modelle nicht auf benutzerdefinierten Daten aufbauen. Dies schränkt die Anwendungsfälle ein, in denen die OCR-Technologie angewendet werden kann.

Die Lösung herauskreiden

Wie Sie oben gesehen haben, bringt der Aufbau eines Workflows, der in großem Maßstab effizient funktionieren kann, eine lange Liste von Herausforderungen mit sich. Um die Lösung zu finden, müssen wir verschiedene Bereiche von OCR, Deep Learning und Computer Vision auf unser Problem der Menüdigitalisierung anwenden.

Das Problem verstehen

Wir haben gesehen, wo unsere Software in Bezug auf einige technische Herausforderungen, mit denen sich Ihre Deep-Learning-Ingenieure befassen müssen, zu kurz kommen kann. Der Versuch, diese Herausforderungen in eine allgemeinere Pipeline für die Digitalisierung von Menüs zu stellen, sollte uns dabei helfen, herauszufinden, welche Teile der aktuellen Technologie verbessert, welche entfernt und welche hinzugefügt werden müssen.

Ein Menü-Digitalisierungs-Workflow würde folgendermaßen aussehen:

Bildvorverarbeitung - Herausforderungen in Bezug auf Bildqualität, Ausrichtung, Rauschen, Unschärfe und Vielfalt der Hintergründe.
OCR - Herausforderungen im Zusammenhang mit der Zeichenerkennung wie Schriftarten, Schriftgrößen, Sprachen, Trainingsdaten und Sequenzgenauigkeit.
Informationsextraktion - Hier betrachten Sie Vorlagen im Vergleich zu nicht vorlagenbasierten Lösungen und Tabellenextraktion.
Informationsüberprüfung - Sobald die Informationen extrahiert und in die erforderliche Struktur gebracht wurden, veranlassen wir unsere Prüfer, Fehler zu korrigieren oder fehlende Informationen einzugeben.

Die Technik verstehen

Die Bewältigung dieser Herausforderungen sowohl auf technischer als auch auf Produktebene kann mithilfe des Standes der Technik im Bereich OCR und Digitalisierung erfolgen.

Bildvorverarbeitung - Um gute OCR-Ergebnisse zu erzielen, ist es wichtig, dass Ihre Bilder ordnungsgemäß verarbeitet werden. Eine Übersicht über die Herausforderungen und die dafür verfügbaren Open-Source-Tools finden Sie hier hier. Es gibt mehrere Dinge, auf die man achten muss, wenn man dies versucht -
- Skalieren von Bildern auf die richtige Größe
- Kontrast erhöhen
- Binärisierung des Bildes
- Entfernen von Rauschen und Scannen von Artefakten
- Deskew das Bild
OCR - Der Übergang von traditionellen OCR-Methoden zu Deep-Learning-basierten Methoden kann dazu beitragen, die Genauigkeit unseres extrahierten Textes zu erhöhen. Die Verwendung von Deep-Learning-basierten Methoden kann uns auch dabei helfen, die Struktur automatisch zu lernen. Die von OCR-Tools angebotenen Dienste sind in ihrer Verwendung begrenzt, da sie keine benutzerdefinierten Modelle erstellen können und unsere Flexibilität hinsichtlich der Vorlage unserer OCR-Ergebnisse einschränken. Es gibt verschiedene Deep-Learning-Methoden, die auf das Problem angewendet wurden und bei verschiedenen Datensätzen unterschiedlich ausgeführt wurden.
Für OCR stehen mehrere Open-Source-Tools zur Verfügung Tesseract, KrakenOCR und Achtung OCR. Ein Tutorial zum Erstellen eines Modells mit Attention OCR finden Sie hier hier und eine mit Tesseract und OpenCV kann gefunden werden hier und hier. Welche Art von Daten Sie am Ende verarbeiten werden, entscheidet darüber, mit welcher Art von Bildern Sie arbeiten, in welcher Sprache die Menüs sind, welche Schriftarten usw. Die Leistung verschiedener vorab trainierter Modelle variiert entsprechend. Sie müssen auch Feinabstimmung diese Modelle, damit es für Ihren Anwendungsfall funktioniert.
Informationsextraktion - Der Prozess der Informationsextraktion kann sein vorlagenbasiert oder nicht vorlagenbasiert. Eine vorlagenbasierte Lösung kann nicht für die Digitalisierung von Menüs verwendet werden, da Ihre Daten eine Vielzahl von Menüdesigns enthalten und es nicht praktisch ist, für jeden Anbieter, mit dem Sie arbeiten, eine andere Vorlage zu erstellen. Eine nicht vorlagenbasierte Lösung ist erforderlich, um Modelle in großem Maßstab bereitzustellen. Dies erfordert sorgfältig entworfene Modelle für maschinelles Lernen, die auf vielen verschiedenen Daten trainiert werden. Es erfordert, dass wir Deep-Learning-Methoden wie Tabellenextraktion und anwenden Graph Faltungsnetzwerke die auf einer Vielzahl von Daten trainiert werden, die so viele Bereiche wie möglich abdecken.
Informationsüberprüfung - Durch die Automatisierung der obigen Schritte mit OCR- und nicht vorlagenbasierten Lösungen ist dieser letzte Schritt der einzige Ort, an dem menschliches Eingreifen erforderlich ist. EIN Mensch in der Schleife kann alle extrahierten Informationen überprüfen, die Fehler korrigieren und fehlende Daten eingeben. Das Umschulungsmodell für korrigierte Daten kann die Modellverzerrung verringern und die Genauigkeit im Laufe der Zeit erhöhen. Abhängig vom Anwendungsfall können Sie auch das Schwellenwertvertrauen auswählen, um Vorhersagen zur Überprüfung bereitzustellen.

Geben Sie Nanonets ein

Mit der Nanonetze Sie müssen sich nicht darum kümmern, Talente für maschinelles Lernen zu finden, Modelle zu erstellen, die Cloud-Infrastruktur oder die Bereitstellung zu verstehen. Wenn Sie ein Problem mit der Digitalisierung von Menüs haben, das gelöst werden muss, kann NanoNets eine End-to-End-Lösung bereitstellen, die alle oben genannten Probleme löst und einen reibungslosen und zuverlässigen automatisierten Workflow für den Prozess liefert.

Einfach zu bedienende webbasierte Benutzeroberfläche

Nanonets bietet eine benutzerfreundliche webbasierte Benutzeroberfläche, die mit ihrer API kommuniziert und es Ihnen ermöglicht, Modelle zu erstellen, sie auf Ihre Daten zu trainieren, wichtige Metriken wie Präzision und Genauigkeit zu erhalten und Rückschlüsse auf Ihre Bilder zu ziehen, ohne Code schreiben zu müssen.

In der Cloud gehostete Modelle

Neben der Bereitstellung mehrerer Modelle, die sofort verwendet werden können, um Lösungen zu erhalten, können Benutzer ihre Modelle erstellen, die in der Cloud gehostet werden und auf die zu Inferenzzwecken mit einer API-Anforderung zugegriffen werden kann. Sie müssen sich keine Sorgen machen, ob Sie eine GCP-Instanz oder GPUs für das Training erhalten.

Algorithmen auf dem neuesten Stand der Technik

Die gebauten Modelle verwenden modernste Algorithmen, um die besten Ergebnisse zu erzielen. Diese Modelle werden ständig weiterentwickelt, um mit immer besseren Daten und besserer Technologie, besserem Architekturdesign und robusteren Hyperparametereinstellungen besser zu werden.

Die größte Herausforderung beim Aufbau eines in rechnung stellen Ein Digitalisierungsprodukt besteht darin, dem extrahierten Text Struktur zu verleihen. Dies wird durch unsere OCR-API erleichtert, die automatisch alle erforderlichen Felder mit den Werten extrahiert und sie in eine Tabelle oder ein JSON-Format einfügt, sodass Sie problemlos darauf zugreifen und darauf aufbauen können.

Automatisierungsgetrieben

Wir bei Nanonets glauben, dass die Automatisierung von Prozessen wie in rechnung stellen Die Digitalisierung kann in Bezug auf finanzielle Vorteile, Kundenzufriedenheit und Mitarbeiterzufriedenheit enorme Auswirkungen auf Ihr Unternehmen haben. Nanonets ist bestrebt, maschinelles Lernen allgegenwärtig zu machen. Zu diesem Zweck bleibt es unser Ziel, jedes von Ihnen gelöste Geschäftsproblem so zu gestalten, dass in Zukunft nur minimale menschliche Aufsicht und Budgets erforderlich sind.

OCR mit Nanonets

Das Nanonets OCR-API Mit dieser Funktion können Sie problemlos OCR-Modelle erstellen. Sie können Ihre Daten hochladen, mit Anmerkungen versehen, das Modell auf Training einstellen und warten, bis Vorhersagen über eine browserbasierte Benutzeroberfläche abgerufen werden, ohne eine einzige Codezeile zu schreiben, sich um GPUs zu kümmern oder die richtigen Architekturen für Ihre Deep-Learning-Modelle zu finden.

Digitalisierung in 15 Minuten

Sie können Ihre eigenen Daten hochladen und ein Modell trainieren, die JSON-Antworten jeder Vorhersage erfassen, um sie in Ihre eigenen Systeme zu integrieren, und Apps für maschinelles Lernen erstellen, die auf modernsten Algorithmen und einer starken Infrastruktur basieren.

Hier ist eine Demo zur Digitalisierung von ID-Karten, um Ihnen eine Idee zu geben:

Verwenden der GUI: https://app.nanonets.com/

Sie können die Nanonets-OCR-API auch verwenden, indem Sie die folgenden Schritte ausführen: ‌

Schritt 1: Klonen Sie das Repo, installieren Sie Abhängigkeiten (Repo-Link)

git clone https://github.com/NanoNets/nanonets-id-card-digitization.git
cd nanonets-id-card-digitization
sudo pip install nanonets

Schritt 2: Holen Sie sich Ihren kostenlosen API-Schlüssel
Holen Sie sich Ihren kostenlosen API-Schlüssel von http://app.nanonets.com/#/keys

Schritt 3: Legen Sie den API-Schlüssel als Umgebungsvariable fest

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

Schritt 4: Laden Sie Bilder für das Training hoch
Die Trainingsdaten finden Sie in images (Bilddateien) und annotations (Anmerkungen zu den Bilddateien)

python ./code/training.py

Hinweis: Dadurch wird eine MODEL_ID generiert, die Sie für den nächsten Schritt benötigen

Schritt 5: Modell-ID als Umgebungsvariable hinzufügen

export NANONETS_MODEL_ID=YOUR_MODEL_ID

Hinweis: Sie erhalten YOUR_MODEL_ID aus dem vorherigen Schritt

Schritt 6: Laden Sie die Trainingsdaten hoch

python ./code/training.py

Schritt 7: Modellstatus abrufen
Das Modell benötigt ca. 2 Stunden zum Trainieren. Sie erhalten eine E-Mail, sobald das Modell trainiert ist. In der Zwischenzeit überprüfen Sie den Zustand des Modells

python ./code/model-state.py

Schritt 8: Vorhersage machen
Sobald das Modell trainiert ist. Mit dem Modell können Sie Vorhersagen treffen

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

Nanonette und Menschen auf dem Laufenden

‌‌Der Bildschirm "Moderat" unterstützt die Korrektur- und Eingabevorgänge und reduziert die Arbeitsbelastung des manuellen Prüfers um fast 90% und die Kosten für das Unternehmen um 50%.

Eigenschaften umfassen

Verfolgen Sie die richtigen Vorhersagen
Verfolgen Sie, welche falsch sind
Nehmen Sie Korrekturen an den ungenauen vor
Löschen Sie diejenigen, die falsch sind
Füllen Sie die fehlenden Vorhersagen aus
Filtern Sie Bilder mit Datumsbereichen
Holen Sie sich die Anzahl der moderierten Bilder gegen die nicht moderierten

Alle Felder sind in einer benutzerfreundlichen Benutzeroberfläche strukturiert, die es dem Benutzer ermöglicht, die OCR-Technologie zu nutzen und sie im Laufe der Zeit zu verbessern, ohne Code eingeben oder die Funktionsweise der Technologie verstehen zu müssen.

Weiterführende Literatur

Update:‌
‌ Weiteres Lesematerial zur Digitalisierung von Speisekarten in der Gastronomie hinzugefügt

Vielleicht interessieren Sie sich auch für unsere neuesten Beiträge zu:

Starten Sie die Verwendung von Nanonets für die Automatisierung

Probieren Sie das Modell aus oder fordern Sie noch heute eine Demo an!

VERSUCHE ES JETZT

Quelle: https://nanonets.com/blog/menu-digitization-ocr-deep-learning/

Zeitstempel: 8. April 2021

Zeitstempel: 9. März 2021

Neuauflage von Plato

So machen Sie die Handschrifterkennung einfach mit Deep Learning

Beste OCR-Software von 2021

So extrahieren Sie Text aus Bild- und PDF-Dateien

So extrahieren Sie einfach Daten aus Gehaltsabrechnungen mithilfe von Deep Learning

So extrahieren Sie Tabellen aus PDF

So extrahieren Sie mithilfe von Deep Learning Schlüssel-Wert-Paare aus Dokumenten

Datenerweiterung | Verwendung von Deep Learning bei begrenzten Datenmengen - Teil 2

So verstehen Sie spanische Rechnungen

OCR-Lebensläufe mit intelligenter Automatisierung

So extrahieren Sie Daten aus PDF-Dokumenten

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto