Menu Digitization With OCR And Deep Learning

Újra kiadta Platón

Követő: 0

Bevezetés

This article will take you through how these companies can automate several procedures like menu digitization or számla processing that are traditionally done manually to save time and operational costs.

Mindannyiunknak voltak olyan pillanatai, amikor hirtelen egy jó desszertre vágyunk. Néhány évvel ezelőtt kényelmetlenséget okozott volna beszerezni azt a nagy kád fagylaltot egy hosszú munkanap után. De az ételszállító alkalmazások villámgyorsan eljuttatják Önhöz. Az olyan cégek, mint a DoorDash, a DeliveryHero, a GrubHub, a FoodPanda, a Swiggy, a Zomato és az Uber Eats versenyeznek a nagyobb piaci részesedésért az élelmiszer-kiszállítási piacon, olyan technológia alkalmazása, amely segíti a vállalatokat a tevékenységük bővítésében, elengedhetetlenné vált, hogy relevánsak maradjanak.

A digitalizálási munkafolyamatok elemzése

A digitalizálás megváltozott hogyan működnek az éttermek vagy az ételszállítási szolgáltatások. Az élelmiszer-kiszállítási piacon a digitalizáció segített ezeknek a vállalatoknak abban, hogy nagyobb pontossággal hatékonyabbá tegyék belépési folyamataikat. Az éttermek digitális menüket, interaktív asztallapokat, asztali táblagépeket és kibővített valóság menüket használnak, többek között olyan újításokat, mint ezek a srácok Yeppar -

[Beágyazott tartalmat]

Hagyományosan ez a folyamat többnyire manuálisan vagy valamilyen OCR szoftver segítségével történt. Ez a folyamat gyakran nem túl pontos, ezért az embereknek többször át kell nézniük a kimeneteket a folyamat több szakaszában.

A menü digitalizálási munkafolyamata általában így néz ki –

Képek készülnek a menüről
Az étlap képeit az említett házhozszállítási szolgálathoz továbbítják, olyan részletekkel együtt, mint az étterem neve, elérhetősége, címe stb.
A beküldött adatok ellenőrzése megtörténik, a menü elküldésre kerül digitalizálásra és bevitelre.
A képekből kinyerjük az élelmiszereket, azok költségeit, összetevőit, leírását stb., és manuálisan beírjuk egy adatbeviteli szoftverbe.
Ezeket a bejegyzéseket manuálisan felülvizsgálják, és a hibákat kijavítják, mielőtt végül az adatbázisba kerülnének.

The above mentioned workflow is getting replaced with workflows that incorporate OCR to reduce the data entry work and run the OCR results through multiple manual reviews for minimal errors, but this process is far from perfect. A more efficient process can be designed to reduce time taken, manual labor expended and costs of getting this done. The next section will run you through what a modern workflow looks like and what can be done better.

Nanonetek OCR API sok érdekességgel rendelkezik használati esetek. További információért beszéljen egy Nanonets AI-szakértővel.

Hogyan kellene csinálni

A kézi adatbevitel és -ellenőrzés folyamata a múlté. Ezeket a folyamatokat felváltották a gyorsabb munkafolyamatok, amelyeket a digitalizálás segít. Így nézne ki a menükártya-digitalizálás modern munkafolyamata –

Képek készülnek a menüről
A képeket feldolgozzák, kijavítják a tájolást, az elmosódást, a zajt stb.. Ha a kép minősége alacsony, a szállítót értesítik a rossz minőségről, és felkérik a képek újbóli feltöltésére.
A képek előfeldolgozása után egy OCR-szoftveren keresztül elküldik őket, és a szöveget kivonják a képekből.
A kivont szöveget megtisztítják, struktúrába helyezik és egy adatbeviteli szoftverbe automatikusan (sablon alapú vagy nem sablon alapú) írják be.
A bevitt adatokat végül kézi felülvizsgálók ellenőrzik, hogy vannak-e hibák.

Ez a fajta automatizált munkafolyamat hagyományos OCR-módszereinkkel nem volt lehetséges, mivel ezek a módszerek nem pontosak, szélsőséges esetekben érzékenyek a meghibásodásokra, valamint a különböző menükártyák szerkezetének nagy változatossága miatt. De a mély tanulást segítő OCR-megoldásokkal megszüntethetjük azokat az OCR-megoldásokat, amelyek szabály- vagy sablonalapúak, és nem csak a szövegfelismerést, hanem az információkinyerést is automatizálhatják.

Képzelje el, ha egy eladó feltöltötte a menükártya képeit, néhány további részlettel és az eladott termékek nevének megtalálásának folyamatával, az árakkal, a leírásukkal és a kategóriákkal automatikusan kivonatolva és táblázatba helyezve. Csak egy ellenőrre van szüksége a ciklus végén, aki hibákat keres az OCR-szövegben, kijavítja a találtakat, és továbbítja az adatbázisba. Élelmiszer-kiszállítási szolgáltatásai magasabb beszállási arányt érhetnek el kevesebb hibával, csökkenthetik a kézi felülvizsgálók és adatbevitelhez szükséges személyek felvételére fordított pénzt, valamint növelhetik az ügyfelek elégedettségét.

Kihívások a megvalósításban

A jelenlegi OCR technológia A nyílt forráskódú eszközökön vagy a kereskedelmi forgalomban kapható termékeken keresztül rendelkezésünkre álló adatok nem érnek el elég nagy pontosságot ahhoz, hogy teljesen automatizálják ezt a folyamatot. Ez több tényezőnek köszönhető:

Túl sok különböző menüsablon
Egy olyan modell megléte, amely képes kivonatolni a szöveget, valamint az étlap szerkezetét és mezőit, például kategóriákat, ételeket, leírásokat, árakat stb., nem sablon alapú megoldásokat igényel.
A menü tájolása képekben
A modellt betanítani kell bővített különböző tájolású képeknek vagy az eredeti képeknek kell lenniük át hatékonyan, hogy ne rontsa a modell teljesítményét.
Több nyelv egy menüben
Egy általánosított modell több nyelvre való elkészítéséhez vagy sok adatra van szükség, vagy külön modellekre van szükség, amelyek együtt dolgoznak a nyelv azonosítására, majd a megfelelő modell alkalmazására az OCR-hez.
Több betűtípus és betűméret egy menüben
Egy modell teljesen új és nehezen olvasható betűtípussal találkozhat. Ez megköveteli, hogy modelljeinket időszakonként új adatokkal képezzük át, hogy idővel folyamatosan fejleszthessük modelljeinket.
Karakterpontosság vs sorozatpontosság
A közepes karakterpontosság miatti szekvenciapontosság-csökkenés orvosolható a konvolúciós rétegek összekapcsolásával visszatérő rétegek és a figyelemmechanizmusok.
Zaj vagy elmosódás a menüképeken
A képeken lévő zaj és elmosódás rossz pontossághoz és zajhoz vezet, az elmosódás eltávolítása és a képek szuperfelbontása a képek előfeldolgozásának szükséges lépéseivé válnak.
Nehézségek a megfelelő edzési adatok megtalálásában
A különböző sablonokat, betűtípusokat, betűméreteket, felbontásokat, nyelveket, zajt, világítást és elmosódást jelentő adatok nem találhatók egyetlen vagy néhány nyílt forráskódú adatkészletben.
Az egyszerű egyedi modellkészítést lehetővé tevő eszközök és szolgáltatások hiánya
Sok nyílt forráskódú vagy fizetős szolgáltatás nem teszi lehetővé a felhasználók számára, hogy egyedi adatokra építsék fel modelleiket. Ez korlátozza azokat az eseteket, amikor az OCR technológia alkalmazható.

A megoldás krétával

As you saw above, building a workflow that can work efficiently at scale comes with a long list of challenges and finding the solution requires us to apply several areas of OCR, deep learning and computer vision to our problem of menu digitization.

A probléma megértése

Láttuk, hogy szoftverünk hol marad el néhány technikai kihívás tekintetében, amelyekkel a mélytanulási mérnököknek meg kell küzdeniük. Ha megpróbáljuk ezeket a kihívásokat a menüdigitalizálás általánosabb folyamatába helyezni, az segíteni fog abban, hogy meghatározzuk, a jelenlegi technológia mely részeit kell fejleszteni, melyeket kell eltávolítani, és mit kell hozzáadni.

A menü digitalizálási munkafolyamata így nézne ki:

Kép előfeldolgozás – a képek minőségével, a tájolással, a zajjal, az elmosódással és a hátterek változatosságával kapcsolatos kihívások.
OCR – a karakterfelismeréssel kapcsolatos kihívások, mint például a betűtípusok, a betűméretek, a nyelvek, a betanítási adatok és a sorrend pontossága.
Információ kinyerése – itt a sablon vs. nem sablon alapú megoldásokat és táblakivonást veszi figyelembe.
Információk áttekintése – az információk kinyerése és a szükséges struktúrába történő beillesztése után a lektoraink kijavítsák a hibákat vagy pótolják a hiányzó információkat.

A technika megértése

Ezeket a kihívásokat technikai és termékszinten is meg lehet oldani az OCR és a digitalizálás területén a legkorszerűbb megoldások felhasználásával.

Kép előfeldolgozás – A jó OCR-eredmények eléréséhez fontos, hogy a képeket megfelelően dolgozzák fel. A kihívások és az ehhez rendelkezésre álló nyílt forráskódú eszközök áttekintése megtalálható itt. Számos dologra kell ügyelnie, amikor ezt próbálja megtenni –
- a képeket a megfelelő méretre méretezi
- Kontraszt növelése
- a kép binarizálása
- a zaj eltávolítása és a műtermékek szkennelése
- torzítja a képet
OCR – moving from traditional OCR methods to deep learning based methods can help increase accuracy of our extracted text. Using deep learning based methods can also help us automatically learn the structure. Services offered by OCR tools are limited in their usage as they do not allow building custom models and limit our flexibility with respect to templating our OCR results as well. There are several deep learning methods that have been applied to the problem and have performed differently on different datasets.
Several open source tools are available for OCR like Tesseract, KrakenOCRés Figyelem OCR. Megtalálható egy oktatóanyag a Modell Attention OCR használatával történő felépítéséről itt és egy Tesseract és OpenCV-t használó található itt és a itt. Az, hogy végül milyen adatokkal fog foglalkozni, dönti el, hogy milyen képekkel, milyen nyelven vannak a menük, milyen betűtípusok stb.. A különböző előre betanított modellek teljesítménye ennek megfelelően változik. Neked is kell finomhangolás ezeket a modelleket, hogy megfeleljen az Ön használatának.
Információ kinyerése – az információkinyerés folyamata lehet sablon alapú vagy nem sablon alapú. A sablon alapú megoldás nem használható menüdigitalizálásra, mivel az adatok sokféle menütervet tartalmaznak majd, és az, hogy minden egyes szállítóhoz más sablont készítsenek, nem tűnik praktikusnak. Nem sablon alapú megoldásra van szükség a modellek méretarányos üzembe helyezéséhez, amihez gondosan megtervezett gépi tanulási modellekre van szükség, amelyek sok különböző adatra vannak kiképezve. Ehhez olyan mély tanulási módszereket kell használnunk, mint a táblázat kivonása és gráf konvolúciós hálózatokat amelyek a lehető legtöbb területet lefedő adatok széles skálájára vannak kiképezve.
Információk áttekintése – a fenti lépések OCR és nem sablon alapú megoldásokkal történő automatizálásával az egyetlen hely, ahol emberi beavatkozásra van szükség, ez az utolsó lépés. A ember a hurokban át tudja tekinteni az összes kinyert információt, kijavítja a hibákat és pótolja a hiányzó adatokat. A modellek korrigált adatokon történő újraképzése csökkentheti a modell torzítását és idővel növelheti a pontosságot. A használati esettől függően kiválaszthatja a megbízhatósági küszöbértéket is, hogy az előrejelzéseket felülvizsgálhassa.

Írja be a Nanonets-t

A Nanonetek nem kell aggódnia a gépi tanulási tehetségek felkutatása, a modellek építése, a felhő infrastruktúra megértése vagy a telepítés miatt. Ha olyan menüdigitalizálási problémája van, amelyet meg kell oldani, a NanoNets olyan teljes körű megoldást tud nyújtani, amely megoldja az összes fent említett problémát, és zökkenőmentes és megbízható automatizált munkafolyamatot biztosít a folyamathoz.

Könnyen használható web alapú GUI

A Nanonets egy könnyen használható, webalapú grafikus felhasználói felületet kínál, amely kommunikál az API-jukkal, és lehetővé teszi modellek létrehozását, az adatokon való betanításukat, fontos mutatókat, például pontosságot és pontosságot, valamint következtetések lefuttatását a képekre, mindezt kód írása nélkül.

Felhőben tárolt modellek

Amellett, hogy számos olyan modellt biztosítanak, amelyek a dobozból közvetlenül használhatók megoldások megszerzésére, a felhasználók megépíthetik modelleiket, amelyek a felhőben vannak tárolva, és következtetések levonására API-kéréssel érhetők el. Nem kell aggódnia a GCP-példány vagy a GPU-k beszerzése miatt a képzéshez.

A legmodernebb algoritmusok

Az épített modellek a legmodernebb algoritmusokat alkalmazzák a legjobb eredmény elérése érdekében. Ezek a modellek folyamatosan fejlődnek, hogy egyre jobbak legyenek, egyre jobb adatokkal és jobb technológiával, jobb architektúra-tervezéssel és robusztusabb hiperparaméter-beállításokkal.

The greatest challenge in building an számla digitization product is to give structure to the extracted text. This is made easier by our OCR API that automatically extracts all the necessary fields with the values and puts them in a table or a JSON format for you to access and build upon easily.

Automatizálás hajtott

We at Nanonets believe that automating processes like számla digitization can create a massive impact on your organization in terms of monetary benefits, customer satisfaction, and employee satisfaction. Nanonets strives to make machine learning ubiquitous and to that end, our goal remains to make any business problem you have solved in a way that requires minimal human supervision and budgets in the future.

OCR nanonetekkel

A Nanonets OCR API lehetővé teszi az OCR modellek egyszerű készítését. Feltöltheti adatait, megjegyzéseket fűzhet hozzájuk, beállíthatja a modellt betanításra, és megvárhatja az előrejelzéseket a böngésző alapú felhasználói felületen keresztül anélkül, hogy egyetlen kódsort írna, aggódna a GPU-k miatt vagy megkeresné a megfelelő architektúrákat a mély tanulási modellekhez.

Digitalizálás 15 perc alatt

Feltöltheti saját adatait és betaníthatja a modellt, megszerezheti az egyes előrejelzések JSON-válaszait, hogy integrálja azokat saját rendszereivel, és gépi tanulással hajtott alkalmazásokat építhet a legkorszerűbb algoritmusokra és erős infrastruktúrára.

Íme egy demó a személyi igazolvány digitalizálásához, hogy ötletet adjon -

A GUI használata: https://app.nanonets.com/

A Nanonets-OCR API-t is használhatja az alábbi lépések követésével:‌

1. lépés: A Repo klónozása, a függőségek telepítése (repo link)

git clone https://github.com/NanoNets/nanonets-id-card-digitization.git
cd nanonets-id-card-digitization
sudo pip install nanonets

2. lépés: Szerezze meg ingyenes API-kulcsát
Szerezze be ingyenes API-kulcsát innen http://app.nanonets.com/#/keys

3. lépés: Állítsa be az API-kulcsot környezeti változóként

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

4. lépés: Töltsön fel képeket a képzéshez
Az edzésadatok a következőben találhatók: images (képfájlok) és annotations (jegyzetek a képfájlokhoz)

python ./code/training.py

Jegyzet: Ez létrehoz egy MODEL_ID-t, amelyre szüksége van a következő lépéshez

5. lépés: Adja hozzá a modellazonosítót környezeti változóként

export NANONETS_MODEL_ID=YOUR_MODEL_ID

Jegyzet: megkapja az előző lépésből származó YOUR_MODEL_ID-t

6. lépés: Töltse fel a képzési adatokat

python ./code/training.py

7. lépés: Get Model State
A modell edzése ~2 órát vesz igénybe. A modell betanítása után e-mailt fog kapni. Közben ellenőrizze a modell állapotát

python ./code/model-state.py

8. lépés: Készítsen előrejelzést
Miután a modellt betanították. A modell segítségével előrejelzéseket készíthet

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

Nanonetek és emberek a hurokban

A „Mérsékelt” képernyő segíti a korrekciós és beviteli folyamatokat, és közel 90%-kal csökkenti a manuális felülvizsgáló munkáját, és 50%-kal csökkenti a szervezet költségeit.

Jellemzők

Kövesse nyomon a helyes előrejelzéseket
Kövesse nyomon, melyik hibás
Javítsa ki a pontatlanokat
Törölje a hibásakat
Töltse ki a hiányzó előrejelzéseket
Képek szűrése dátumtartományokkal
Szerezze meg a moderált képek számát a nem moderált képekhez képest

Az összes mező egy könnyen használható grafikus felhasználói felületbe van felszerelve, amely lehetővé teszi a felhasználó számára, hogy kihasználja az OCR technológia előnyeit, és segítsen annak jobbá tételében, anélkül, hogy kódot kellene begépelnie vagy megértenie a technológia működését.

További olvasnivalók

Frissítés:‌
‌ Added more reading material about Menu Card Digitization in the restaurant industry

Érdekelhetik legújabb bejegyzéseink itt:

Kezdje el a Nanonets for Automation használatát

Próbálja ki a modellt, vagy kérjen bemutatót még ma!

PRÓBÁLJA KI MOST

Forrás: https://nanonets.com/blog/menu-digitization-ocr-deep-learning/

Időbélyeg: April 8, 2021

Időbélyeg: 15. április 2021.

Újra kiadta Platón

Hogyan lehet szöveget kivonni a PDF-ből

Az OCR folytatása az intelligens automatizálás használatával

Számlafeldolgozás automatizálása OCR és Deep Learning segítségével

Kulcs-érték párok kinyerése a dokumentumokból mély tanulással

Számlafeldolgozás mesterséges intelligencia segítségével

Hogyan lehet egyszerűen kézírás-felismerést végezni a Deep Learning segítségével

Hogyan építsünk fel egy automatizált számlafeldolgozási munkafolyamatot

Számlafeldolgozás Blue Prism RPA használatával

Számlakezelés mesterséges intelligencia segítségével

Hogyan nyerhet ki könnyen adatokat a fizetési szelvényből mély tanulással

A Google Cloud Vision bemutatása

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók