Menu Digitization With OCR And Deep Learning

Taasavaldanud Platon

järgijaid: 0

Sissejuhatus

See artikkel tutvustab teile, kuidas need ettevõtted saavad automatiseerida mitmeid protseduure, nagu menüü digiteerimine või arve töötlemine, mida tehakse traditsiooniliselt käsitsi, et säästa aega ja tegevuskulusid.

Meil kõigil on olnud hetki, mil tekib järsku isu hea magustoidu järele. Pärast pikka tööpäeva selle suure jäätisevanni hankimine oleks mõni aasta tagasi olnud ebamugav. Kuid toidu kohaletoimetamise rakendused jõuavad selle teieni välkkiirelt. Kuna sellised ettevõtted nagu DoorDash, DeliveryHero, GrubHub, FoodPanda, Swiggy, Zomato ja Uber Eats konkureerivad toidu kohaletoimetamise turul suurema turuosa pärast, on tehnoloogia kasutuselevõtt, mis aitab ettevõtetel oma tegevust laiendada, muutunud asjakohasuse säilitamiseks hädavajalikuks.

Digitaliseerimise töövoogude analüüsimine

Digitaliseerimine on muutunud kuidas restoranid või toidu kohaletoimetamise teenused toimivad. Toidu kohaletoimetamise turul on digitaliseerimine aidanud neil ettevõtetel muuta oma liitumisprotsesse suurema täpsusega tõhusamaks. Restoranid kasutavad muu hulgas selliseid uuendusi nagu need tüübid. Jeppar -

[Varjatud sisu]

Traditsiooniliselt tehti seda protsessi enamasti käsitsi või mõne OCR-tarkvara abil. Sageli ei ole see protsess väga täpne, mistõttu peavad inimesed väljundid mitu korda torujuhtme mitmes etapis üle vaatama.

Menüü digiteerimise töövoog näeb tavaliselt välja järgmiselt –

Menüüst tehakse pilte
Menüü pildid edastatakse nimetatud kohaletoimetamisteenusele koos üksikasjadega, nagu restorani nimi, kontakt, aadress jne.
Esitatud andmed kontrollitakse ning menüü saadetakse digiteerimiseks ja sisestamiseks.
Toidukaubad, nende maksumus, koostisained, kirjeldused jne ekstraheeritakse piltidelt ja sisestatakse andmesisestustarkvarasse käsitsi.
Need kirjed vaadatakse käsitsi üle ja vead parandatakse enne, kui see kõik lõpuks andmebaasi lükatakse.

Ülalmainitud töövoog asendatakse töövoogudega, mis sisaldavad OCR-i, et vähendada andmesisestustööd ja käitada OCR-i tulemusi läbi mitme käsitsi ülevaatuse, et tuvastada minimaalsed vead, kuid see protsess pole kaugeltki täiuslik. Tõhusama protsessi saab kavandada nii, et see vähendaks kuluvat aega, käsitsi töökulu ja kulusid. Järgmises jaotises selgitatakse, kuidas moodne töövoog välja näeb ja mida saaks paremini teha.

Nanonetid OCR API on palju huvitavat kasutage juhtumeid. Lisateabe saamiseks rääkige Nanonetsi AI-eksperdiga.

Kuidas seda teha tuleks

Andmete käsitsi sisestamise ja ülevaatamise protsess on minevik. Need protsessid on asendatud kiiremate töövoogudega, mida toetab digiteerimine. Nii näeks välja kaasaegne menüükaartide digiteerimise töövoog –

Menüüst tehakse pilte
Pilte töödeldakse, korrigeeritakse orientatsiooni, hägususe, müra jms suhtes. Kui pildi kvaliteet on madal, teavitatakse müüjat halvast kvaliteedist ja palutakse pildid uuesti üles laadida.
Kui pildid on eeltöödeldud, saadetakse need läbi OCR-tarkvara ja piltidest eraldatakse tekst.
Väljatõmmatud tekst puhastatakse, paigutatakse struktuuri ja sisestatakse andmesisestustarkvarasse automaatselt (mallipõhine või mallipõhine).
Sisestatud andmed kontrollivad lõpuks vigade suhtes käsitsi ülevaatajad.

Seda tüüpi automatiseeritud töövoog ei olnud meie traditsiooniliste OCR-meetoditega võimalik, kuna nende meetodite täpsus on ebapiisav, äärmuslikel juhtudel võivad need ebaõnnestuda ja erinevate menüükaartide struktuur on väga erinev. Kuid süvaõppega OCR-lahenduste abil saame loobuda OCR-lahendustest, mis põhinevad reeglitel või mallidel ja suudavad automatiseerida mitte ainult tekstituvastust, vaid ka teabe väljavõtmist.

Kujutage ette, kui müüja laadis üles menüükaardi pildid koos täiendavate üksikasjadega ja müüdud kaupade nimede leidmise protsessiga, ekstraheeritakse nende hinnad, kirjeldused ja kategooriad automaatselt ja lisatakse tabelisse. Kõik, mida vajate, on selle tsükli lõpus ülevaataja, kes otsib OCR-i tekstist vigu, parandab kõik leitud ja edastab selle andmebaasi. Teie toidu kohaletoimetamise teenused võivad suurendada sissetulekute määra ja vähem vigu, vähendada raha, mis kulub käsitsi ülevaatajate ja andmete sisestamiseks inimeste palkamisele, ning tõstab ka klientide rahulolu.

Väljakutsed rakendamisel

. praegune OCR-tehnoloogia avatud lähtekoodiga tööriistade või kaubanduslikult saadavate toodete kaudu meile kättesaadavad andmed ei saavuta selle protsessi täielikuks automatiseerimiseks piisavalt suurt täpsust. See on tingitud mitmest tegurist:

Liiga palju erinevaid menüüde malle
Mudeli olemasolu, mis suudab eraldada nii teksti kui ka menüü struktuuri ja välju, nagu kategooriad, toidud, kirjeldused, hinnad jne, nõuab mallipõhiseid lahendusi.
Menüü suund piltidel
Mudel vajab väljaõpet suurendatud erineva orientatsiooniga pildid või originaalkujutised peavad olema ümber tõhusalt, et mitte kahjustada mudeli jõudlust.
Menüüs mitu keelt
Mitme keele jaoks üldistatud mudeli loomine nõuab kas palju andmeid või eraldi mudeleid, mis töötavad koos keele tuvastamiseks ja seejärel OCR-i jaoks sobiva mudeli rakendamiseks.
Menüüs mitu fonti ja fondisuurused
Mudel võib kohata täiesti uut ja raskesti loetavat fonti. See nõuab meilt oma mudeleid perioodiliselt uute andmetega ümber koolitama, et aja jooksul oma mudeleid pidevalt täiustada.
Tähemärgi täpsus vs järjestuse täpsus
Keskpärasest märgitäpsusest tingitud järjestuse täpsuse langust saab parandada, ühendades konvolutsioonilised kihid korduvad kihid ja tähelepanu mehhanismid.
Menüüpiltide müra või hägusus
Piltide müra ja hägusus põhjustavad halba täpsust ja müra, hägususe eemaldamine ja piltide ülieraldusvõime muutuvad piltide eeltöötluse vajalikeks sammudeks.
Raskused piisavate treeningandmete leidmisel
Andmeid, mis esindavad erinevaid malle, fonte, fondi suurusi, eraldusvõimet, keeli, müra, valgustust ja hägususe tingimusi, ei leia ühest või mõnest avatud lähtekoodiga andmekogumist.
Puuduvad tööriistad ja teenused, mis võimaldavad lihtsat kohandatud mudeli koostamist
Paljud avatud lähtekoodiga või tasulised teenused ei võimalda kasutajatel oma mudeleid kohandatud andmetele ehitada. See piirab OCR-tehnoloogia kasutamise juhtumeid.

Lahenduse väljatoomine

Nagu eespool nägite, kaasneb mastaabis tõhusalt töötava töövoo loomisega pikk väljakutsete loetelu ja lahenduse leidmine nõuab, et me rakendame oma menüüde digiteerimise probleemi lahendamisel mitut optilise tekstituvastuse, süvaõppe ja arvutinägemise valdkonda.

Probleemi mõistmine

Oleme näinud, kus meie tarkvara võib tehniliste väljakutsete osas alla jääda, millega teie süvaõppe insenerid peavad tegelema. Nende väljakutsete püüdmine menüüde digiteerimiseks üldisemasse torusse peaks aitama meil kindlaks teha, milliseid praeguse tehnoloogia osi tuleb täiustada, millised eemaldada ja mida lisada.

Menüü digitaliseerimise töövoog näeks välja selline –

Pildi eeltöötlus – väljakutsed, mis on seotud piltide kvaliteedi, orientatsiooni, müra, hägususe ja taustade mitmekesisusega.
OCR – märkide tuvastamisega seotud väljakutsed, nagu fondid, fondi suurused, keeled, koolitusandmed ja järjestuse täpsus.
Teabe ammutamine – siin käsitlete malli vs mittemallipõhiseid lahendusi ja tabelite ekstraheerimist.
Teabe ülevaade – kui teave on välja võetud ja nõutavasse struktuuri sisestatud, paneme meie ülevaatajad vead parandama või puuduva teabe täitma.

Tehnika mõistmine

Neid väljakutseid saab lahendada nii tehnilisel kui ka tootetasandil, kasutades optilise tekstituvastuse ja digiteerimise valdkonna tehnika taset.

Pildi eeltöötlus – heade OCR-tulemuste saamiseks on oluline veenduda, et teie pilte töödeldakse õigesti. Ülevaate väljakutsetest ja selleks saadaolevatest avatud lähtekoodiga tööriistadest leiate siin. Seda tehes tuleb hoolitseda mitme asja eest –
- piltide skaleerimine õigesse mõõtu
- suurendada kontrasti
- pildi binaarne muutmine
- müra eemaldamine ja artefaktide skaneerimine
- pilti moonutada
OCR – üleminek traditsioonilistelt OCR-meetoditelt süvaõppepõhistele meetoditele võib aidata suurendada meie väljavõetud teksti täpsust. Süvaõppepõhiste meetodite kasutamine võib samuti aidata meil struktuuri automaatselt õppida. OCR-tööriistade pakutavate teenuste kasutamine on piiratud, kuna need ei võimalda luua kohandatud mudeleid ja piiravad meie paindlikkust ka OCR-i tulemuste mallide loomisel. Probleemile on rakendatud mitmeid süvaõppe meetodeid, mis on erinevates andmekogumites toiminud erinevalt.
OCR-i jaoks on saadaval mitu avatud lähtekoodiga tööriistu Tesseract, KrakenOCRja Tähelepanu OCR. Leiate õpetuse Attention OCR abil mudeli loomise kohta siin ning üks, mis kasutab Tesseracti ja OpenCV-d, võib leida siin ja siin. See, milliste andmetega te lõpuks tegelete, otsustab, milliste piltidega te tegelete, mis keeles on menüüd, fonte jne. Erinevate eelkoolitatud mudelite jõudlus varieerub vastavalt. Samuti peate hea toon neid mudeleid, et see teie kasutusjuhtumil töötaks.
Teabe ammutamine – teabe hankimise protsess võib olla mallipõhine või mallipõhine. Mallipõhist lahendust ei saa menüüde digiteerimiseks kasutada, kuna teie andmed sisaldavad erinevaid menüükujundusi ja iga müüja jaoks erineva malli tegemine ei tundu praktiline. Mudelite mastaapseks juurutamiseks on vaja mallipõhist lahendust, mis nõuab hoolikalt kavandatud masinõppemudeleid, mis on koolitatud paljude erinevate andmete põhjal. See nõuab meilt süvaõppemeetodite kasutamist, nagu tabeli ekstraheerimine ja graafik konvolutsioonivõrgud mis on koolitatud mitmesuguste andmetega, mis hõlmavad võimalikult paljusid valdkondi.
Teabe ülevaade – automatiseerides ülaltoodud samme OCR-i ja mittemallipõhiste lahendustega, on ainus koht, kus on vaja inimese sekkumist, see viimane samm. A inimene ringis saab kogu väljavõetud teabe üle vaadata ja vead parandada ning puuduvad andmed täita. Mudelite ümberõpetamine parandatud andmete põhjal võib aja jooksul vähendada mudeli kallutatust ja suurendada täpsust. Sõltuvalt kasutusjuhtumist võite ennustuste ülevaatamiseks valida ka usaldusläve.

Sisestage Nanonets

koos Nanonetid te ei pea muretsema masinõppe talentide leidmise, mudelite ehitamise, pilveinfrastruktuuri või juurutamise mõistmise pärast. Kui teil on menüüde digiteerimise probleem, mis vajab lahendamist, võib NanoNets pakkuda täielikku lahendust, mis lahendab kõik ülalmainitud probleemid ning tagab protsessi sujuva ja usaldusväärse automatiseeritud töövoo.

Lihtne kasutada veebipõhist GUI-d

Nanonets pakub hõlpsasti kasutatavat veebipõhist GUI-d, mis suhtleb nende API-ga ja võimaldab teil luua mudeleid, koolitada neid oma andmete põhjal, hankida olulisi mõõdikuid (nt täpsus ja täpsus) ning teha järeldusi oma piltidest, seda kõike ilma koodi kirjutamata.

Pilve hostitud mudelid

Lisaks mitmete mudelite pakkumisele, mida saab lahenduste hankimiseks otse karbist välja võtta, saavad kasutajad luua oma mudeleid, mida majutatakse pilves ja millele pääseb juurde API päringu abil järelduste tegemiseks. Pole vaja muretseda koolituseks GCP eksemplari või GPU-de hankimise pärast.

Kaasaegsed algoritmid

Ehitatud mudelid kasutavad parimate tulemuste saavutamiseks tipptasemel algoritme. Need mudelid arenevad pidevalt, et muutuda paremaks, kasutades üha paremaid andmeid ja paremat tehnoloogiat, paremat arhitektuurilist disaini ja tugevamaid hüperparameetri sätteid.

Suurim väljakutse ehitamisel arve digiteerimistoode on väljavõetud tekstile struktuuri andmine. Selle teeb lihtsamaks meie OCR API, mis ekstraheerib automaatselt kõik vajalikud väljad koos väärtustega ja paneb need tabelisse või JSON-vormingusse, et saaksite hõlpsasti juurde pääseda ja edasi arendada.

Automaatika juhitav

Meie Nanonetsis usume, et protsesside automatiseerimine nagu arve digiteerimine võib avaldada teie organisatsioonile tohutut mõju rahalise kasu, klientide rahulolu ja töötajate rahulolu osas. Nanonets püüab muuta masinõppe üldlevinud ja selleks jääb meie eesmärgiks muuta kõik teie lahendatud äriprobleemid viisil, mis nõuab tulevikus minimaalset inimjärelevalvet ja eelarvet.

OCR nanovõrkudega

. Nanonets OCR API võimaldab hõlpsasti luua OCR-mudeleid. Saate oma andmed üles laadida, märkmeid teha, mudelit treenima panna ja oodata ennustuste saamist brauseripõhise kasutajaliidese kaudu, kirjutamata ühtki koodirida, muretsemata GPU-de pärast või oma süvaõppemudelite jaoks õigeid arhitektuure otsimata.

Digitaliseerimine 15 minutiga

Saate üles laadida oma andmed ja treenida mudelit, hankida iga ennustuse JSON-i vastused, et integreerida see oma süsteemidega, ning luua masinõppe toega rakendusi, mis põhinevad nüüdisaegsetel algoritmidel ja tugeval infrastruktuuril.

Siin on ID-kaardi digiteerimise demo, et saaksite aimu –

GUI kasutamine: https://app.nanonets.com/

Võite kasutada ka Nanonets-OCR API-d, järgides alltoodud samme.‌

1. samm: kloonige Repo, installige sõltuvused (repo link)

git clone https://github.com/NanoNets/nanonets-id-card-digitization.git
cd nanonets-id-card-digitization
sudo pip install nanonets

2. samm: hankige oma tasuta API võti
Hankige oma tasuta API võti aadressilt http://app.nanonets.com/#/keys

3. samm: määrake API võti keskkonnamuutujaks

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

4. samm: laadige koolituseks üles pildid
Treeningu andmed leiate aadressilt images (pildifailid) ja annotations (märkused pildifailide jaoks)

python ./code/training.py

Märge: See genereerib MODEL_ID, mida vajate järgmiseks sammuks

5. samm: lisage keskkonnamuutujana mudeli ID

export NANONETS_MODEL_ID=YOUR_MODEL_ID

Märge: saate eelmisest sammust YOUR_MODEL_ID

6. samm: laadige üles koolitusandmed

python ./code/training.py

7. toiming: hankige mudeli olek
Modelli treenimiseks kulub ~2 tundi. Kui modell on koolitatud, saate meili. Vahepeal kontrollite mudeli olekut

python ./code/model-state.py

8. samm: ennustage
Kui modell on koolitatud. Mudelit kasutades saate teha ennustusi

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

Nanonetid ja inimesed ringis

‌‌Mõõdukas ekraan aitab parandus- ja sisestamisprotsesse ning vähendab käsitsi ülevaataja töökoormust peaaegu 90% ja vähendab organisatsiooni kulusid 50%.

Funktsioonide hulka kuuluvad

Jälgige ennustusi, mis on õiged
Jälgige, millised on valed
Tehke ebatäpsed parandused
Kustutage need, mis on valed
Täitke puuduvad ennustused
Filtreerige pilte kuupäevavahemikega
Saate vaadata modereeritud piltide arvu võrreldes modereerimata piltidega

Kõik väljad on struktureeritud hõlpsasti kasutatavaks GUI-ks, mis võimaldab kasutajal kasutada OCR-tehnoloogiat ja aidata seda protsessi käigus paremaks muuta, ilma et peaksite koodi tippima või tehnoloogia toimimist mõistma.

Lisalugemist

Värskenda:‌
‌ Lisatud on rohkem lugemismaterjali menüükaartide digiteerimise kohta restoranitööstuses

Teid võivad huvitada meie viimased postitused teemal:

Alustage Nanonetsi kasutamist automatiseerimiseks

Proovige mudelit või tellige demo juba täna!

PROOVIGE NÜÜD

Allikas: https://nanonets.com/blog/menu-digitization-ocr-deep-learning/

Ajatempel: Aprill 8, 2021

Ajatempel: Mar 8, 2021

Taasavaldanud Platon

Makse vastavusse viimine – automatiseerige tehisintellektiga

Kuidas OCR-i jätkata, kasutades intelligentset automatiseerimist

Kuidas ACORDi vormidest andmeid ekstraheerida

Arvete töötlemine AI-ga

Kuidas süvaõppe abil palgatõendist andmeid hõlpsalt eraldada

2021. aasta parim OCR-tarkvara

Põhjalik OCR-i juhend koos Tesseracti, OpenCV ja Pythoniga

Kuidas süvaõppe abil hõlpsasti käsitsikirjatuvastust teha

Kuidas pildi- ja PDF-failidest teksti ekstraheerida

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto