Képfeldolgozó és határoló dobozok OCR-hez

Újra kiadta Platón

Követő: 0

A technológia folyamatosan fejlődik, és mi is. A mesterséges intelligencia és a gépi tanulás megjelenésével a hangsúly az automatizálás felé tolódott el. Ennek ellenére különböző számítástechnikai tudományágakat vezetnek be, hogy tanulmányozzák és feltárják ezeknek a feltörekvő trendeknek az alkalmazásait.

Ilyen például képfeldolgozás. Egyszerű nyelvezetben a képek feltárására utal, hogy értelmes információkhoz jusson. Noha ennek eléréséhez számos technika áll rendelkezésre, a leggyakrabban használt: határoló dobozok.

Ez a blog a határolókeretek különféle vonatkozásaival foglalkozik. Tartalmazza, hogy mik ezek, hogyan működnek a képfeldolgozás során, az őket meghatározó paraméterek, az őket meghatározó konvenciók, általános használati esetek, óvintézkedések és bevált gyakorlatok stb.

Búcsúzzunk be.

A képfeldolgozás arra utal, hogy bizonyos műveleteket hajtanak végre a képen, hogy javítsák azt, vagy értékes betekintést nyerjenek a hozzá tartozó jellemzőkből vagy attribútumokból. Ma a képfeldolgozás a mérnöki és számítástechnikai tanulmányok elsődleges kutatási területe.

A képfeldolgozás két módszerrel történhet – analóg képfeldolgozással és digitális képfeldolgozással.

Az analóg képfeldolgozás magában foglalja a nyomtatott dokumentumok és fényképek nyomtatott másolatait a képek elemzéséhez és manipulálásához. A képelemzők különféle módszereket alkalmaznak a képmásolatok értelmezésére és értelmes eredmények kinyerésére.

A digitális képfeldolgozás digitális képeket használ és számítógép segítségével értelmezi azokat. Ez a digitális jelfeldolgozás egy alkategóriája, és algoritmusokat használ a digitális képek feldolgozására. Előnyöket biztosít az analóg képfeldolgozáshoz képest, például olyan algoritmusokat, amelyek megakadályozzák a zajt és a torzítást a feldolgozás során.

A digitális képfeldolgozásnak számos alkalmazása van az orvostudomány, a gyártás, az e-kereskedelem és egyebek területén.

Határolódobozok a képfeldolgozásban

Kezdetben a határolókeret egy képzeletbeli téglalap alakú doboz, amely egy objektumot és egy adatpontkészletet tartalmaz. A digitális képfeldolgozás kontextusában a határolókeret a keret koordinátáit jelöli a képet körülvevő X és Y tengelyeken. A cél azonosítására szolgálnak, referenciaként szolgálnak az objektumészleléshez, és ütközési dobozt generálnak az objektumhoz.

Mik azok a határolódobozok?

A határolókeretek a kulcselemek és az egyik elsődleges képfeldolgozó eszköz a videoannotációs projekteknél. Lényegében a határolókeret egy képzeletbeli téglalap, amely egy gépi tanulási projekt követelményének részeként körvonalazza az objektumot a képen. A képzeletbeli téglalap alakú keret körülveszi a tárgyat a képen.

A határolókeretek meghatározzák az objektum pozícióját, osztályát és megbízhatóságát, amely megmondja annak valószínűségét, hogy az objektum valóban jelen van a határolókeretben.

A számítógépes látás lenyűgöző alkalmazásokat kínál – az önvezető autóktól az arcfelismerésig és így tovább. Ezt pedig a képfeldolgozás teszi lehetővé.

Tehát a képfeldolgozás olyan egyszerű, mint téglalapok vagy minták rajzolása az objektumok köré? Nem. Ennek ellenére mit csinálnak a határoló dobozok?

Értsük meg.

Hogyan működnek a határolódobozok a képfeldolgozásban?

Mint említettük, a határolókeret egy képzeletbeli téglalap, amely referenciapontként működik az objektumészlelésnél, és ütközési keretet hoz létre az objektum számára.

Szóval, hogyan segít ez az adatjegyzőknek? Nos, a szakemberek a határolókeretek ötletét használják arra, hogy képzeletbeli téglalapokat rajzoljanak a képek fölé. Minden képen belül körvonalakat készítenek a kérdéses objektumokról, és meghatározzák annak X és Y koordinátáit. Ez leegyszerűsíti a gépi tanulási algoritmusok munkáját, segít megtalálni az ütközési útvonalakat és hasonlókat, ezáltal megtakarítva a számítási erőforrásokat.

Például az alábbi képen minden jármű kulcsfontosságú objektum, amelynek helyzete és elhelyezkedése elengedhetetlen a gépi tanulási modellek betanításához. Az adatfeliratozók a határoló dobozok technikáját használják a téglalapok megrajzolására ezen objektumok – jelen esetben járművek – köré.

Forrás: keymakr

Ezután a koordináták segítségével megértik az egyes objektumok helyzetét és elhelyezkedését, ami hasznos a gépi tanulási modellek betanításához. Egyetlen határolókeret nem ad jó előrejelzési arányt. A továbbfejlesztett objektumészlelés érdekében több határolókeretet kell használni az adatkiegészítési módszerekkel kombinálva.

A határolódobozok rendkívül hatékony és robusztus képannotációs technikák, amelyek jelentősen csökkentik a költségeket.

Határolódobozt meghatározó paraméterek

A paraméterek a határolókeret meghatározásához használt konvenciókon alapulnak. A legfontosabb használt paraméterek a következők:

Osztály: A határolókereten belüli objektumot jelöli – például autókat, házakat, épületeket stb.
(X1, Y1): Ez a téglalap bal felső sarkának X és Y koordinátáira vonatkozik.
(X2, Y2): Ez a téglalap jobb alsó sarkának X és Y koordinátáira vonatkozik.
(Xc, Yc): Ez a határolókeret középpontjának X és Y koordinátáira vonatkozik.
Szélesség: Ez a határolókeret szélességét jelöli.
Magasság: Ez a határolókeret magasságát jelöli.
Bizalom: Ez azt jelenti, hogy az objektum a dobozban van. Tegyük fel, hogy a konfidencia 0.9. Ez azt jelenti, hogy 90% a valószínűsége annak, hogy a tárgy valóban jelen lesz a dobozban.

A határolódobozt meghatározó egyezmények

A határolókeret megadásakor általában két fő konvenciót kell figyelembe venni. Ezek:

A téglalap bal felső és jobb alsó pontjának X és Y koordinátái.
A határolókeret középpontjának X és Y koordinátái a szélességével és magasságával együtt.

Illusztráljuk ezt egy autó példájával.

a. Az első konvencióhoz képest a határolókeret a bal felső és a jobb alsó pont koordinátái szerint van megadva.

Forrás: AnalyticsVidhya

b. A második konvenció tekintetében a határolókeret a középponti koordináták, szélesség és magasság szerint van leírva.

Forrás: AnalyticsVidhya

A használati esettől függően lehetséges a különböző konvenciótípusok közötti átalakítás.

Xc = (X1 + X2)/2
Yc = (Y1 + Y2)/2
Szélesség = (X2 – X1)
Magasság = (Y2 – Y1)

Programozási kóddal magyarázott határolódobozok

Lássunk egy másik példát egy kódrészlettel rendelkező objektum helyére vagy pozíciójára.

Forrás: d2i

Betöltjük az illusztrációhoz használandó képet. A képen egy kutya a bal oldalon, egy macska a jobb oldalon. Két tárgy – egy kutya és egy macska a képen.

Forrás: d2i

Forrás: d2i

Vegyük az x és y koordinátákat a határolókeret bal felső és jobb alsó sarkához. Mondjuk, (x1,y1) és (x2,y2). Hasonlóképpen vegyük figyelembe a határolókeret középpontjának (x,y) – tengelykoordinátáit, annak szélességével és magasságával együtt.

Ezután két függvényt definiálunk ezen formák konvertálására: a box_corner_to_center a két sarok ábrázolást középmagasság-szélesség ábrázolássá alakítja, a box_center_to_corner pedig fordítva.

A bemeneti argumentumdobozoknak egy kétdimenziós alaktenzornak kell lenniük (n,4), ahol n a határoló dobozok száma.

Forrás: d2i

Ezután határozzuk meg a képen a kutya és a macska határoló dobozait a koordinátaadatok alapján.

Forrás: d2i

A két határolódoboz-konverziós függvény helyességének ellenőrzésére kétszer konvertálhatunk.

Forrás: d2i

Forrás: d2i

Ezután megrajzolhatjuk a képen lévő objektumok határolókereteit, hogy ellenőrizzük, hogy pontosak-e. Ezt megelőzően definiálunk egy bbox_t_rect függvényt, amely a matplotlib csomag megfelelő formátumában képviseli a határolókeretet.

Forrás: d2i

Most, miután hozzáadtuk a képhez a kutya és macska objektumok határoló dobozait, azt látjuk, hogy ezeknek az objektumoknak a fő körvonala a két dobozon belül van.

Forrás: d2i

Forrás: d2i

Szeretné automatizálni az ismétlődő manuális feladatokat? Tekintse meg Nanonets munkafolyamat-alapú dokumentumfeldolgozó szoftverünket. Kivonat adatokat számlákból, személyi igazolványokból vagy bármilyen dokumentumból robotpilóta segítségével!

A határolódobozok általános használati esetei

Önvezető járművek objektum lokalizációja

A határolódobozok az önvezető vagy autonóm járművek oktatásának szerves részét képezik az úton lévő tárgyak, például épületek, közlekedési jelzések, akadályok és egyebek azonosítására. Segítenek feljegyezni az akadályokat, és lehetővé teszik a robotok számára a jármű biztonságos vezetését és a balesetek megelőzését még torlódások esetén is.

Robotika képek

A képannotációs technikákat, például a határoló dobozokat széles körben használják a robotok és drónok nézőpontjainak megjelölésére. Ezek az autonóm járművek segítenek a földi objektumok osztályozásában az ezzel a megjegyzési módszerrel kapott fényképek segítségével.

Képcímkézés az e-kereskedelemhez és a kiskereskedelemhez

A határolókeret-jelölések segítenek a termékmegjelenítés javításában, ami nagy előny az e-kereskedelemben és a kiskereskedelemben. A hasonló cikkekre kiképzett modellek pontosabban megjelölhetnek olyan tárgyakat, mint a divatruházat, kiegészítők, bútorok, kozmetikumok stb. Az alábbiakban felsorolunk néhány olyan kihívást, amellyel a kiskereskedelemben a határoló dobozok megjegyzései megválaszolnak:

Helytelen keresési eredmények

Ha az ügyfelek csak a kereséssel bukkanhatnak rá az e-kereskedelmi webhelyre, akkor a hibás katalógusadatok pontatlan keresési eredményeket eredményezhetnek, ezáltal nem irányítják az ügyfelek forgalmát az oldalra.

Szervezetlen ellátási láncok

Azok számára, akik szeretnék bővíteni kiskereskedelmi üzletüket, hogy évente több millió terméket lehessen szállítani, elengedhetetlenné válik az offline és az online adatok szinkronizálása.

Folyamatos digitalizálás

Kulcsfontosságú, hogy az összes terméket szisztematikusan és gyorsan digitalizálják és címkézzék, hogy az ügyfelek ne maradjanak le egyetlen új lehetőségről sem. Ezenkívül a címkéknek kontextusban kell lenniük, amihez a ragaszkodás nehézzé válik, ahogy a kiskereskedelmi üzletág bővül, és több termék kerül hozzáadásra.

Észleli az autó elvesztését a biztosítási kárigényeknél

A határolódobozok technikája segít nyomon követni a balesetben megsérült autókat, kerékpárokat vagy más járműveket. A gépi tanulási modellek ezeket a határolódobozokból származó képeket használják a veszteségek helyzetének és intenzitásának megértéséhez. Ez segít megjósolni a felmerült veszteségek költségeit, amely alapján az ügyfelek bemutathatják becslésüket, mielőtt pert indítanak.

Forrás: Superannotate

Beltéri tárgyak észlelése

A határoló dobozok segítségével a számítógépek felismerhetik a beltéri tárgyakat, például ágyakat, kanapékat, íróasztalokat, szekrényeket vagy elektromos készülékeket. Ez lehetővé teszi a számítógépek számára, hogy érzékeljék a teret és a jelenlévő objektumok típusait, méretükkel és elhelyezkedésükkel együtt. Ez pedig segíti a gépi tanulási modelleket abban, hogy valós helyzetben azonosítsák ezeket az elemeket.

A határolókereteket széles körben használják a fényképeken, mint mély tanulási eszközt a különféle tárgyak megértéséhez és értelmezéséhez.

Betegségek és növénynövekedés azonosítása a mezőgazdaságban

A növénybetegségek korai felismerése segít a gazdálkodóknak megelőzni a súlyos veszteségeket. Az intelligens gazdálkodás megjelenésével a kihívás az adatok képzésében rejlik, hogy megtanítsák a gépi tanulási modelleket a növénybetegségek kimutatására. A határolódobozok fő mozgatórugói, amelyek biztosítják a gépek számára a szükséges látást.

Feldolgozó ipar

A tárgyak felismerése és azonosítása az iparágakban a gyártás alapvető eleme. Az AI-kompatibilis robotoknál és számítógépeknél a kézi beavatkozás szerepe csökken. Ennek ellenére a határolódobozok kulcsfontosságú szerepet játszanak azáltal, hogy segítik a gépi tanulási modellek betanítását az ipari alkatrészek lokalizálására és észlelésére. Ezenkívül az olyan folyamatoknak, mint a minőség-ellenőrzés, a válogatás és az összeszerelősor-műveletek, amelyek mind a minőségirányítás részét képezik, objektumészlelést igényelnek.

Orvosi képalkotás

A határolódobozokat az egészségügyi iparban is alkalmazzák, például az orvosi képalkotásban. Az orvosi képalkotó technika olyan anatómiai objektumok kimutatásával foglalkozik, mint a szív, és gyors és pontos elemzést igényel. Határolódobozok használhatók a gépi tanulási modellek betanításához, amelyek ezután képesek lesznek gyorsan és pontosan észlelni a szívet vagy más szerveket.

Automatizált CCTV-k

Az automatizált CCTV-k a legtöbb lakossági, kereskedelmi és egyéb létesítményben kötelezőek. A rögzített CCTV felvételek hosszú távú megőrzéséhez gyakran nagy memória szükséges. Az objektumészlelési technikákkal, például a határolókeretekkel, biztosítható, hogy a felvétel csak bizonyos objektumok azonosításakor kerüljön rögzítésre. A határoló dobozok betaníthatják a gépi tanulási modelleket, amelyek csak azokat az objektumokat észlelik, és abban a pillanatban rögzíthetők a felvételek. Ez a CCTV-hez szükséges tárhely mennyiségének minimalizálását és a költségek csökkentését is segítené.

Arcfelismerés és -érzékelés

Az arcfelismerés többféle alkalmazást kínál, például a biometrikus megfigyelésben. Emellett különféle ügynökségek, például bankok, repülőterek, kiskereskedelmi üzletek, stadionok és más intézmények használják az arcfelismerést a bűncselekmények és az erőszak megelőzésére. Ennek ellenére az arcfelismerés a számítógépes látás fontos eleme, amely képfeldolgozást is magában foglal. És itt is a határoló dobozok hatékony eszközként használhatók a karakterfelismeréshez.

Robotizált folyamatautomatizálást szeretne használni? Nézze meg a Nanonets munkafolyamat-alapú dokumentumfeldolgozó szoftvert. Nincs kód. Nincs probléma platform.

Határolódobozok a karakterfelismeréshez

Az objektumészlelés a következőkből áll: - képosztályozás és objektum lokalizáció. Ez azt jelenti, hogy a számítógépnek tudnia kell, hogy mi a kérdéses tárgy, és hol található. A képbesorolás osztálycímkét rendel a képhez. Az objektumok lokalizációja a határolókeret megrajzolásához kapcsolódik a kérdéses objektum köré egy képen.

A folyamat abból áll, hogy egy annotátor megrajzolja az objektumok köré a határolókereteket, és felcímkézi azokat. Ez segít az algoritmus betanításában, és lehetővé teszi számára, hogy megértse, hogyan néz ki az objektum. Az objektumészlelés első lépéseként a képadatkészletnek címkékkel kell rendelkeznie.

Egy kép címkézéséhez kövesse az alábbi lépéseket:

Válassza ki a betanítani és tesztelni kívánt adatkészletet. Csinálj belőle mappát.
Vegyünk példát egy arcfelismerő projektre, mint például: BTS, Avenger stb.
Mappanév adatok létrehozása.
A Google Drive-ban hozzon létre egy mappát FaceDetection néven.
A FaceDetection mappában hozzon létre egy mappát a képből.
A képmappában készítsen mappákat a tesztképből, tesztelje az XML-t, a betanítási képet és az XML-t.

Forrás:ipari

Most a vonatkép mappában töltsön le és töltsön fel 10-15 képet a BTS-ről és a Bosszúállókról JPEG formátumban. Hasonlóképpen, a tesztkép mappában 5-6 képpel végezze el ugyanezt. Javasoljuk, hogy több kép legyen az adatkészletben a pontos eredmények érdekében.

Forrás: ipari

Forrás: ipari

Ezután hozzon létre egy XML-fájlt a tesztkép minden egyes képéhez, és készítsen képmappákat

Töltse le és kattintson a Windows v_1.8.0 gombra. Kattintson a GitHub .exe fájljára, és nyomja meg a Futtatás gombot.

Ezután kattintson a megnyitott könyvtárra a kép mappájának kiválasztásához. Látni fogja a képet, amelyet fel kell címkézni. A címkézéshez nyomja meg a W billentyűt a billentyűzeten, majd kattintson a jobb gombbal, és húzza a kurzort a doboz körberajzolásához. Adjon nevet, és kattintson az OK gombra.

Forrás: ipari

Ezután mentse el a képet, hogy létrehozza a kép XML-fájlját a képmappában, az alábbiak szerint.

Forrás: ipari

Nyissa meg az XML-fájlt a koordináták megtekintéséhez.

Forrás: ipari

Ismételje meg az eljárást az összes képnél az XML-fájlok létrehozásához, és keresse meg a koordinátákat.

Ha számlákkal és nyugtákkal dolgozik, vagy aggódik a személyi igazolvány ellenőrzése miatt, nézze meg a Nanonets-t online OCR or PDF szövegkivonat szöveg kinyeréséhez PDF dokumentumokból ingyen. Kattintson az alábbiakra, ha többet szeretne megtudni erről Nanonets vállalati automatizálási megoldás.

A határolódobozokban használt különféle megjegyzésformátumok

Lényegében egy határolókeretnek 4 pontja van az (x,y) tengelyeken, amelyek a sarkokat képviselik:

Bal felső : (x_min, y_min)

Jobbra fent: (x_max, y_min)

Balra lent:(x_min, y_max)

Jobbra lent: (x_max, y_max)

A határolókeret koordinátáit a rendszer a kép bal felső sarkához viszonyítva számítja ki.

Számos határolókeret-jelölési formátum létezik, amelyek mindegyike a határolókeret koordinátáinak saját reprezentációját használja.

a. Albumentációk

Négy értéket használnak a határolókeret ábrázolására – [x_min, y_min, x_max, y_max] –, amelyeket úgy normalizálnak, hogy az x tengely pixelekben megadott koordinátáit elosztják a kép szélességével, az y tengely pedig a kép magasságával.

Tegyük fel, hogy a határolókeret koordinátái: x1 = 678, y1 = 24; x2 = 543, y2 = 213.

Legyen szélesség = 870, magasság = 789

Ezután [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

Az Albumentations belsőleg használja és értelmezi ezeket az értékeket határolókeretekkel, és javítja őket.

b. KÓKUSZDIÓ

Ezt a formátumot a Common Objects in Context COCO adatkészlet használja. COCO formátumban a határolókeretet négy érték képviseli: (x_min, y_min, szélesség, magasság). Lényegében a bal felső sarokra, valamint a határolókeret szélességére és magasságára utalnak.

c. YOLO

Ebben a formátumban egy határolókeret négy értékkel jelenik meg: (x_center, y_center, szélesség, magasság). Itt x_center és y_center a határolókeret középpontjának normalizált x és y koordinátáit jelöli. A normalizáláshoz a középpont x koordinátáját a kép szélességével, a középpont y koordinátáját pedig a kép magasságával. A szélesség és magasság értékeit is normalizáljuk.

d. PASCAL

Pascal formátumban a határolókeretet a bal felső és a jobb alsó koordináták képviselik. Tehát a pixelben kódolt értékek a következők: [x_min, y_min, x_max, y_max]. Itt az [x_min, y_min] a bal felső sarok értéke, míg az [x_max, y_max] a határolókeret jobb alsó sarkát jelöli.

Szeretné automatizálni az ismétlődő manuális feladatokat? Takarítson meg időt, erőfeszítést és pénzt, miközben növeli a hatékonyságot!

Óvintézkedések és bevált gyakorlatok a határolódobozok használatához

Néhány óvintézkedés és bevált gyakorlat javasolt a határolókeretek képfeldolgozásban történő optimális használatához. Tartalmazzák:

Dobozméret-változatok

Az összes azonos méretű határolókeret használata nem ad pontos eredményeket. A modellek azonos méretű határolódobozokra való betanítása rontaná a modell teljesítményét. Például, ha ugyanaz az objektum kisebb méretűnek tűnik, előfordulhat, hogy a modell nem észleli. A vártnál nagyobbnak látszó objektumok esetén előfordulhat, hogy több pixelt foglal el, és nem adja meg az objektum pontos helyzetét és helyét. A lényeg az, hogy szem előtt tartsuk az objektum méretének és térfogatának változását a kívánt eredmények elérése érdekében.

Pixel-tökéletes tömítettség

A szorosság döntő tényező. Ez azt jelenti, hogy a határolókeret széleinek a lehető legközelebb kell lenniük a kérdéses objektumhoz a pontos eredmények érdekében. A következetes hézagok befolyásolhatják a modell előrejelzése és a valós objektum közötti átfedési terület meghatározásának pontosságát, ami problémákat okozhat.

Átlós elemek Határolódobozokba helyezve

A határolókereten belül átlósan elhelyezett tárgyakkal az a probléma, hogy lényegesen kevesebb helyet foglalnak el a dobozon belül, mint a háttérben. Ha azonban hosszabb ideig van kitéve, a modell feltételezheti, hogy a cél a háttér, mivel ez több helyet foglal el. Ezért a legjobb gyakorlatként az átlós objektumokhoz poligonok és példányszegmentálás használata javasolt. Mégis lehetséges a modellek betanítása egy határoló dobozzal, jó mennyiségű képzési adattal.

A doboz átfedésének csökkentése

Mindig biztonságosan elkerülheti a megjegyzések átfedését minden forgatókönyvben. Néha ez akkora rendetlenséget okozhat, hogy végül csak néhány átfedő doboz látható. Azok az objektumok, amelyek címkézése átfedésben van más entitásokkal, viszonylag rosszabb eredményeket produkál. A túlzott átfedés miatt a modell nem tud különbséget tenni a célobjektum és más elemek között. Ilyen esetekben sokszögek használhatók a nagyobb pontosság érdekében.

Következtetés

A képfeldolgozás a technológia feltörekvő birodalma, amely széles skálát kínál. Ennek ellenére a határolódobozok alkotják a leggyakrabban alkalmazott képfeldolgozási technikát.

Összefoglalva, a határolókeretek egy képannotációs módszer az AI-alapú gépi tanulási modellek betanításához. Tárgyérzékelésre és célfelismerésre használják számos alkalmazásban, beleértve a robotokat, drónokat, autonóm járműveket, térfigyelő kamerákat és egyéb gépi látóeszközöket.

Javasolt források:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1

Nanonetek online OCR és OCR API sok érdekesség van használati esetek tkalap optimalizálhatja az üzleti teljesítményt, megtakaríthatja a költségeket és fellendítheti a növekedést. Kitalál hogyan vonatkozhatnak a Nanonets használati esetei az Ön termékére.

Időbélyeg: 25. augusztus 2022.25. augusztus 2022.