Képfeldolgozó és határoló dobozok OCR-hez

Forrás csomópont: 1638268

A technológia folyamatosan fejlődik, és mi is. A mesterséges intelligencia és a gépi tanulás megjelenésével a hangsúly az automatizálás felé tolódott el. Ennek ellenére különböző számítástechnikai tudományágakat vezetnek be, hogy tanulmányozzák és feltárják ezeknek a feltörekvő trendeknek az alkalmazásait.

Ilyen például képfeldolgozás. Egyszerű nyelvezetben a képek feltárására utal, hogy értelmes információkhoz jusson. Noha ennek eléréséhez számos technika áll rendelkezésre, a leggyakrabban használt: határoló dobozok.

Ez a blog a határolókeretek különféle vonatkozásaival foglalkozik. Tartalmazza, hogy mik ezek, hogyan működnek a képfeldolgozás során, az őket meghatározó paraméterek, az őket meghatározó konvenciók, általános használati esetek, óvintézkedések és bevált gyakorlatok stb.

Búcsúzzunk be.

A képfeldolgozás arra utal, hogy bizonyos műveleteket hajtanak végre a képen, hogy javítsák azt, vagy értékes betekintést nyerjenek a hozzá tartozó jellemzőkből vagy attribútumokból. Ma a képfeldolgozás a mérnöki és számítástechnikai tanulmányok elsődleges kutatási területe.

A képfeldolgozás két módszerrel történhet – analóg képfeldolgozással és digitális képfeldolgozással.

Az analóg képfeldolgozás magában foglalja a nyomtatott dokumentumok és fényképek nyomtatott másolatait a képek elemzéséhez és manipulálásához. A képelemzők különféle módszereket alkalmaznak a képmásolatok értelmezésére és értelmes eredmények kinyerésére.

A digitális képfeldolgozás digitális képeket használ és számítógép segítségével értelmezi azokat. Ez a digitális jelfeldolgozás egy alkategóriája, és algoritmusokat használ a digitális képek feldolgozására. Előnyöket biztosít az analóg képfeldolgozáshoz képest, például olyan algoritmusokat, amelyek megakadályozzák a zajt és a torzítást a feldolgozás során.

A digitális képfeldolgozásnak számos alkalmazása van az orvostudomány, a gyártás, az e-kereskedelem és egyebek területén.


Határolódobozok a képfeldolgozásban

Kezdetben a határolókeret egy képzeletbeli téglalap alakú doboz, amely egy objektumot és egy adatpontkészletet tartalmaz. A digitális képfeldolgozás kontextusában a határolókeret a keret koordinátáit jelöli a képet körülvevő X és Y tengelyeken. A cél azonosítására szolgálnak, referenciaként szolgálnak az objektumészleléshez, és ütközési dobozt generálnak az objektumhoz.

Mik azok a határolódobozok?

A határolókeretek a kulcselemek és az egyik elsődleges képfeldolgozó eszköz a videoannotációs projekteknél. Lényegében a határolókeret egy képzeletbeli téglalap, amely egy gépi tanulási projekt követelményének részeként körvonalazza az objektumot a képen. A képzeletbeli téglalap alakú keret körülveszi a tárgyat a képen.

A határolókeretek meghatározzák az objektum pozícióját, osztályát és megbízhatóságát, amely megmondja annak valószínűségét, hogy az objektum valóban jelen van a határolókeretben.

A számítógépes látás lenyűgöző alkalmazásokat kínál – az önvezető autóktól az arcfelismerésig és így tovább. Ezt pedig a képfeldolgozás teszi lehetővé.

Tehát a képfeldolgozás olyan egyszerű, mint téglalapok vagy minták rajzolása az objektumok köré? Nem. Ennek ellenére mit csinálnak a határoló dobozok?

Értsük meg.

Hogyan működnek a határolódobozok a képfeldolgozásban?

Mint említettük, a határolókeret egy képzeletbeli téglalap, amely referenciapontként működik az objektumészlelésnél, és ütközési keretet hoz létre az objektum számára.

Szóval, hogyan segít ez az adatjegyzőknek? Nos, a szakemberek a határolókeretek ötletét használják arra, hogy képzeletbeli téglalapokat rajzoljanak a képek fölé. Minden képen belül körvonalakat készítenek a kérdéses objektumokról, és meghatározzák annak X és Y koordinátáit. Ez leegyszerűsíti a gépi tanulási algoritmusok munkáját, segít megtalálni az ütközési útvonalakat és hasonlókat, ezáltal megtakarítva a számítási erőforrásokat.

Például az alábbi képen minden jármű kulcsfontosságú objektum, amelynek helyzete és elhelyezkedése elengedhetetlen a gépi tanulási modellek betanításához. Az adatfeliratozók a határoló dobozok technikáját használják a téglalapok megrajzolására ezen objektumok – jelen esetben járművek – köré.

Forrás: keymakr

Ezután a koordináták segítségével megértik az egyes objektumok helyzetét és elhelyezkedését, ami hasznos a gépi tanulási modellek betanításához. Egyetlen határolókeret nem ad jó előrejelzési arányt. A továbbfejlesztett objektumészlelés érdekében több határolókeretet kell használni az adatkiegészítési módszerekkel kombinálva.

A határolódobozok rendkívül hatékony és robusztus képannotációs technikák, amelyek jelentősen csökkentik a költségeket.

Határolódobozt meghatározó paraméterek

A paraméterek a határolókeret meghatározásához használt konvenciókon alapulnak. A legfontosabb használt paraméterek a következők:

  • Osztály: A határolókereten belüli objektumot jelöli – például autókat, házakat, épületeket stb.
  • (X1, Y1): Ez a téglalap bal felső sarkának X és Y koordinátáira vonatkozik.
  • (X2, Y2): Ez a téglalap jobb alsó sarkának X és Y koordinátáira vonatkozik.
  • (Xc, Yc): Ez a határolókeret középpontjának X és Y koordinátáira vonatkozik.
  • Szélesség: Ez a határolókeret szélességét jelöli.
  • Magasság: Ez a határolókeret magasságát jelöli.
  • Bizalom: Ez azt jelenti, hogy az objektum a dobozban van. Tegyük fel, hogy a konfidencia 0.9. Ez azt jelenti, hogy 90% a valószínűsége annak, hogy a tárgy valóban jelen lesz a dobozban.

A határolódobozt meghatározó egyezmények

A határolókeret megadásakor általában két fő konvenciót kell figyelembe venni. Ezek:

  • A téglalap bal felső és jobb alsó pontjának X és Y koordinátái.
  • A határolókeret középpontjának X és Y koordinátái a szélességével és magasságával együtt.

Illusztráljuk ezt egy autó példájával.

a. Az első konvencióhoz képest a határolókeret a bal felső és a jobb alsó pont koordinátái szerint van megadva.

Forrás: AnalyticsVidhya

b. A második konvenció tekintetében a határolókeret a középponti koordináták, szélesség és magasság szerint van leírva.

Forrás: AnalyticsVidhya

A használati esettől függően lehetséges a különböző konvenciótípusok közötti átalakítás.

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • Szélesség = (X2 – X1)
  • Magasság = (Y2 – Y1)

Programozási kóddal magyarázott határolódobozok

Lássunk egy másik példát egy kódrészlettel rendelkező objektum helyére vagy pozíciójára.

Forrás: d2i

Betöltjük az illusztrációhoz használandó képet. A képen egy kutya a bal oldalon, egy macska a jobb oldalon. Két tárgy – egy kutya és egy macska a képen.

Forrás: d2i

Forrás: d2i

Vegyük az x és y koordinátákat a határolókeret bal felső és jobb alsó sarkához. Mondjuk, (x1,y1) és (x2,y2). Hasonlóképpen vegyük figyelembe a határolókeret középpontjának (x,y) – tengelykoordinátáit, annak szélességével és magasságával együtt.

Ezután két függvényt definiálunk ezen formák konvertálására: a box_corner_to_center a két sarok ábrázolást középmagasság-szélesség ábrázolássá alakítja, a box_center_to_corner pedig fordítva.

A bemeneti argumentumdobozoknak egy kétdimenziós alaktenzornak kell lenniük (n,4), ahol n a határoló dobozok száma.

Forrás: d2i

Ezután határozzuk meg a képen a kutya és a macska határoló dobozait a koordinátaadatok alapján.

Forrás: d2i

A két határolódoboz-konverziós függvény helyességének ellenőrzésére kétszer konvertálhatunk.

Forrás: d2i

Forrás: d2i

Ezután megrajzolhatjuk a képen lévő objektumok határolókereteit, hogy ellenőrizzük, hogy pontosak-e. Ezt megelőzően definiálunk egy bbox_t_rect függvényt, amely a matplotlib csomag megfelelő formátumában képviseli a határolókeretet.

Forrás: d2i

Most, miután hozzáadtuk a képhez a kutya és macska objektumok határoló dobozait, azt látjuk, hogy ezeknek az objektumoknak a fő körvonala a két dobozon belül van.

Forrás: d2i

Forrás: d2i


Szeretné automatizálni az ismétlődő manuális feladatokat? Tekintse meg Nanonets munkafolyamat-alapú dokumentumfeldolgozó szoftverünket. Kivonat adatokat számlákból, személyi igazolványokból vagy bármilyen dokumentumból robotpilóta segítségével!


A határolódobozok általános használati esetei

Önvezető járművek objektum lokalizációja

A határolódobozok az önvezető vagy autonóm járművek oktatásának szerves részét képezik az úton lévő tárgyak, például épületek, közlekedési jelzések, akadályok és egyebek azonosítására. Segítenek feljegyezni az akadályokat, és lehetővé teszik a robotok számára a jármű biztonságos vezetését és a balesetek megelőzését még torlódások esetén is.

Robotika képek

A képannotációs technikákat, például a határoló dobozokat széles körben használják a robotok és drónok nézőpontjainak megjelölésére. Ezek az autonóm járművek segítenek a földi objektumok osztályozásában az ezzel a megjegyzési módszerrel kapott fényképek segítségével.

Képcímkézés az e-kereskedelemhez és a kiskereskedelemhez

A határolókeret-jelölések segítenek a termékmegjelenítés javításában, ami nagy előny az e-kereskedelemben és a kiskereskedelemben. A hasonló cikkekre kiképzett modellek pontosabban megjelölhetnek olyan tárgyakat, mint a divatruházat, kiegészítők, bútorok, kozmetikumok stb. Az alábbiakban felsorolunk néhány olyan kihívást, amellyel a kiskereskedelemben a határoló dobozok megjegyzései megválaszolnak:

  • Helytelen keresési eredmények

Ha az ügyfelek csak a kereséssel bukkanhatnak rá az e-kereskedelmi webhelyre, akkor a hibás katalógusadatok pontatlan keresési eredményeket eredményezhetnek, ezáltal nem irányítják az ügyfelek forgalmát az oldalra.

  • Szervezetlen ellátási láncok

Azok számára, akik szeretnék bővíteni kiskereskedelmi üzletüket, hogy évente több millió terméket lehessen szállítani, elengedhetetlenné válik az offline és az online adatok szinkronizálása.

  • Folyamatos digitalizálás

Kulcsfontosságú, hogy az összes terméket szisztematikusan és gyorsan digitalizálják és címkézzék, hogy az ügyfelek ne maradjanak le egyetlen új lehetőségről sem. Ezenkívül a címkéknek kontextusban kell lenniük, amihez a ragaszkodás nehézzé válik, ahogy a kiskereskedelmi üzletág bővül, és több termék kerül hozzáadásra.

Észleli az autó elvesztését a biztosítási kárigényeknél

A határolódobozok technikája segít nyomon követni a balesetben megsérült autókat, kerékpárokat vagy más járműveket. A gépi tanulási modellek ezeket a határolódobozokból származó képeket használják a veszteségek helyzetének és intenzitásának megértéséhez. Ez segít megjósolni a felmerült veszteségek költségeit, amely alapján az ügyfelek bemutathatják becslésüket, mielőtt pert indítanak.

Forrás: Superannotate

Beltéri tárgyak észlelése

A határoló dobozok segítségével a számítógépek felismerhetik a beltéri tárgyakat, például ágyakat, kanapékat, íróasztalokat, szekrényeket vagy elektromos készülékeket. Ez lehetővé teszi a számítógépek számára, hogy érzékeljék a teret és a jelenlévő objektumok típusait, méretükkel és elhelyezkedésükkel együtt. Ez pedig segíti a gépi tanulási modelleket abban, hogy valós helyzetben azonosítsák ezeket az elemeket.

A határolókereteket széles körben használják a fényképeken, mint mély tanulási eszközt a különféle tárgyak megértéséhez és értelmezéséhez.

Betegségek és növénynövekedés azonosítása a mezőgazdaságban

A növénybetegségek korai felismerése segít a gazdálkodóknak megelőzni a súlyos veszteségeket. Az intelligens gazdálkodás megjelenésével a kihívás az adatok képzésében rejlik, hogy megtanítsák a gépi tanulási modelleket a növénybetegségek kimutatására. A határolódobozok fő mozgatórugói, amelyek biztosítják a gépek számára a szükséges látást.

Feldolgozó ipar

A tárgyak felismerése és azonosítása az iparágakban a gyártás alapvető eleme. Az AI-kompatibilis robotoknál és számítógépeknél a kézi beavatkozás szerepe csökken. Ennek ellenére a határolódobozok kulcsfontosságú szerepet játszanak azáltal, hogy segítik a gépi tanulási modellek betanítását az ipari alkatrészek lokalizálására és észlelésére. Ezenkívül az olyan folyamatoknak, mint a minőség-ellenőrzés, a válogatás és az összeszerelősor-műveletek, amelyek mind a minőségirányítás részét képezik, objektumészlelést igényelnek.

Orvosi képalkotás

A határolódobozokat az egészségügyi iparban is alkalmazzák, például az orvosi képalkotásban. Az orvosi képalkotó technika olyan anatómiai objektumok kimutatásával foglalkozik, mint a szív, és gyors és pontos elemzést igényel. Határolódobozok használhatók a gépi tanulási modellek betanításához, amelyek ezután képesek lesznek gyorsan és pontosan észlelni a szívet vagy más szerveket.

Automatizált CCTV-k

Az automatizált CCTV-k a legtöbb lakossági, kereskedelmi és egyéb létesítményben kötelezőek. A rögzített CCTV felvételek hosszú távú megőrzéséhez gyakran nagy memória szükséges. Az objektumészlelési technikákkal, például a határolókeretekkel, biztosítható, hogy a felvétel csak bizonyos objektumok azonosításakor kerüljön rögzítésre. A határoló dobozok betaníthatják a gépi tanulási modelleket, amelyek csak azokat az objektumokat észlelik, és abban a pillanatban rögzíthetők a felvételek. Ez a CCTV-hez szükséges tárhely mennyiségének minimalizálását és a költségek csökkentését is segítené.

Arcfelismerés és -érzékelés

Az arcfelismerés többféle alkalmazást kínál, például a biometrikus megfigyelésben. Emellett különféle ügynökségek, például bankok, repülőterek, kiskereskedelmi üzletek, stadionok és más intézmények használják az arcfelismerést a bűncselekmények és az erőszak megelőzésére. Ennek ellenére az arcfelismerés a számítógépes látás fontos eleme, amely képfeldolgozást is magában foglal. És itt is a határoló dobozok hatékony eszközként használhatók a karakterfelismeréshez.


Robotizált folyamatautomatizálást szeretne használni? Nézze meg a Nanonets munkafolyamat-alapú dokumentumfeldolgozó szoftvert. Nincs kód. Nincs probléma platform.


Határolódobozok a karakterfelismeréshez

Az objektumészlelés a következőkből áll: - képosztályozás és objektum lokalizáció. Ez azt jelenti, hogy a számítógépnek tudnia kell, hogy mi a kérdéses tárgy, és hol található. A képbesorolás osztálycímkét rendel a képhez. Az objektumok lokalizációja a határolókeret megrajzolásához kapcsolódik a kérdéses objektum köré egy képen.

A folyamat abból áll, hogy egy annotátor megrajzolja az objektumok köré a határolókereteket, és felcímkézi azokat. Ez segít az algoritmus betanításában, és lehetővé teszi számára, hogy megértse, hogyan néz ki az objektum. Az objektumészlelés első lépéseként a képadatkészletnek címkékkel kell rendelkeznie.

Egy kép címkézéséhez kövesse az alábbi lépéseket:

  • Válassza ki a betanítani és tesztelni kívánt adatkészletet. Csinálj belőle mappát.
  • Vegyünk példát egy arcfelismerő projektre, mint például: BTS, Avenger stb.
  • Mappanév adatok létrehozása.
  • A Google Drive-ban hozzon létre egy mappát FaceDetection néven.
  • A FaceDetection mappában hozzon létre egy mappát a képből.
  • A képmappában készítsen mappákat a tesztképből, tesztelje az XML-t, a betanítási képet és az XML-t.

Forrás:ipari

Most a vonatkép mappában töltsön le és töltsön fel 10-15 képet a BTS-ről és a Bosszúállókról JPEG formátumban. Hasonlóképpen, a tesztkép mappában 5-6 képpel végezze el ugyanezt. Javasoljuk, hogy több kép legyen az adatkészletben a pontos eredmények érdekében.

Forrás: ipari

Forrás: ipari

Ezután hozzon létre egy XML-fájlt a tesztkép minden egyes képéhez, és készítsen képmappákat

Töltse le és kattintson a Windows v_1.8.0 gombra. Kattintson a GitHub .exe fájljára, és nyomja meg a Futtatás gombot.

Ezután kattintson a megnyitott könyvtárra a kép mappájának kiválasztásához. Látni fogja a képet, amelyet fel kell címkézni. A címkézéshez nyomja meg a W billentyűt a billentyűzeten, majd kattintson a jobb gombbal, és húzza a kurzort a doboz körberajzolásához. Adjon nevet, és kattintson az OK gombra.

Forrás: ipari

Ezután mentse el a képet, hogy létrehozza a kép XML-fájlját a képmappában, az alábbiak szerint.

Forrás: ipari

Nyissa meg az XML-fájlt a koordináták megtekintéséhez.

Forrás: ipari

Ismételje meg az eljárást az összes képnél az XML-fájlok létrehozásához, és keresse meg a koordinátákat.


Ha számlákkal és nyugtákkal dolgozik, vagy aggódik a személyi igazolvány ellenőrzése miatt, nézze meg a Nanonets-t online OCR or PDF szövegkivonat szöveg kinyeréséhez PDF dokumentumokból ingyen. Kattintson az alábbiakra, ha többet szeretne megtudni erről Nanonets vállalati automatizálási megoldás.


A határolódobozokban használt különféle megjegyzésformátumok

Lényegében egy határolókeretnek 4 pontja van az (x,y) tengelyeken, amelyek a sarkokat képviselik:

Bal felső : (x_min, y_min)

Jobbra fent: (x_max, y_min)

Balra lent:(x_min, y_max)

Jobbra lent: (x_max, y_max)

A határolókeret koordinátáit a rendszer a kép bal felső sarkához viszonyítva számítja ki.

Számos határolókeret-jelölési formátum létezik, amelyek mindegyike a határolókeret koordinátáinak saját reprezentációját használja.

a. Albumentációk

Négy értéket használnak a határolókeret ábrázolására – [x_min, y_min, x_max, y_max] –, amelyeket úgy normalizálnak, hogy az x tengely pixelekben megadott koordinátáit elosztják a kép szélességével, az y tengely pedig a kép magasságával.

Tegyük fel, hogy a határolókeret koordinátái: x1 = 678, y1 = 24; x2 = 543, y2 = 213.

Legyen szélesség = 870, magasság = 789

Ezután [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

Az Albumentations belsőleg használja és értelmezi ezeket az értékeket határolókeretekkel, és javítja őket.

b. KÓKUSZDIÓ

Ezt a formátumot a Common Objects in Context COCO adatkészlet használja. COCO formátumban a határolókeretet négy érték képviseli: (x_min, y_min, szélesség, magasság). Lényegében a bal felső sarokra, valamint a határolókeret szélességére és magasságára utalnak.

c. YOLO

Ebben a formátumban egy határolókeret négy értékkel jelenik meg: (x_center, y_center, szélesség, magasság). Itt x_center és y_center a határolókeret középpontjának normalizált x és y koordinátáit jelöli. A normalizáláshoz a középpont x koordinátáját a kép szélességével, a középpont y koordinátáját pedig a kép magasságával. A szélesség és magasság értékeit is normalizáljuk.

d. PASCAL

Pascal formátumban a határolókeretet a bal felső és a jobb alsó koordináták képviselik. Tehát a pixelben kódolt értékek a következők: [x_min, y_min, x_max, y_max]. Itt az [x_min, y_min] a bal felső sarok értéke, míg az [x_max, y_max] a határolókeret jobb alsó sarkát jelöli.


Szeretné automatizálni az ismétlődő manuális feladatokat? Takarítson meg időt, erőfeszítést és pénzt, miközben növeli a hatékonyságot!


Óvintézkedések és bevált gyakorlatok a határolódobozok használatához

Néhány óvintézkedés és bevált gyakorlat javasolt a határolókeretek képfeldolgozásban történő optimális használatához. Tartalmazzák:

Dobozméret-változatok

Az összes azonos méretű határolókeret használata nem ad pontos eredményeket. A modellek azonos méretű határolódobozokra való betanítása rontaná a modell teljesítményét. Például, ha ugyanaz az objektum kisebb méretűnek tűnik, előfordulhat, hogy a modell nem észleli. A vártnál nagyobbnak látszó objektumok esetén előfordulhat, hogy több pixelt foglal el, és nem adja meg az objektum pontos helyzetét és helyét. A lényeg az, hogy szem előtt tartsuk az objektum méretének és térfogatának változását a kívánt eredmények elérése érdekében.

Pixel-tökéletes tömítettség

A szorosság döntő tényező. Ez azt jelenti, hogy a határolókeret széleinek a lehető legközelebb kell lenniük a kérdéses objektumhoz a pontos eredmények érdekében. A következetes hézagok befolyásolhatják a modell előrejelzése és a valós objektum közötti átfedési terület meghatározásának pontosságát, ami problémákat okozhat.

Átlós elemek Határolódobozokba helyezve

A határolókereten belül átlósan elhelyezett tárgyakkal az a probléma, hogy lényegesen kevesebb helyet foglalnak el a dobozon belül, mint a háttérben. Ha azonban hosszabb ideig van kitéve, a modell feltételezheti, hogy a cél a háttér, mivel ez több helyet foglal el. Ezért a legjobb gyakorlatként az átlós objektumokhoz poligonok és példányszegmentálás használata javasolt. Mégis lehetséges a modellek betanítása egy határoló dobozzal, jó mennyiségű képzési adattal.

A doboz átfedésének csökkentése

Mindig biztonságosan elkerülheti a megjegyzések átfedését minden forgatókönyvben. Néha ez akkora rendetlenséget okozhat, hogy végül csak néhány átfedő doboz látható. Azok az objektumok, amelyek címkézése átfedésben van más entitásokkal, viszonylag rosszabb eredményeket produkál. A túlzott átfedés miatt a modell nem tud különbséget tenni a célobjektum és más elemek között. Ilyen esetekben sokszögek használhatók a nagyobb pontosság érdekében.

Következtetés

A képfeldolgozás a technológia feltörekvő birodalma, amely széles skálát kínál. Ennek ellenére a határolódobozok alkotják a leggyakrabban alkalmazott képfeldolgozási technikát.

Összefoglalva, a határolókeretek egy képannotációs módszer az AI-alapú gépi tanulási modellek betanításához. Tárgyérzékelésre és célfelismerésre használják számos alkalmazásban, beleértve a robotokat, drónokat, autonóm járműveket, térfigyelő kamerákat és egyéb gépi látóeszközöket.

Javasolt források:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


Nanonetek online OCR és OCR API sok érdekesség van használati esetek tkalap optimalizálhatja az üzleti teljesítményt, megtakaríthatja a költségeket és fellendítheti a növekedést. Kitalál hogyan vonatkozhatnak a Nanonets használati esetei az Ön termékére.


Időbélyeg:

Még több AI és gépi tanulás