PDF-dokumendi eeltöötlus Amazon Textractiga: visuaalide tuvastamine ja eemaldamine

Allikasõlm: 1204412

Amazoni tekst on täielikult hallatav masinõppeteenus (ML), mis eraldab skannitud dokumentidest automaatselt prinditud teksti, käsitsikirja ja muud andmed, mis lähevad kaugemale lihtsast optilisest märgituvastusest (OCR), et tuvastada, mõista ja vormidest ja tabelitest andmeid eraldada. Amazon Textract suudab tuvastada teksti mitmesugustes dokumentides, sealhulgas finantsaruannetes, meditsiinilistes dokumentides ja maksuvormides.

Paljudel kasutusjuhtudel tuleb dokumente välja võtta ja analüüsida erinevate visuaalidega, nagu logod, fotod ja diagrammid. Need visuaalid sisaldavad manustatud teksti, mis keerutab Amazon Textracti väljundi või pole teie allavoolu protsessi jaoks vajalik. Näiteks on paljudel kinnisvara hindamisvormidel või -dokumentidel pilte majadest või ajalooliste hindade trendidest. Seda teavet pole järgnevates protsessides vaja ja peate selle enne Amazon Textracti kasutamist dokumendi analüüsimiseks eemaldama. Selles postituses illustreerime kahte tõhusat meetodit nende visuaalide eemaldamiseks eeltöötluse osana.

Lahenduse ülevaade

Selle postituse jaoks kasutame näiteks PDF-faili, mis sisaldab logo ja diagrammi. Kasutame nende visuaalide teisendamiseks ja tuvastamiseks ning seejärel redigeerimiseks kahte erinevat tüüpi protsessi.

Esimese meetodi puhul kasutame visuaalide serva tuvastamiseks OpenCV teegi canny edge-detektorit. Teise meetodi puhul kirjutame nende visuaalide asukoha tuvastamiseks kohandatud pikslikontsentratsiooni analüsaatori.

Saate need visuaalid edasiseks töötlemiseks välja võtta ja koodi hõlpsalt oma kasutusjuhtumile sobivaks muuta.

Otsitavad PDF-id on PDF-failid, mille loovad tavaliselt muud rakendused, nagu tekstiprotsessorid, virtuaalsed PDF-printerid ja natiivsed redaktorid. Seda tüüpi PDF-id säilitavad dokumendis metaandmeid, teksti ja pilditeavet. Saate hõlpsasti kasutada selliseid teeke nagu PyMuPDF/fitz PDF-i struktuuris navigeerimiseks ning piltide ja teksti tuvastamiseks. Selles postituses keskendume mitteotsitavatele või pildipõhistele dokumentidele.

Valik 1: visuaalide tuvastamine OpenCV servadetektoriga

Selle lähenemisviisi korral teisendame PDF-i PNG-vormingusse ja seejärel halltoonides dokumendi OpenCV-Python raamatukogu ja kasutage visuaalsete asukohtade tuvastamiseks Canny Edge Detectorit. Saate järgida üksikasjalikke samme järgmiselt märkmik.

  1. Teisendage dokument halltooniks.

  1. Canny-Edgedi dokumendis kontuuride tuvastamiseks rakendage Canny Edge'i algoritmi.
  2. Määrake ristkülikukujulised kontuurid asjakohaste mõõtmetega.

Olenevalt kasutusjuhtumist saate tuvastamise täpsuse suurendamiseks edasi häälestada ja optimeerida mõnda parameetrit.

  • Minimaalne kõrgus ja laius – Need parameetrid määravad visuaalse tuvastamise minimaalse kõrguse ja laiuse läved. Seda väljendatakse protsentides lehe suurusest.
  • polster – Kui tuvastatakse ristküliku kontuur, määratleme täiendava polsterdusala, et muuta redigeeritava lehe kogupindala veidi paindlikuks. See on abiks juhtudel, kui visuaalide tekstid ei asu selgelt piiritletud ristkülikukujulistel aladel.

Eelised ja puudused

Sellel lähenemisviisil on järgmised eelised:

  • See rahuldab enamiku kasutusjuhtumeid
  • Seda on lihtne rakendada ja see saab kiiresti tööle
  • Selle optimaalsed parameetrid annavad häid tulemusi

Sellel lähenemisviisil on aga järgmised puudused:

  • Ilma piirdekasti või ümbritsevate servadeta visuaalide puhul võib jõudlus visuaalide tüübist olenevalt erineda
  • Kui tekstiplokk on suurte piirdekastide sees, võib kogu tekstiplokki pidada visuaaliks ja selle loogika abil eemaldada

2. valik: pikslikontsentratsiooni analüüs

Rakendame oma teist lähenemisviisi, analüüsides pildi piksleid. Tavaliste tekstilõikude ridadel on koondunud allkiri. Saame mõõta ja analüüsida pikslitihedust, et tuvastada alad, mille pikslitihedus ei ole ülejäänud dokumendiga sarnane. Saate järgida üksikasjalikke samme järgmiselt märkmik.

  1. Teisendage dokument halltooniks.
  2. Teisendage hallid alad valgeks.
  3. Mustade pikslite kontsentratsiooni arvutamiseks ahendage pikslid horisontaalselt.
  4. Jagage dokument horisontaalseteks triipudeks või segmentideks, et tuvastada need, mis ei ole täistekst (üle terve lehe).

  1. Kõigi horisontaalsete segmentide puhul, mis ei ole täistekst, tuvastage alad, mis on tekst, võrreldes aladega, mis on kujutised. Selleks filtreeritakse välja lõigud, kasutades mustade pikslite minimaalse ja maksimaalse kontsentratsiooni läve.
  2. Eemaldage mittetäistekstina määratletud alad.

Mittetekstipiirkondade tuvastamise täpsuse optimeerimiseks saate häälestada järgmisi parameetreid.

  • Mitteteksti horisontaalse segmendi läved – Määrake mustade pikslite kontsentratsiooni minimaalne ja maksimaalne lävi, mida kasutatakse lehe mitteteksti horisontaalsete segmentide tuvastamiseks.
  • Mitteteksti vertikaalse segmendi läved – Määrake mustade pikslite kontsentratsiooni minimaalne ja maksimaalne lävi, mida kasutatakse mitteteksti vertikaalsete segmentide tuvastamiseks lehel.
  • Akna suurus – Juhib, kuidas leht analüüsiks horisontaal- ja vertikaalsegmentideks jagatakse (X_WINDOW, Y_WINDOW). See on määratletud pikslite arvuna.
  • Minimaalne visuaalne ala – Määrab väikseima ala, mida saab käsitleda eemaldatava visuaalina. See on määratletud pikslites.
  • Halli vahemiku lävi – Eemaldatavate hallide varjundite lävi.

Eelised ja puudused

See lähenemisviis on väga kohandatav. Sellel on aga järgmised puudused:

  • Optimaalsete parameetrite saavutamine võtab kauem aega ja lahendusest sügavam arusaamine
  • Kui dokument ei ole täiuslikult parandatud (kaameraga tehtud pilt nurga all), võib see meetod ebaõnnestuda.

Järeldus

Selles postituses näitasime, kuidas saate erinevatest dokumentidest visuaalide eemaldamiseks rakendada kahte lähenemisviisi. Mõlemat lähenemisviisi on lihtne rakendada. Saate saavutada kvaliteetseid tulemusi ja kohandada kumbagi meetodit vastavalt oma kasutusjuhule.

Amazon Textracti erinevate tehnikate kohta lisateabe saamiseks külastage avalikkust AWS proovib GitHubi repo.


Autoritest

 Yuan Jiang on Sr Solution Architect, kes keskendub masinõppele. Ta on programmi Amazon Computer Vision Hero ja Amazon Machine Learning Technical Field Community liige.

Victor Red on Sr partner lahenduste arhitekt, kes keskendub vestlusele tehisintellektile. Ta on ka programmi Amazon Computer Vision Hero liige.

Luis Pineda on Sr Partner Management Solutioni arhitekt. Ta on ka programmi Amazon Computer Vision Hero liige.

Miguel Romero Calvo on andmeteadlane AWS-i masinõppelahenduste laborist.

Allikas: https://aws.amazon.com/blogs/machine-learning/process-text-and-images-in-pdf-documents-with-amazon-texttract/

Ajatempel:

Veel alates AWS-i masinõppe ajaveeb