Amazon Textract और Amazon Comprehend के साथ बुद्धिमानी से बहु-फ़ॉर्म दस्तावेज़ पैकेज विभाजित करें

स्रोत नोड: 1372716

विभिन्न आकारों और उद्योग कार्यक्षेत्रों में फैले कई संगठन अभी भी अपने दिन-प्रतिदिन के कार्यों को चलाने के लिए बड़ी मात्रा में दस्तावेजों पर निर्भर हैं। इस व्यावसायिक चुनौती को हल करने के लिए, ग्राहक एडब्ल्यूएस से बुद्धिमान दस्तावेज़ प्रसंस्करण सेवाओं का उपयोग कर रहे हैं जैसे अमेज़न टेक्सट्रेक और Amazon Comprehend के साथ मदद करने के लिए निष्कर्षण और प्रक्रिया स्वचालन. इससे पहले कि आप टेक्स्ट, की-वैल्यू पेयर, टेबल और एंटिटी को एक्सट्रेक्ट कर सकें, आपको मल्टीपेज PDF डॉक्यूमेंट्स को विभाजित करने में सक्षम होना चाहिए, जिसमें अक्सर विषम प्रकार के फॉर्म होते हैं। उदाहरण के लिए, बंधक प्रसंस्करण में, एक दलाल या ऋण प्रसंस्करण व्यक्ति को एक समेकित पीडीएफ ऋण पैकेज को विभाजित करने की आवश्यकता हो सकती है, जिसमें बंधक आवेदन (फैनी मॅई फॉर्म 1003), W2s, आय सत्यापन, 1040 टैक्स फॉर्म, और बहुत कुछ शामिल है।

इस समस्या से निपटने के लिए, संगठन नियम-आधारित प्रसंस्करण का उपयोग करते हैं: प्रपत्र शीर्षकों, पृष्ठ संख्याओं, प्रपत्रों की लंबाई आदि के माध्यम से दस्तावेज़ प्रकारों की पहचान करना। ये दृष्टिकोण त्रुटि-प्रवण हैं और स्केल करना मुश्किल है, खासकर जब प्रपत्र प्रकारों में कई विविधताएँ हो सकती हैं। तदनुसार, ये वर्कअराउंड अभ्यास में जल्दी टूट जाते हैं और मानवीय हस्तक्षेप की आवश्यकता को बढ़ाते हैं।

इस पोस्ट में, हम दिखाते हैं कि कैसे आप कस्टम नियमों या प्रसंस्करण कार्यप्रवाहों के निर्माण के बिना, प्रपत्रों के किसी भी सेट के लिए छोटे कोड के साथ अपना स्वयं का दस्तावेज़ विभाजन समाधान बना सकते हैं।

समाधान अवलोकन

इस पोस्ट के लिए, हम यह प्रदर्शित करने के लिए सामान्य मॉर्टगेज एप्लिकेशन फॉर्म के एक सेट का उपयोग करते हैं कि आप एक बुद्धिमान दस्तावेज़ स्प्लिटर बनाने के लिए Amazon Textract और Amazon Comprehend का उपयोग कैसे कर सकते हैं जो पहले के दृष्टिकोणों की तुलना में अधिक मजबूत है। बंधक आवेदनों के लिए दस्तावेजों को संसाधित करते समय, उधारकर्ता एक बहुपृष्ठ पीडीएफ प्रस्तुत करता है जो अलग-अलग पृष्ठ लंबाई के विषम दस्तावेज़ प्रकारों से बना होता है; जानकारी निकालने के लिए, उपयोगकर्ता (उदाहरण के लिए, एक बैंक) को इस पीडीएफ को तोड़ना होगा।

यद्यपि हम बंधक रूपों के लिए एक विशिष्ट उदाहरण दिखाते हैं, आप आम तौर पर बहु-पृष्ठ पीडीएफ दस्तावेज़ों के किसी भी सेट के बारे में इस दृष्टिकोण को माप सकते हैं और लागू कर सकते हैं।

हम दस्तावेज़ से डेटा निकालने के लिए Amazon Textract का उपयोग करते हैं और a को प्रशिक्षित करने के लिए Amazon Comprehend संगत डेटासेट का निर्माण करते हैं दस्तावेज़ वर्गीकरण मॉडल. अगला, हम वर्गीकरण मॉडल को प्रशिक्षित करते हैं और एक वर्गीकरण समापन बिंदु बनाते हैं जो वास्तविक समय दस्तावेज़ विश्लेषण कर सकता है। ध्यान रखें कि Amazon Textract और Amazon Comprehend वर्गीकरण समापन बिंदुओं पर शुल्क लगता है, इसलिए इसे देखें अमेज़ॅन टेक्सट्रेक मूल्य निर्धारण और अमेज़ॅन समझाना मूल्य निर्धारण अधिक जानकारी के लिए। अंत में, हम दिखाते हैं कि हम इस समापन बिंदु के साथ दस्तावेज़ों को कैसे वर्गीकृत कर सकते हैं और वर्गीकरण परिणामों के आधार पर दस्तावेज़ों को विभाजित कर सकते हैं।

यह समाधान निम्नलिखित AWS सेवाओं का उपयोग करता है:

.. पूर्वापेक्षाएँ

इस समाधान को बनाने और परिनियोजित करने के लिए आपको निम्नलिखित पूर्वापेक्षाएँ पूरी करनी होंगी:

  1. स्थापित करें पायथन 3.8.x.
  2. स्थापित करें जेक्यू।
  3. स्थापित करें एडब्ल्यूएस सैम सीएलआई।
  4. स्थापित करें डाक में काम करनेवाला मज़दूर.
  5. आप सुनिश्चित करें कि आपके पास पाइप स्थापित.
  6. स्थापित करें और कॉन्फ़िगर करें la AWS कमांड लाइन इंटरफ़ेस (AWS CLI)।
  7. कॉन्फ़िगर आपके AWS क्रेडेंशियल.

समाधान को बेहतर तरीके से काम करने के लिए डिज़ाइन किया गया है us-east-1 और us-west-2 Amazon Textract के लिए उच्च डिफ़ॉल्ट कोटा का लाभ लेने के लिए क्षेत्र। विशिष्ट क्षेत्रीय वर्कलोड के लिए देखें अमेज़ॅन टेक्सट्रैक्ट एंडपॉइंट्स और कोटा. सुनिश्चित करें कि आप संपूर्ण समाधान के लिए एक ही क्षेत्र का उपयोग करते हैं।

रेपो को क्लोन करें

आरंभ करने के लिए, निम्न कमांड चलाकर रिपॉजिटरी को क्लोन करें; फिर हम कार्यशील निर्देशिका में स्विच करते हैं:

git clone https://github.com/aws-samples/aws-document-classifier-and-splitter.git
cd aws-document-classifier-and-splitter

समाधान कार्यप्रवाह

समाधान में तीन वर्कफ़्लो होते हैं:

  • वर्कफ़्लो1_endpointbuilder - प्रशिक्षण दस्तावेज़ लेता है और Amazon Comprehend पर एक कस्टम वर्गीकरण समापन बिंदु बनाता है।
  • वर्कफ़्लो2_डॉक्सप्लिटर - दस्तावेज़ विभाजन सेवा के रूप में कार्य करता है, जहाँ दस्तावेज़ वर्ग द्वारा विभाजित होते हैं। यह में निर्मित वर्गीकरण समापन बिंदु का उपयोग करता है workflow1.
  • वर्कफ़्लो3_लोकल - उन ग्राहकों के लिए अभिप्रेत है जो अत्यधिक विनियमित उद्योगों में हैं और Amazon S3 में डेटा को बनाए नहीं रख सकते। इस कार्यप्रवाह में के स्थानीय संस्करण शामिल हैं workflow1 और workflow2.

आइए प्रत्येक वर्कफ़्लो और उनके कार्य करने के तरीके के बारे में गहराई से जानें.

वर्कफ़्लो 1: PDF, JPG, या PNG दस्तावेज़ों से Amazon Comprehend क्लासिफ़ायर बनाएँ

पहला वर्कफ़्लो Amazon S3 पर संग्रहीत दस्तावेज़ लेता है और उन्हें Amazon Textract के माध्यम से दस्तावेज़ों से डेटा निकालने के लिए चरणों की एक श्रृंखला के माध्यम से भेजता है। फिर, निकाले गए डेटा का उपयोग Amazon Comprehend कस्टम वर्गीकरण समापन बिंदु बनाने के लिए किया जाता है। यह निम्नलिखित आर्किटेक्चर आरेख में प्रदर्शित किया गया है।

शुभारंभ करना workflow1, आपको प्रशिक्षण डेटासेट फ़ाइलों वाले फ़ोल्डर के Amazon S3 URI की आवश्यकता है (ये चित्र, एकल-पृष्ठ PDF या बहुपृष्ठ PDF हो सकते हैं)। फ़ोल्डर की संरचना इस प्रकार होनी चाहिए:

root dataset directory
---- class directory
-------- files

वैकल्पिक रूप से, संरचना में अतिरिक्त नेस्टेड उपनिर्देशिकाएँ हो सकती हैं:

root dataset directory
---- class directory
-------- nested subdirectories
------------ files

वर्ग उपनिर्देशिका (द्वितीय निर्देशिका स्तर) के नाम Amazon Comprehend कस्टम वर्गीकरण मॉडल में उपयोग की जाने वाली कक्षाओं के नाम बन जाते हैं। उदाहरण के लिए, निम्न फ़ाइल संरचना में, वर्ग for form123.pdf is tax_forms:

training_dataset
---- tax_forms
-------- page_1
------------ form123.pdf

वर्कफ़्लो लॉन्च करने के लिए, निम्न चरणों को पूरा करें:

  1. डेटासेट को अपने स्वामित्व वाली S3 बकेट में अपलोड करें।

अनुशंसा है कि आप जिस वर्ग को वर्गीकृत करना चाहते हैं, उसके लिए 50 से अधिक नमूने हों। निम्न स्क्रीनशॉट इस दस्तावेज़ वर्ग संरचना का एक उदाहरण दिखाता है।

  1. बनाएँ sam-app निम्नलिखित आदेशों को चलाकर (आवश्यकतानुसार प्रदान किए गए आदेशों को संशोधित करें):
cd workflow1_endpointbuilder/sam-app
sam build
sam deploy --guided
Stack Name [sam-app]: endpointbuilder
AWS Region []: us-east-1
#Shows you resources changes to be deployed and require a 'Y' to initiate deploy
Confirm changes before deploy [y/N]: n
#SAM needs permission to be able to create roles to connect to the resources in your template
Allow SAM CLI IAM role creation [Y/n]: y
Save arguments to configuration file [Y/n]: n Looking for resources needed for deployment:
Creating the required resources...
Successfully created!
Managed S3 bucket: {your_bucket}
#Managed repositories will be deleted when their functions are removed from the template and deployed
Create managed ECR repositories for all functions? [Y/n]: y

बिल्ड का आउटपुट स्टेप फंक्शंस स्टेट मशीन के लिए ARN है।

  1. जब बिल्ड पूरा हो जाए, तो नेविगेट करें राज्य मशीनें स्टेप फंक्शंस कंसोल पर पेज।
  2. आपके द्वारा बनाई गई राज्य मशीन चुनें।
  3. चुनें अमल शुरू करो.
  4. निम्नलिखित आवश्यक इनपुट पैरामीटर दर्ज करें:
{
“folder_uri”: “s3://{your dataset}”
}

  1. चुनें अमल शुरू करो.

राज्य मशीन वर्कफ़्लो शुरू करती है। डेटासेट के आकार के आधार पर इसमें कई घंटे लग सकते हैं। निम्न स्क्रीनशॉट हमारी राज्य मशीन को प्रगति पर दिखाता है।

जब राज्य मशीन पूरी हो जाती है, तो ग्राफ में प्रत्येक चरण हरा होता है, जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है।

परिनियोजित किए गए समापन बिंदु को देखने के लिए आप Amazon Comprehend कंसोल पर नेविगेट कर सकते हैं।

आपने अब अपने दस्तावेज़ों का उपयोग करके अपना कस्टम क्लासिफायर बनाया है। यह अंत का प्रतीक है workflow1.

वर्कफ़्लो 2: एक समापन बिंदु बनाएँ

दूसरा वर्कफ़्लो आपके द्वारा बनाए गए समापन बिंदु को लेता है workflow1 और उन वर्गों के आधार पर दस्तावेज़ों को विभाजित करता है जिनके साथ मॉडल को प्रशिक्षित किया गया है। यह निम्नलिखित आर्किटेक्चर आरेख में प्रदर्शित किया गया है।

शुभारंभ करना workflow2, हम बनाते हैं sam-app. प्रदान किए गए आदेशों को आवश्यकतानुसार संशोधित करें:

cd workflow2_docsplitter/sam-app
sam-app % sam build
Build Succeeded sam-app % sam deploy --guided
Configuring SAM deploy
=========================================
Stack Name [sam-app]: docsplitter
AWS Region []: us-east-1
#Shows you resources changes to be deployed and require a 'Y' to initiate deploy
Confirm changes before deploy [y/N]: n
#SAM needs permission to be able to create roles to connect to the resources in your template
Allow SAM CLI IAM role creation [Y/n]: y
Save arguments to configuration file [Y/n]: n Looking for resources needed for deployment:
Managed S3 bucket: {bucket_name}
#Managed repositories will be deleted when their functions are removed from the template and deployed
Create managed ECR repositories for all functions? [Y/n]: y

स्टैक बनने के बाद, आपको लोड बैलेंसर DNS पर प्राप्त होता है आउटपुट CloudFormation स्टैक का टैब। आप इस एंडपॉइंट के लिए अनुरोध करना शुरू कर सकते हैं।

में एक नमूना अनुरोध उपलब्ध है workflow2_docsplitter/sample_request_folder/sample_s3_request.py फ़ाइल। एपीआई तीन पैरामीटर लेता है: S3 बकेट नाम, दस्तावेज़ Amazon S3 URI, और Amazon Comprehend वर्गीकरण समापन बिंदु ARN। Workflow2 केवल PDF इनपुट का समर्थन करता है।

हमारे परीक्षण के लिए, हम पांच अलग-अलग दस्तावेज़ प्रकारों के साथ 11-पृष्ठ बंधक दस्तावेज़ का उपयोग करते हैं।

एपीआई के लिए प्रतिक्रिया एक .zip फ़ाइल के लिए सभी विभाजित दस्तावेज़ों के साथ एक अमेज़ॅन एस 3 यूआरआई है। आप इस फाइल को बकेट में भी पा सकते हैं जिसे आपने अपने एपीआई कॉल में प्रदान किया था।

ऑब्जेक्ट डाउनलोड करें और वर्ग के आधार पर विभाजित दस्तावेज़ों की समीक्षा करें।

यह के अंत का प्रतीक है workflow2. हमने अब दिखाया है कि हम दस्तावेजों को वर्गीकृत और विभाजित करने के लिए एक कस्टम Amazon Comprehend वर्गीकरण समापन बिंदु का उपयोग कैसे कर सकते हैं।

वर्कफ़्लो 3: स्थानीय दस्तावेज़ विभाजन

हमारा तीसरा वर्कफ़्लो इसी तरह के उद्देश्य का अनुसरण करता है workflow1 और workflow2 Amazon Comprehend समापन बिंदु उत्पन्न करने के लिए; हालाँकि, Amazon Comprehend संगत CSV फ़ाइल बनाने के लिए आपकी स्थानीय मशीन का उपयोग करके सभी प्रसंस्करण किया जाता है। यह वर्कफ़्लो ग्राहकों के लिए अत्यधिक विनियमित उद्योगों में बनाया गया था जहाँ Amazon S3 पर PDF दस्तावेज़ों को बनाए रखना संभव नहीं हो सकता है। निम्नलिखित आर्किटेक्चर आरेख स्थानीय एंडपॉइंट बिल्डर वर्कफ़्लो का एक दृश्य प्रतिनिधित्व है।

निम्न आरेख स्थानीय दस्तावेज़ स्प्लिटर आर्किटेक्चर को दिखाता है।

समाधान के लिए सभी कोड में उपलब्ध है workflow3_local/local_endpointbuilder.py Amazon Comprehend वर्गीकरण समापन बिंदु बनाने के लिए फ़ाइल और workflow3_local/local_docsplitter.py बंटवारे के लिए दस्तावेज भेजने के लिए।

निष्कर्ष

दस्तावेज़ विभाजन एक सफल और बुद्धिमान दस्तावेज़ प्रोसेसिंग वर्कफ़्लो बनाने की कुंजी है। यह अभी भी व्यवसायों के लिए एक बहुत ही प्रासंगिक समस्या है, विशेष रूप से संगठन अपने दिन-प्रतिदिन के संचालन के लिए कई प्रकार के दस्तावेज़ एकत्र करते हैं। कुछ उदाहरणों में बीमा दावों के दस्तावेज़, बीमा पॉलिसी के आवेदन, SEC दस्तावेज़, टैक्स फॉर्म और आय सत्यापन फॉर्म शामिल हैं।

इस पोस्ट में, हमने लोन प्रोसेसिंग के लिए उपयोग किए जाने वाले सामान्य दस्तावेज़ों का एक सेट लिया, Amazon Textract का उपयोग करके डेटा निकाला, और एक Amazon Comprehend कस्टम वर्गीकरण समापन बिंदु बनाया। उस समापन बिंदु के साथ, हम आने वाले दस्तावेज़ों को वर्गीकृत करते हैं और उन्हें उनके संबंधित वर्ग के आधार पर विभाजित करते हैं। आप इस प्रक्रिया को विभिन्न प्रकार के उद्योगों, जैसे स्वास्थ्य सेवा और वित्तीय सेवाओं में अनुप्रयोगों के साथ दस्तावेज़ों के लगभग किसी भी सेट पर लागू कर सकते हैं। अमेज़न टेक्सट्रैक्ट के बारे में अधिक जानने के लिए, वेबपेज पर जाएँ.


लेखक के बारे में

अदिति रजनीश वाटरलू विश्वविद्यालय में प्रथम वर्ष का सॉफ्टवेयर इंजीनियरिंग का छात्र है। उनकी रुचियों में कंप्यूटर विज़न, प्राकृतिक भाषा प्रसंस्करण और एज कंप्यूटिंग शामिल हैं। वह समुदाय-आधारित एसटीईएम आउटरीच और वकालत के बारे में भी भावुक है। अपने खाली समय में, उसे रॉक क्लाइम्बिंग करते, पियानो बजाते हुए, या परफेक्ट स्कोन बेक करना सीखते हुए देखा जा सकता है।

राज पाठक कनाडा और संयुक्त राज्य अमेरिका में फॉर्च्यून 50 और मध्यम आकार के एफएसआई (बैंकिंग, बीमा, पूंजी बाजार) ग्राहकों के लिए एक समाधान वास्तुकार और तकनीकी सलाहकार है। राज दस्तावेज़ निष्कर्षण, संपर्क केंद्र परिवर्तन और कंप्यूटर विजन में अनुप्रयोगों के साथ मशीन लर्निंग में माहिर हैं।

स्रोत: https://aws.amazon.com/blogs/machine-learning/intelligently-split-multi-form-document-packages-with-amazon-texttract-and-amazon-comprehend/

समय टिकट:

से अधिक एडब्ल्यूएस मशीन लर्निंग ब्लॉग

अमेज़ॅन सेजमेकर को विश्लेषक फर्म कुपिंगरकोल के एआई सर्विस क्लाउड के मूल्यांकन में शीर्ष एआई सर्विस क्लाउड के रूप में दर्जा दिया गया है।

स्रोत नोड: 1181225
समय टिकट: अक्टूबर 19, 2021