विभिन्न आकारों और उद्योग कार्यक्षेत्रों में फैले कई संगठन अभी भी अपने दिन-प्रतिदिन के कार्यों को चलाने के लिए बड़ी मात्रा में दस्तावेजों पर निर्भर हैं। इस व्यावसायिक चुनौती को हल करने के लिए, ग्राहक एडब्ल्यूएस से बुद्धिमान दस्तावेज़ प्रसंस्करण सेवाओं का उपयोग कर रहे हैं जैसे अमेज़न टेक्सट्रेक और Amazon Comprehend के साथ मदद करने के लिए निष्कर्षण और प्रक्रिया स्वचालन. इससे पहले कि आप टेक्स्ट, की-वैल्यू पेयर, टेबल और एंटिटी को एक्सट्रेक्ट कर सकें, आपको मल्टीपेज PDF डॉक्यूमेंट्स को विभाजित करने में सक्षम होना चाहिए, जिसमें अक्सर विषम प्रकार के फॉर्म होते हैं। उदाहरण के लिए, बंधक प्रसंस्करण में, एक दलाल या ऋण प्रसंस्करण व्यक्ति को एक समेकित पीडीएफ ऋण पैकेज को विभाजित करने की आवश्यकता हो सकती है, जिसमें बंधक आवेदन (फैनी मॅई फॉर्म 1003), W2s, आय सत्यापन, 1040 टैक्स फॉर्म, और बहुत कुछ शामिल है।
इस समस्या से निपटने के लिए, संगठन नियम-आधारित प्रसंस्करण का उपयोग करते हैं: प्रपत्र शीर्षकों, पृष्ठ संख्याओं, प्रपत्रों की लंबाई आदि के माध्यम से दस्तावेज़ प्रकारों की पहचान करना। ये दृष्टिकोण त्रुटि-प्रवण हैं और स्केल करना मुश्किल है, खासकर जब प्रपत्र प्रकारों में कई विविधताएँ हो सकती हैं। तदनुसार, ये वर्कअराउंड अभ्यास में जल्दी टूट जाते हैं और मानवीय हस्तक्षेप की आवश्यकता को बढ़ाते हैं।
इस पोस्ट में, हम दिखाते हैं कि कैसे आप कस्टम नियमों या प्रसंस्करण कार्यप्रवाहों के निर्माण के बिना, प्रपत्रों के किसी भी सेट के लिए छोटे कोड के साथ अपना स्वयं का दस्तावेज़ विभाजन समाधान बना सकते हैं।
समाधान अवलोकन
इस पोस्ट के लिए, हम यह प्रदर्शित करने के लिए सामान्य मॉर्टगेज एप्लिकेशन फॉर्म के एक सेट का उपयोग करते हैं कि आप एक बुद्धिमान दस्तावेज़ स्प्लिटर बनाने के लिए Amazon Textract और Amazon Comprehend का उपयोग कैसे कर सकते हैं जो पहले के दृष्टिकोणों की तुलना में अधिक मजबूत है। बंधक आवेदनों के लिए दस्तावेजों को संसाधित करते समय, उधारकर्ता एक बहुपृष्ठ पीडीएफ प्रस्तुत करता है जो अलग-अलग पृष्ठ लंबाई के विषम दस्तावेज़ प्रकारों से बना होता है; जानकारी निकालने के लिए, उपयोगकर्ता (उदाहरण के लिए, एक बैंक) को इस पीडीएफ को तोड़ना होगा।
यद्यपि हम बंधक रूपों के लिए एक विशिष्ट उदाहरण दिखाते हैं, आप आम तौर पर बहु-पृष्ठ पीडीएफ दस्तावेज़ों के किसी भी सेट के बारे में इस दृष्टिकोण को माप सकते हैं और लागू कर सकते हैं।
हम दस्तावेज़ से डेटा निकालने के लिए Amazon Textract का उपयोग करते हैं और a को प्रशिक्षित करने के लिए Amazon Comprehend संगत डेटासेट का निर्माण करते हैं दस्तावेज़ वर्गीकरण मॉडल. अगला, हम वर्गीकरण मॉडल को प्रशिक्षित करते हैं और एक वर्गीकरण समापन बिंदु बनाते हैं जो वास्तविक समय दस्तावेज़ विश्लेषण कर सकता है। ध्यान रखें कि Amazon Textract और Amazon Comprehend वर्गीकरण समापन बिंदुओं पर शुल्क लगता है, इसलिए इसे देखें अमेज़ॅन टेक्सट्रेक मूल्य निर्धारण और अमेज़ॅन समझाना मूल्य निर्धारण अधिक जानकारी के लिए। अंत में, हम दिखाते हैं कि हम इस समापन बिंदु के साथ दस्तावेज़ों को कैसे वर्गीकृत कर सकते हैं और वर्गीकरण परिणामों के आधार पर दस्तावेज़ों को विभाजित कर सकते हैं।
यह समाधान निम्नलिखित AWS सेवाओं का उपयोग करता है:
.. पूर्वापेक्षाएँ
इस समाधान को बनाने और परिनियोजित करने के लिए आपको निम्नलिखित पूर्वापेक्षाएँ पूरी करनी होंगी:
- स्थापित करें पायथन 3.8.x.
- स्थापित करें जेक्यू।
- स्थापित करें एडब्ल्यूएस सैम सीएलआई।
- स्थापित करें डाक में काम करनेवाला मज़दूर.
- आप सुनिश्चित करें कि आपके पास पाइप स्थापित.
- स्थापित करें और कॉन्फ़िगर करें la AWS कमांड लाइन इंटरफ़ेस (AWS CLI)।
- कॉन्फ़िगर आपके AWS क्रेडेंशियल.
समाधान को बेहतर तरीके से काम करने के लिए डिज़ाइन किया गया है us-east-1
और us-west-2
Amazon Textract के लिए उच्च डिफ़ॉल्ट कोटा का लाभ लेने के लिए क्षेत्र। विशिष्ट क्षेत्रीय वर्कलोड के लिए देखें अमेज़ॅन टेक्सट्रैक्ट एंडपॉइंट्स और कोटा. सुनिश्चित करें कि आप संपूर्ण समाधान के लिए एक ही क्षेत्र का उपयोग करते हैं।
रेपो को क्लोन करें
आरंभ करने के लिए, निम्न कमांड चलाकर रिपॉजिटरी को क्लोन करें; फिर हम कार्यशील निर्देशिका में स्विच करते हैं:
समाधान कार्यप्रवाह
समाधान में तीन वर्कफ़्लो होते हैं:
- वर्कफ़्लो1_endpointbuilder - प्रशिक्षण दस्तावेज़ लेता है और Amazon Comprehend पर एक कस्टम वर्गीकरण समापन बिंदु बनाता है।
- वर्कफ़्लो2_डॉक्सप्लिटर - दस्तावेज़ विभाजन सेवा के रूप में कार्य करता है, जहाँ दस्तावेज़ वर्ग द्वारा विभाजित होते हैं। यह में निर्मित वर्गीकरण समापन बिंदु का उपयोग करता है
workflow1
. - वर्कफ़्लो3_लोकल - उन ग्राहकों के लिए अभिप्रेत है जो अत्यधिक विनियमित उद्योगों में हैं और Amazon S3 में डेटा को बनाए नहीं रख सकते। इस कार्यप्रवाह में के स्थानीय संस्करण शामिल हैं
workflow1
औरworkflow2
.
आइए प्रत्येक वर्कफ़्लो और उनके कार्य करने के तरीके के बारे में गहराई से जानें.
वर्कफ़्लो 1: PDF, JPG, या PNG दस्तावेज़ों से Amazon Comprehend क्लासिफ़ायर बनाएँ
पहला वर्कफ़्लो Amazon S3 पर संग्रहीत दस्तावेज़ लेता है और उन्हें Amazon Textract के माध्यम से दस्तावेज़ों से डेटा निकालने के लिए चरणों की एक श्रृंखला के माध्यम से भेजता है। फिर, निकाले गए डेटा का उपयोग Amazon Comprehend कस्टम वर्गीकरण समापन बिंदु बनाने के लिए किया जाता है। यह निम्नलिखित आर्किटेक्चर आरेख में प्रदर्शित किया गया है।
शुभारंभ करना workflow1
, आपको प्रशिक्षण डेटासेट फ़ाइलों वाले फ़ोल्डर के Amazon S3 URI की आवश्यकता है (ये चित्र, एकल-पृष्ठ PDF या बहुपृष्ठ PDF हो सकते हैं)। फ़ोल्डर की संरचना इस प्रकार होनी चाहिए:
वैकल्पिक रूप से, संरचना में अतिरिक्त नेस्टेड उपनिर्देशिकाएँ हो सकती हैं:
वर्ग उपनिर्देशिका (द्वितीय निर्देशिका स्तर) के नाम Amazon Comprehend कस्टम वर्गीकरण मॉडल में उपयोग की जाने वाली कक्षाओं के नाम बन जाते हैं। उदाहरण के लिए, निम्न फ़ाइल संरचना में, वर्ग for form123.pdf
is tax_forms
:
वर्कफ़्लो लॉन्च करने के लिए, निम्न चरणों को पूरा करें:
- डेटासेट को अपने स्वामित्व वाली S3 बकेट में अपलोड करें।
अनुशंसा है कि आप जिस वर्ग को वर्गीकृत करना चाहते हैं, उसके लिए 50 से अधिक नमूने हों। निम्न स्क्रीनशॉट इस दस्तावेज़ वर्ग संरचना का एक उदाहरण दिखाता है।
- बनाएँ
sam-app
निम्नलिखित आदेशों को चलाकर (आवश्यकतानुसार प्रदान किए गए आदेशों को संशोधित करें):
बिल्ड का आउटपुट स्टेप फंक्शंस स्टेट मशीन के लिए ARN है।
- जब बिल्ड पूरा हो जाए, तो नेविगेट करें राज्य मशीनें स्टेप फंक्शंस कंसोल पर पेज।
- आपके द्वारा बनाई गई राज्य मशीन चुनें।
- चुनें अमल शुरू करो.
- निम्नलिखित आवश्यक इनपुट पैरामीटर दर्ज करें:
राज्य मशीन वर्कफ़्लो शुरू करती है। डेटासेट के आकार के आधार पर इसमें कई घंटे लग सकते हैं। निम्न स्क्रीनशॉट हमारी राज्य मशीन को प्रगति पर दिखाता है।
जब राज्य मशीन पूरी हो जाती है, तो ग्राफ में प्रत्येक चरण हरा होता है, जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है।
परिनियोजित किए गए समापन बिंदु को देखने के लिए आप Amazon Comprehend कंसोल पर नेविगेट कर सकते हैं।
आपने अब अपने दस्तावेज़ों का उपयोग करके अपना कस्टम क्लासिफायर बनाया है। यह अंत का प्रतीक है workflow1
.
वर्कफ़्लो 2: एक समापन बिंदु बनाएँ
दूसरा वर्कफ़्लो आपके द्वारा बनाए गए समापन बिंदु को लेता है workflow1
और उन वर्गों के आधार पर दस्तावेज़ों को विभाजित करता है जिनके साथ मॉडल को प्रशिक्षित किया गया है। यह निम्नलिखित आर्किटेक्चर आरेख में प्रदर्शित किया गया है।
शुभारंभ करना workflow2
, हम बनाते हैं sam-app
. प्रदान किए गए आदेशों को आवश्यकतानुसार संशोधित करें:
स्टैक बनने के बाद, आपको लोड बैलेंसर DNS पर प्राप्त होता है आउटपुट CloudFormation स्टैक का टैब। आप इस एंडपॉइंट के लिए अनुरोध करना शुरू कर सकते हैं।
में एक नमूना अनुरोध उपलब्ध है workflow2_docsplitter/sample_request_folder/sample_s3_request.py
फ़ाइल। एपीआई तीन पैरामीटर लेता है: S3 बकेट नाम, दस्तावेज़ Amazon S3 URI, और Amazon Comprehend वर्गीकरण समापन बिंदु ARN। Workflow2 केवल PDF इनपुट का समर्थन करता है।
हमारे परीक्षण के लिए, हम पांच अलग-अलग दस्तावेज़ प्रकारों के साथ 11-पृष्ठ बंधक दस्तावेज़ का उपयोग करते हैं।
एपीआई के लिए प्रतिक्रिया एक .zip फ़ाइल के लिए सभी विभाजित दस्तावेज़ों के साथ एक अमेज़ॅन एस 3 यूआरआई है। आप इस फाइल को बकेट में भी पा सकते हैं जिसे आपने अपने एपीआई कॉल में प्रदान किया था।
ऑब्जेक्ट डाउनलोड करें और वर्ग के आधार पर विभाजित दस्तावेज़ों की समीक्षा करें।
यह के अंत का प्रतीक है workflow2
. हमने अब दिखाया है कि हम दस्तावेजों को वर्गीकृत और विभाजित करने के लिए एक कस्टम Amazon Comprehend वर्गीकरण समापन बिंदु का उपयोग कैसे कर सकते हैं।
वर्कफ़्लो 3: स्थानीय दस्तावेज़ विभाजन
हमारा तीसरा वर्कफ़्लो इसी तरह के उद्देश्य का अनुसरण करता है workflow1
और workflow2
Amazon Comprehend समापन बिंदु उत्पन्न करने के लिए; हालाँकि, Amazon Comprehend संगत CSV फ़ाइल बनाने के लिए आपकी स्थानीय मशीन का उपयोग करके सभी प्रसंस्करण किया जाता है। यह वर्कफ़्लो ग्राहकों के लिए अत्यधिक विनियमित उद्योगों में बनाया गया था जहाँ Amazon S3 पर PDF दस्तावेज़ों को बनाए रखना संभव नहीं हो सकता है। निम्नलिखित आर्किटेक्चर आरेख स्थानीय एंडपॉइंट बिल्डर वर्कफ़्लो का एक दृश्य प्रतिनिधित्व है।
निम्न आरेख स्थानीय दस्तावेज़ स्प्लिटर आर्किटेक्चर को दिखाता है।
समाधान के लिए सभी कोड में उपलब्ध है workflow3_local/local_endpointbuilder.py
Amazon Comprehend वर्गीकरण समापन बिंदु बनाने के लिए फ़ाइल और workflow3_local/local_docsplitter.py
बंटवारे के लिए दस्तावेज भेजने के लिए।
निष्कर्ष
दस्तावेज़ विभाजन एक सफल और बुद्धिमान दस्तावेज़ प्रोसेसिंग वर्कफ़्लो बनाने की कुंजी है। यह अभी भी व्यवसायों के लिए एक बहुत ही प्रासंगिक समस्या है, विशेष रूप से संगठन अपने दिन-प्रतिदिन के संचालन के लिए कई प्रकार के दस्तावेज़ एकत्र करते हैं। कुछ उदाहरणों में बीमा दावों के दस्तावेज़, बीमा पॉलिसी के आवेदन, SEC दस्तावेज़, टैक्स फॉर्म और आय सत्यापन फॉर्म शामिल हैं।
इस पोस्ट में, हमने लोन प्रोसेसिंग के लिए उपयोग किए जाने वाले सामान्य दस्तावेज़ों का एक सेट लिया, Amazon Textract का उपयोग करके डेटा निकाला, और एक Amazon Comprehend कस्टम वर्गीकरण समापन बिंदु बनाया। उस समापन बिंदु के साथ, हम आने वाले दस्तावेज़ों को वर्गीकृत करते हैं और उन्हें उनके संबंधित वर्ग के आधार पर विभाजित करते हैं। आप इस प्रक्रिया को विभिन्न प्रकार के उद्योगों, जैसे स्वास्थ्य सेवा और वित्तीय सेवाओं में अनुप्रयोगों के साथ दस्तावेज़ों के लगभग किसी भी सेट पर लागू कर सकते हैं। अमेज़न टेक्सट्रैक्ट के बारे में अधिक जानने के लिए, वेबपेज पर जाएँ.
लेखक के बारे में
अदिति रजनीश वाटरलू विश्वविद्यालय में प्रथम वर्ष का सॉफ्टवेयर इंजीनियरिंग का छात्र है। उनकी रुचियों में कंप्यूटर विज़न, प्राकृतिक भाषा प्रसंस्करण और एज कंप्यूटिंग शामिल हैं। वह समुदाय-आधारित एसटीईएम आउटरीच और वकालत के बारे में भी भावुक है। अपने खाली समय में, उसे रॉक क्लाइम्बिंग करते, पियानो बजाते हुए, या परफेक्ट स्कोन बेक करना सीखते हुए देखा जा सकता है।
राज पाठक कनाडा और संयुक्त राज्य अमेरिका में फॉर्च्यून 50 और मध्यम आकार के एफएसआई (बैंकिंग, बीमा, पूंजी बाजार) ग्राहकों के लिए एक समाधान वास्तुकार और तकनीकी सलाहकार है। राज दस्तावेज़ निष्कर्षण, संपर्क केंद्र परिवर्तन और कंप्यूटर विजन में अनुप्रयोगों के साथ मशीन लर्निंग में माहिर हैं।
- '
- 100
- 7
- अतिरिक्त
- लाभ
- सलाहकार
- वकालत
- सब
- वीरांगना
- Amazon Comprehend
- अमेज़न टेक्सट्रेक
- विश्लेषण
- एपीआई
- आवेदन
- अनुप्रयोगों
- स्थापत्य
- तर्क
- एडब्ल्यूएस
- कसरती
- बैंक
- बैंकिंग
- दलाल
- निर्माण
- निर्माता
- इमारत
- व्यापार
- व्यवसायों
- कॉल
- कनाडा
- राजधानी
- पूंजी बाजार
- चुनौती
- प्रभार
- का दावा है
- वर्गीकरण
- कोड
- सामान्य
- Computer Vision
- कंप्यूटिंग
- बनाना
- साख
- ग्राहक
- तिथि
- DNS
- डाक में काम करनेवाला मज़दूर
- दस्तावेजों
- Edge
- बढ़त कंप्यूटिंग
- endpoint
- अभियांत्रिकी
- डेटा निकालें
- निष्कर्षण
- अंत में
- वित्तीय
- वित्तीय सेवाओं
- प्रथम
- प्रपत्र
- जाना
- GitHub
- हरा
- स्वास्थ्य सेवा
- कैसे
- How To
- HTTPS
- आई ए एम
- आमदनी
- बढ़ना
- उद्योगों
- उद्योग
- करें-
- बीमा
- IT
- कुंजी
- भाषा
- बड़ा
- लांच
- जानें
- सीख रहा हूँ
- स्तर
- लाइन
- भार
- ऋण
- स्थानीय
- यंत्र अधिगम
- Markets
- आदर्श
- बंधक
- नामों
- प्राकृतिक भाषा
- प्राकृतिक भाषा संसाधन
- संख्या
- संचालन
- संगठनों
- पीडीएफ
- नीति
- अजगर
- वास्तविक समय
- उपयुक्त संसाधन चुनें
- प्रतिक्रिया
- परिणाम
- की समीक्षा
- नियम
- रन
- दौड़ना
- स्केल
- एसईसी
- कई
- सेवाएँ
- सेट
- आकार
- So
- सॉफ्टवेयर
- सॉफ्टवेयर इंजीनियरिंग
- समाधान ढूंढे
- हल
- माहिर
- विभाजित
- शुरू
- राज्य
- राज्य
- तना
- छात्र
- सफल
- समर्थन करता है
- स्विच
- कर
- तकनीकी
- परीक्षण
- लेखाचित्र
- पहर
- प्रशिक्षण
- परिवर्तन
- यूनाइटेड
- संयुक्त राज्य अमेरिका
- विश्वविद्यालय
- यूआरआइ
- सत्यापन
- दृष्टि
- कौन
- काम
- वर्कफ़्लो
- X