आरपीए और दस्तावेज़ समझ के साथ ओसीआर के लिए एक व्यापक गाइड

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

अंतिम अपडेट: जनवरी, २०२१

यह ब्लॉग आपके दस्तावेज़ वर्कफ़्लो को स्वचालित करने के लिए किसी भी RPA टूल के साथ OCR का उपयोग करने का एक व्यापक अवलोकन है। हम पता लगाते हैं कि नवीनतम मशीन लर्निंग आधारित ओसीआर प्रौद्योगिकियों को नियमों या टेम्पलेट सेटअप की आवश्यकता नहीं है।

RPA या रोबोटिक प्रक्रिया स्वचालन दोहराए जाने वाले व्यावसायिक कार्यों को समाप्त करने के उद्देश्य से सॉफ़्टवेयर उपकरण हैं। अधिक CIO लागत कम करने के लिए उनकी ओर रुख कर रहे हैं और कर्मचारियों को उच्च मूल्य वाले व्यावसायिक कार्यों पर ध्यान केंद्रित करने में मदद कर रहे हैं। उदाहरणों में वेबसाइटों या ग्राहक ऑर्डर प्रोसेसिंग पर टिप्पणियों का जवाब देना शामिल है। थोड़ा और अधिक जटिल कार्यों में दस्तावेजों को संभालना शामिल है जैसे हस्तलिखित रूप और चालान - इन्हें आम तौर पर एक विरासत प्रणाली से दूसरे में स्थानांतरित करने की आवश्यकता होती है - अपने ईमेल क्लाइंट को अपने एसएपी ईआरपी सिस्टम में कहें जहां आपको डेटा निकालने की आवश्यकता होती है। यह समस्याग्रस्त हिस्सा है।

अधिकांश ओसीआर उपकरण जो इन दस्तावेज़ों से डेटा कैप्चर करते हैं, वे टेम्पलेट आधारित होते हैं (कहते हैं एब्बी फ्लेक्सीकैप्चर) और अर्ध-संरचित दस्तावेजों पर अच्छी तरह से पैमाना नहीं है। नई पीढ़ी के मशीन लर्निंग आधारित समाधान हैं जो आम तौर पर एपीआई प्रदान करते हैं
एकीकरण जो दस्तावेजों से कुंजी-मूल्य जोड़े को पकड़ सकते हैं - उद्यम प्रणाली आमतौर पर विरासत हैं और बाहरी एपीआई के साथ एकीकृत करने के लिए खुले नहीं हैं। दूसरी ओर, RPAs इन विरासत प्रणाली वर्कफ़्लोज़ को संभालने के लिए बनाए जाते हैं जैसे कि फ़ोल्डर्स से दस्तावेज़ों को अंतर्ग्रहण करना और परिणाम को ERP या CRM में दर्ज करना।

जैसा कि रोबोटिक प्रोसेस ऑटोमेशन (RPA) और ML हाइपर ऑटोमेशन की ओर विकसित हो रहा है, हम जटिल वर्गीकरण जैसे डॉक्यूमेंट क्लासिफिकेशन, एक्सट्रैक्शन और ऑप्टिकल कैरेक्टर रिकॉग्निशन को संभालने के लिए ML के साथ मिलकर सॉफ्टवेयर बॉट्स का उपयोग कर सकते हैं। हाल के एक अध्ययन में, यह कहा गया कि RPA का उपयोग करके किसी कार्य के लिए केवल 29% कार्यों को स्वचालित करके, वित्त विभाग अकेले 25,000 पूर्ण संगठन वाले संगठन के लिए प्रति वर्ष $ 878,000 की लागत पर मानव त्रुटियों के कारण होने वाले 40 से अधिक घंटे बचाते हैं। समय लेखा कर्मचारी [१]। इस ब्लॉग में, हम RPA के साथ OCR का उपयोग करने और वर्कफ़्लो को समझने में दस्तावेज़ में गहरी गोता लगाने के बारे में सीखेंगे। नीचे सामग्री की तालिका दी गई है।

परिभाषाएँ और अवलोकन

आरपीए, सामान्य तौर पर, एक ऐसी तकनीक है जो सॉफ्टवेयर-हार्डवेयर बॉट्स के माध्यम से प्रशासनिक कार्यों को स्वचालित करने में मदद करती है। ये बॉट यूजर इंटरफेस का फायदा उठाते हैं; डेटा को कैप्चर करने और इंसानों की तरह अनुप्रयोगों में हेरफेर करने के लिए। उदाहरण के लिए, एक RPA GUI में किए गए कार्यों की एक श्रृंखला को देख सकता है, जैसे कि कर्सर ले जाना, API से कनेक्ट करना, डेटा को कॉपी-पेस्ट करना, और RPA वायरफ्रेम में क्रियाओं के समान अनुक्रम को तैयार करता है जो कोड में अनुवाद करता है। इसके अलावा, इन कार्यों को भविष्य में मानवीय हस्तक्षेप के बिना किया जा सकता है। ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) किसी भी कार्यात्मक रोबोटिक प्रक्रिया स्वचालन (आरपीए) समाधान की एक महत्वपूर्ण विशेषता है। इस तकनीक का उपयोग विभिन्न स्रोतों जैसे छवियों या से पाठ को पढ़ने और निकालने के लिए किया जाता है pdfs इसे मैन्युअल रूप से कैप्चर किए बिना एक डिजिटल प्रारूप में।

दूसरी ओर, दस्तावेज़ समझ शब्द का उपयोग दस्तावेज़ डेटा पर पढ़ने, व्याख्या करने और अभिनय करने के लिए स्वचालित रूप से वर्णन करने के लिए किया जाता है। इस प्रक्रिया में सबसे महत्वपूर्ण है सॉफ्टवेयर बॉट्स ही सभी कार्य करते हैं। दस्तावेज़ों को डिजिटल सहायक के रूप में समझने के लिए ये बॉट आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग की शक्ति का लाभ उठाते हैं। इस तरह, हम कह सकते हैं कि दस्तावेज़ की समझ दस्तावेज़ प्रसंस्करण, AI और RPA के चौराहे पर उभरती है।

दस्तावेज़ की समझ दस्तावेज़ प्रसंस्करण, AI और RPA के चौराहे पर उभरती है। [छवि स्रोत: Ui पथ दस्तावेज़ को समझना [२]]

ओसीआर और एमएल के साथ दस्तावेजों को समझने के लिए रोबोट कैसे सीख सकते हैं

इससे पहले कि हम पहले डॉक्यूमेंट अंडरस्टैंडिंग में गहराई से गोता लगाएँ, आइए डॉक्यूमेंट अंडरस्टैंडिंग के लिए रोबोट की भूमिका के बारे में बात करते हैं। ये पूरी तरह से अदृश्य मददगार हमारे जीवन को और अधिक आरामदायक बनाते हैं। फिल्मों और श्रृंखलाओं के विपरीत, ये रोबोट भौतिक उपकरण या कृत्रिम बुद्धिमत्ता कार्यक्रम नहीं हैं जो डेस्कटॉप पर बैठते हैं और कार्यों को करने के लिए बटन दबाते हैं। हम इन्हें डिजिटल असिस्टेंट के रूप में सोच सकते हैं, जिन्हें हम पढ़कर और अनुप्रयोगों का उपयोग करके दस्तावेजों को संसाधित करने के लिए प्रशिक्षित किया जाता है। कार्यात्मक पक्ष पर, रोबोट एक प्रक्रिया के प्रदर्शन और दक्षता में सुधार करने में अच्छे हैं। फिर भी, वे एक स्टैंडअलोन सॉफ्टवेयर हैं, प्रक्रिया का मूल्यांकन नहीं कर सकते हैं और संज्ञानात्मक निर्णय ले सकते हैं। हालांकि, अगर मशीन सीखने को सफलतापूर्वक एकीकृत किया जाता है, तो रोबोटिक्स अधिक गतिशील और अनुकूली हो जाएगा। उदाहरण के लिए, दस्तावेज़ प्रसंस्करण, डेटा प्रबंधन और सामने और मध्य कार्यालय में अन्य कार्यों के लिए उपयोग किए जाने वाले रोबोट अधिक बुद्धिमान क्रियाएं करेंगे, जैसे कि डुप्लिकेट प्रविष्टियों को समाप्त करना या प्रक्रिया में अज्ञात सिस्टम अपवादों को हल करना। इसके अलावा, रोबोट को कृत्रिम बुद्धिमत्ता (एआई) का उपयोग करके दस्तावेजों से डेटा को पढ़ने, निकालने, व्याख्या करने और कार्य करने के लिए प्रशिक्षित किया जाता है।

वर्कफ़्लोज़ को बेहतर बनाने के लिए कंपनियां RPA के साथ बुद्धिमान OCR को कैसे एकीकृत कर सकती हैं

दस्तावेज़ डेटा निकालना दस्तावेज़ समझ के लिए एक महत्वपूर्ण घटक है। इस खंड में, हम चर्चा करेंगे कि हम OCR को RPA या इसके विपरीत कैसे एकीकृत कर सकते हैं। सबसे पहले, हम सभी जानते थे कि टेम्पलेट, शैली, स्वरूपण और कभी-कभी भाषा के संदर्भ में विभिन्न प्रकार के दस्तावेज़ हैं। इसलिए हम इन दस्तावेजों से डेटा निकालने के लिए एक साधारण ओसीआर तकनीक पर भरोसा नहीं कर सकते। इस समस्या के समाधान के लिए, हम विभिन्न दस्तावेज़ संरचनाओं से डेटा को संभालने के लिए OCR के भीतर नियम-आधारित दृष्टिकोण और मॉडल-आधारित दृष्टिकोण दोनों का उपयोग करेंगे। अब हम देखेंगे कि OCR करने वाली कंपनियाँ किस प्रकार के दस्तावेजों के आधार पर अपने मौजूदा सिस्टम में RPA को एकीकृत कर सकती हैं।

संरचित दस्तावेज: इस प्रकार के दस्तावेजों में, लेआउट और टेम्पलेट आमतौर पर तय होते हैं और लगभग सुसंगत होते हैं। उदाहरण के लिए, एक संगठन पर विचार करें जो सरकार द्वारा जारी आईडी जैसे पासपोर्ट या ड्राइविंग लाइसेंस के साथ केवाईसी करता है। ये सभी दस्तावेज समान होंगे और इनमें समान संख्याएँ जैसे ID नंबर, व्यक्ति का नाम, आयु और समान पदों पर कुछ अन्य होंगे। लेकिन केवल विवरण भिन्न हैं। टेबल ओवरफ्लो करने या अनफ़िल्टर्ड डेटा जैसी कुछ अड़चनें हो सकती हैं।

आमतौर पर, अनुशंसित दृष्टिकोण संरचित दस्तावेजों के लिए जानकारी निकालने के लिए टेम्पलेट या नियम-आधारित इंजन का उपयोग करता है। इनमें नियमित अभिव्यक्ति या साधारण स्थिति मानचित्रण और ओसीआर शामिल हो सकते हैं। इसलिए सूचना निष्कर्षण को स्वचालित करने के लिए सॉफ़्टवेयर रोबोट को एकीकृत करने के लिए, हम या तो पहले से मौजूद टेम्पलेट्स का उपयोग कर सकते हैं या हमारे संरचित डेटा के लिए नियम बना सकते हैं। नियम-आधारित दृष्टिकोण का उपयोग करने में एक नुकसान है, क्योंकि यह निश्चित भागों पर निर्भर करता है, यहां तक कि प्रपत्र संरचना में मामूली बदलाव से नियम टूट सकते हैं।

अर्ध-संरचित दस्तावेज: इन दस्तावेजों में समान जानकारी होती है लेकिन विभिन्न पदों पर व्यवस्थित होते हैं। उदाहरण के लिए, विचार करें चालान 8-12 समान फ़ील्ड युक्त। कुछ में चालान, व्यापारी का पता शीर्ष पर स्थित हो सकता है, और अन्य में, यह नीचे पाया जा सकता है। आमतौर पर ये नियम-आधारित दृष्टिकोण उच्च सटीकता नहीं देते हैं; इसलिए हम OCR का उपयोग करके सूचना निष्कर्षण के लिए मशीन लर्निंग और डीप लर्निंग मॉडल को चित्र में लाते हैं। वैकल्पिक रूप से, कुछ मामलों में, हम नियम और एमएल मॉडल दोनों को शामिल करते हुए हाइब्रिड मॉडल का उपयोग कर सकते हैं। दस्तावेजों में सूचना निष्कर्षण के लिए कुछ लोकप्रिय पूर्व-प्रशिक्षित मॉडल फास्टआरसीएनएन, अटेंशन ओसीआर, ग्राफ कनवल्शन हैं। हालांकि, फिर से इन मॉडलों में कुछ कमियां हैं; इसलिए हम सटीकता या आत्मविश्वास स्कोर जैसे मीट्रिक का उपयोग करके एल्गोरिदम के प्रदर्शन को मापते हैं। क्योंकि मॉडल पैटर्न सीख रहा है, ठोस नियमों को संचालित करने के बजाय, यह सुधारों के ठीक बाद शुरू में गलतियाँ कर सकता है। हालांकि, इन कमियों का समाधान - एमएल मॉडल प्रक्रियाओं के जितने अधिक नमूने होंगे, सटीकता सुनिश्चित करने के लिए यह उतने ही अधिक पैटर्न सीखेंगे।

असंरचित दस्तावेज: RPA, आज असंरचित डेटा को सीधे प्रबंधित करने में असमर्थ है, इसलिए पहले रोबोट को OCR का उपयोग करके संरचित डेटा निकालने और बनाने की आवश्यकता होती है। संरचित और अर्ध-संरचित दस्तावेज़ों के विपरीत, असंरचित डेटा में कुछ कुंजी-मूल्य जोड़े नहीं होते हैं। उदाहरण के लिए, कुछ में चालान, हम बिना किसी कुंजी नाम के कहीं न कहीं एक व्यापारी का पता देखते हैं; इसी तरह, हम अन्य क्षेत्रों जैसे दिनांक, चालान आईडी के लिए भी यही देखते हैं। एमएल मॉडल के लिए इन्हें सटीक रूप से संसाधित करने के लिए, रोबोटों को यह सीखने की जरूरत है कि लिखित पाठ को ईमेल, फोन नंबर, पता आदि जैसे कार्रवाई योग्य डेटा में कैसे अनुवाद किया जाए। मॉडल तब सीखेगा कि 7- या 10-अंकीय संख्या पैटर्न निकाला जाना चाहिए। फोन नंबर और पांच अंकों के कोड वाले विशाल टेक्स्ट और टेक्स्ट के रूप में विभिन्न संज्ञाएं। इन मॉडलों को अधिक सटीक बनाने के लिए, हम नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) की तकनीकों का भी उपयोग कर सकते हैं जैसे नेम्ड एंटिटी रिकॉग्निशन और वर्ड एंबेडिंग।

समग्र रूप से दस्तावेज़ की समझ के लिए, डेटा को समझना और फिर आरपीए के साथ ओसीआर को लागू करना पहले आवश्यक है। इसके बाद, एक प्रक्रिया को चरण-दर-चरण मैप करने के बजाय, हम प्रक्रिया को रिकॉर्ड करके एक रोबोट को "जैसा मैं करते हैं" कर सकते हैं जैसा कि ऊपर चर्चा की गई शक्तिशाली ओसीआर क्षमताओं के साथ होता है, नियमों और मशीन लर्निंग एल्गोरिदम को एकीकृत करके। सॉफ़्टवेयर रोबोट स्क्रीन पर आपके क्लिक और कार्यों का अनुसरण करता है और फिर उन्हें संपादन योग्य वर्कफ़्लो में बदल देता है। यदि आप पूरी तरह से स्थानीय कार्यक्रमों में काम कर रहे हैं, तो यह उतना ही है जितना आपको जानना होगा।

OCR की चुनौतियों का सामना RPA डेवलपर्स ने किया

हमने देखा है कि हम विभिन्न दस्तावेजों के लिए OCRR को RPA के साथ कैसे एकीकृत कर सकते हैं, लेकिन चुनौतियों के कुछ मामले हैं जहां रोबोट को अच्छी तरह से संभालने की आवश्यकता है। आइए अब उनकी चर्चा करें!

कमजोर या असंगत डेटा: डॉक्यूमेंट अंडरस्टैंडिंग में डेटा एक महत्वपूर्ण भूमिका निभाता है। ज्यादातर मामलों में, दस्तावेजों का उपयोग उन कैमरों का उपयोग करके किया जाता है जहां पाठ स्कैनिंग के दौरान दस्तावेज़ स्वरूपण को खोने का एक मौका होता है (यानी, बोल्ड, इटैलिक और अंडरलाइन हमेशा पहचाने नहीं जाते हैं)। कभी-कभी, OCR गलत तरीके से टेक्स्ट को निकाल सकता है, जिससे वर्तनी की त्रुटियां हो सकती हैं, अनियमित पैराग्राफ टूट सकते हैं, जो रोबोट के समग्र प्रदर्शन को कम करता है। इसलिए सभी लापता मूल्यों को संभालने और उच्च परिशुद्धता के साथ डेटा को कैप्चर करना ओसीआर के लिए उच्च सटीकता प्राप्त करने के लिए महत्वपूर्ण है।
दस्तावेजों में गलत पेज ओरिएंटेशन: पृष्ठ अभिविन्यास और तिरछापन भी एक आम समस्या है जो OCR के गलत पाठ सुधार को जन्म देती है। यह आमतौर पर तब होता है जब डेटा संग्रह चरण के दौरान दस्तावेजों को गलत तरीके से स्कैन किया जाता है। इसे दूर करने के लिए, हमें रोबोट को ऑटो-फिट टू पेज, ऑटो-फिल्टर जैसे कुछ कार्यों की घोषणा करनी होगी ताकि वे स्कैन किए गए दस्तावेज़ की गुणवत्ता में वृद्धि और आउटपुट पर सही डेटा प्राप्त करने में सक्षम हो सकें।
एकीकरण समस्याएं: सभी आरपीए उपकरण दूरस्थ डेस्कटॉप वातावरण पर अच्छा प्रदर्शन नहीं करते हैं - वे स्वचालन में क्रैश और महत्वपूर्ण समस्याएं पैदा करते हैं। क्या अधिक है, आरपीए डेवलपर को यह जानना होगा कि किसी विशिष्ट मामले के लिए कौन सा ओसीआर समाधान सबसे अच्छा होगा। इसके अलावा, विशिष्ट स्वचालन टूल के साथ काम करने के लिए, आरपीए डेवलपर को Microsoft, Google द्वारा बनाई गई केवल सीमित ओसीआर तकनीक का चयन करने की आवश्यकता है। इसलिए हमारे कस्टम एल्गोरिदम और मॉडल को एकीकृत करना कभी-कभी चुनौतीपूर्ण होता है।
सभी पाठ में टेढ़ा पाठ है: वास्तविक जीवन के उपयोग के मामलों के लिए, एक सामान्य OCR द्वारा कैप्चर किए गए पाठ को सभी में खंगाला गया है और इसमें कोई सार्थक जानकारी नहीं है कि बॉट महत्वपूर्ण संचालन करने के लिए उपयोग कर सकते हैं। उपयोगी अनुप्रयोगों के निर्माण में सक्षम होने के लिए आरपीए डेवलपर्स को मजबूत एमएल समर्थन की आवश्यकता होती है।

वर्कफ़्लो को समझने वाले दस्तावेज़ के लिए पाइपलाइन

पिछले अनुभागों में, हमने देखा है कि कैसे बॉट विभिन्न प्रकार के दस्तावेज़ों के लिए ओसीआर प्रदर्शन करने में मदद करते हैं। लेकिन ओसीआर सिर्फ एक तकनीक है जो छवियों या अन्य फ़ाइलों को पाठ में परिवर्तित करती है। अब, इस खंड में, हम दस्तावेज़ों को एकत्रित करने की शुरुआत से ही दस्तावेज़ को समझने वाले वर्कफ़्लो को सही रूप में देखना चाहेंगे ताकि उन्हें वांछित प्रारूप में सार्थक जानकारी की बचत हो सके।

अपने बीओटी का उपयोग करते हुए एक फ़ोल्डर से दस्तावेज़ को सम्मिलित करें: बॉट्स के माध्यम से दस्तावेज़ समझ हासिल करने के माध्यम से यह पहला कदम है। यहां, हम या तो क्लाउड प्लेटफ़ॉर्म (एपीआई का उपयोग करके) या स्थानीय मशीन से स्थित दस्तावेज़ लाएंगे। कुछ मामलों में, यदि हमारे दस्तावेज़ वेब पृष्ठों पर हैं, तो हम बॉट के माध्यम से स्क्रैपिंग स्क्रिप्ट को स्वचालित कर सकते हैं जहां वे समय पर दस्तावेज़ ला सकते हैं।
दस्तावेज़ का प्रकार: डेटा प्राप्त करने के बाद, दस्तावेज़ के प्रकार और प्रारूप को समझना आवश्यक है जिसके साथ वे हमारे सिस्टम में सहेजे जाते हैं, कभी-कभी, हम विभिन्न फ़ाइल स्वरूपों में विभिन्न स्रोतों से डेटा प्राप्त करते हैं जैसे पीडीएफ, पीएनजी, और जेपीजी। केवल फ़ाइल प्रकार ही नहीं, कभी-कभी जब दस्तावेज़ों को फ़ोन कैमरों से स्कैन किया जाता है, तो छवि की विषमता, रोटेशन, चमक, या कम-रिज़ॉल्यूशन जैसी कुछ चुनौतीपूर्ण समस्याओं को भी नियंत्रित किया जाना चाहिए। इस प्रकार, हमें यह सुनिश्चित करना होगा कि बॉट इन दस्तावेज़ों को संरचित, अर्ध-संरचित, या असंरचित श्रेणी में वर्गीकृत करते हैं, इस प्रकार इसे एक सामान्य प्रारूप में सहेजते हैं। टेम्प्लेट के साथ दस्तावेजों की तुलना करके और फोंट, भाषा, की-वैल्यू पेयर, टेबल आदि जैसी सुविधाओं का विश्लेषण करके वर्गीकरण कार्य प्राप्त किया जाता है।
ओसीआर के साथ डेटा निकालना: ठीक है, अब जब बॉट ने हमारे दस्तावेजों को एक सामान्य प्रारूप में व्यवस्थित किया और उन्हें वर्गीकृत किया, तो हमारे लिए यह समय है कि हम ओसीआर तकनीक का उपयोग करके उन्हें डिजिटल करें। इसके साथ, हमारे पास टेक्स्ट होगा, छवियों से सह-समन्वय में इसका स्थान। यह बाद के चरणों के लिए दस्तावेजों और डेटा को मानकीकृत करने में मदद करता है। जब कुछ OCR सॉफ़्टवेयर सही ढंग से वर्णों के बीच अंतर नहीं कर पाता, तो हम कुछ का सामना करते हैं, जैसे 't' बनाम 'i', या '0' बनाम 'O'। ओसीआर सॉफ्टवेयर का उपयोग करके आप जो बहुत गलतियाँ करना चाहते हैं, वह नए सिरदर्द बन सकते हैं, जब ओसीआर तकनीक अपनी गुणवत्ता या मूल रूप के आधार पर किसी दस्तावेज़ की बारीकियों का विश्लेषण करने में असमर्थ है। यहीं मशीन लर्निंग चित्र में आता है, जिसकी चर्चा हम अगले चरण में करेंगे।
बॉट का उपयोग कर बुद्धिमान ओसीआर के लिए एमएल / डीएल का लाभ उठाना: डेटा के डिजीटल होने के बाद, OCR सॉफ्टवेयर को यह समझना चाहिए कि यह किस तरह के दस्तावेज़ के साथ काम कर रहा है और क्या प्रासंगिक है। लेकिन पारंपरिक OCR सॉफ्टवेयर दस्तावेज़ वर्गीकरण के पैमाने पर संघर्ष कर सकता है। इसलिए सॉफ्टवेयर बॉट को OCRs को अधिक बुद्धिमान बनाने के लिए मशीन लर्निंग और डीप लर्निंग तकनीक द्वारा संज्ञानात्मक क्षमताओं के साथ प्रशिक्षित किया जाना चाहिए। एमएल-आधारित ओसीआर समाधान एक दस्तावेज़ प्रकार की पहचान कर सकते हैं और इसे आपके व्यवसाय द्वारा उपयोग किए जाने वाले एक ज्ञात दस्तावेज़ प्रकार के खिलाफ मैच कर सकते हैं। वे बिना दस्तावेज में पाठ के ब्लॉक को पार्स और समझ सकते हैं। एक बार जब समाधान स्वयं दस्तावेज़ के बारे में अधिक जानता है, तो यह इरादे और अर्थ के आधार पर प्रासंगिक जानकारी निकालना शुरू कर सकता है।
बेहतर डेटा निष्कर्षण और वर्गीकरण: डेटा निष्कर्षण डॉक्यूमेंट अंडरस्टैंडिंग का मूल है। जैसा कि इस चरण में OPA के साथ RPA के एकीकरण पर पिछले खंड में चर्चा की गई है, दस्तावेज़ के प्रकार के आधार पर डेटा निष्कर्षण तकनीक का चयन करें। RPA के माध्यम से, हम आसानी से कॉन्फ़िगर कर सकते हैं कि किस एक्सट्रैक्टर का उपयोग करना है, चाहे एक नियम-आधारित या एमएल-आधारित या एक हाइब्रिड मॉडल OCR तकनीक। सूचना निष्कर्षण के बाद लौटाए गए आत्मविश्वास और प्रदर्शन मेट्रिक्स के आधार पर, सॉफ्टवेयर रोबोट उन्हें आगे के विश्लेषण के लिए हमारे वांछित प्रारूप में बचाएगा। नीचे एक छवि है कि हम अर्क को कैसे कॉन्फ़िगर कर सकते हैं और UIPath द्वारा RPA टूल में विश्वास स्तर सेट कर सकते हैं।

*UI पथ में दस्तावेज़ अंडरस्टैंडिंग के लिए आवश्यक एक्सट्रैक्टर्स चुनना*

6. सत्यापन और सशक्तिकरण अंतर्दृष्टि: OCR और मशीन लर्निंग मॉडल सूचना निष्कर्षण के संदर्भ में सौ प्रतिशत सटीक नहीं हैं, इसलिए रोबोट की मदद से मानव हस्तक्षेप की एक परत को जोड़ने से समस्या का समाधान हो सकता है। जिस तरह से यह सत्यापन कार्य करता है वह यह है कि जब भी रोबोट कम सटीकता और अपवादों से निपटते हैं, तो यह तुरंत कार्रवाई केंद्र को एक अधिसूचना देता है जहां एक कर्मचारी डेटा को मान्य करने या अपवादों को संभालने का अनुरोध प्राप्त कर सकता है और क्लिक के एक मामले में किसी भी अनिश्चितता को हल कर सकता है। इसके अलावा, हम भविष्यवाणियों को बनाने के लिए कृत्रिम बुद्धिमत्ता की क्षमता को समय के साथ दस्तावेज़ में अनलॉक कर सकते हैं, और संभावित विसंगतियों की पहचान कर सकते हैं जो धोखाधड़ी, दोहराव और अन्य त्रुटियों का संकेत दे सकती हैं।

दस्तावेज़ को समझने के साथ रोबोट को एकीकृत करने के लाभ

स्वचालित प्रक्रिया: दस्तावेज़ समझ के लिए बॉट्स को एकीकृत करने का मुख्य कारण शुरू से अंत तक पूरी प्रक्रिया को स्वचालित करना है। बस हमें बॉट्स सीखने, वापस बैठने और आराम करने के लिए वर्कफ़्लो बनाने की ज़रूरत है। सत्यापन प्रक्रिया के दौरान, हमें उन मुद्दों को संबोधित करने की आवश्यकता हो सकती है जो बॉट द्वारा अधिसूचित किए जाते हैं जहां किसी भी त्रुटि या धोखाधड़ी की पहचान की जाती है।
मशीन लर्निंग के साथ बॉट: स्वचालन प्रक्रिया के दौरान, हम बॉट को मशीन सीखने के लिए लचीला बना सकते हैं। मतलब रोबोट यह भी सीख सकते हैं कि मशीन लर्निंग मॉडल कैसे प्रदर्शन कर रहे हैं और इस प्रकार दस्तावेजों के पाठ और सूचना निष्कर्षण के लिए उच्च सटीकता और प्रदर्शन प्राप्त करने के लिए मॉडल बढ़ाते हैं।
दस्तावेज़ प्रसंस्करण की विस्तृत प्रक्रिया: सामान्य कार्यों जैसे तालिका और सूचना निष्कर्षण के लिए, हमें विभिन्न प्रकार के दस्तावेजों के लिए अलग-अलग गहरी सीखने की पाइपलाइनें बनानी होंगी। यह कई अनुप्रयोगों के निर्माण और विभिन्न सर्वरों पर विभिन्न मॉडलों को तैनात करने की ओर जाता है, जिसके लिए बहुत प्रयास और समय की आवश्यकता होती है। जब बॉट्स दस्तावेज़ों की एक विस्तृत श्रृंखला के लिए तस्वीर में होते हैं, तो हमारे पास केवल एक ही पाइपलाइन हो सकती है जिसमें बॉट उन्हें वर्गीकृत कर सकते हैं और फिर विभिन्न कार्यों के लिए उपयुक्त मॉडल का उपयोग कर सकते हैं। हम डेटा को लाने के मामले में एपीआई के माध्यम से विभिन्न सेवाओं को एकीकृत कर सकते हैं और अन्य संगठनों के साथ संवाद कर सकते हैं।
तैनात करने के लिए आसान: पाइपलाइनों के निर्माण के बाद दस्तावेज़ की समझ के लिए, तैनाती की प्रक्रिया सिर्फ एक मिनट है। हमारे पास प्रशिक्षण के बाद बॉट्स द्वारा निर्यात किए गए एपीआई हो सकते हैं, या फिर हमारे पास एक कस्टम आरपीए समाधान हो सकता है जिसका उपयोग हमारे स्थानीय सिस्टम में किया जा सकता है। इस प्रकार की तैनाती भी उद्यमों को अनुकूलित कर सकती है और बहुत कम जोखिम वाले व्यय को कम कर सकती है।

नैनोनेट्स डालें

नैनोनेट्स एक मशीन लर्निंग प्लेटफॉर्म है जो उपयोगकर्ताओं को capture से डेटा कैप्चर करने की अनुमति देता है चालान, रसीदें, और अन्य दस्तावेज़ बिना किसी टेम्पलेट सेटअप के। हमारे पास अत्याधुनिक डीप लर्निंग और कंप्यूटर विज़न एल्गोरिदम हैं जो पीछे चल रहे हैं जो ओसीआर, टेबल एक्सट्रैक्शन, की-वैल्यू पेयर एक्सट्रैक्शन जैसे किसी भी तरह के दस्तावेज़ समझने के कार्यों को संभाल सकते हैं। उन्हें आमतौर पर एपीआई के रूप में निर्यात किया जाता है या विभिन्न उपयोग के मामलों के आधार पर परिसर में तैनात किया जा सकता है। कुछ उदाहरण निम्नलिखित हैं,

चालान मॉडल: से प्रमुख क्षेत्रों की पहचान करें चालान जैसे खरीदारों का नाम, चालान आईडी, तिथि, राशि इत्यादि।
प्राप्तियां मॉडल: प्राप्तियों से प्रमुख क्षेत्रों की पहचान करें जैसे विक्रेता का नाम, संख्या, दिनांक, राशि आदि।
ड्राइविंग लाइसेंस (यूएसए): लाइसेंस नंबर, डीओबी, एक्सपायरी डेट, इश्यू डेट आदि जैसे प्रमुख क्षेत्रों की पहचान करें।
रिज्यूमेः एक्सपीरियंस एक्सपीरियंस, एजुकेशन, स्किल सेट्स, कैंडिडेट इंफॉर्मेशन आदि।

इन वर्कफ़्लोज़ को तेज़ और मज़बूत बनाने के लिए, हम बिना किसी टेम्पलेट के आपके दस्तावेज़ों के निर्बाध स्वचालन के लिए एक RPA टूल UiPath का उपयोग करते हैं। अगले भाग में, हम यह जानेंगे कि आप दस्तावेज़ को समझने के लिए नैनोनेट्स के साथ UiPath Connect का उपयोग कैसे कर सकते हैं। RPA बाजार में 3 सबसे बड़े खिलाड़ी हैं UiPath, Automation Anywhere और ब्लू प्रिज्म. यह ब्लॉग यूपथ पर केंद्रित है।

UiPath के साथ नैनोनेट्स

हमने अपने पिछले अनुभागों में दस्तावेज़ समझ पाइपलाइन बनाने के लिए सीखा है। इसके लिए OCR, RPA और मशीन लर्निंग के बुनियादी ज्ञान की आवश्यकता होती है, क्योंकि विभिन्न बिंदुओं पर विभिन्न कार्यों के लिए अलग-अलग दृष्टिकोण और एल्गोरिदम होते हैं। इसके अलावा, हम न्यूरल नेटवर्क्स के निर्माण में बहुत अधिक प्रयास करते हैं जो हमारे टेम्प्लेट, प्रशिक्षण और उन्हें तैनात करने के बारे में समझते हैं। इसलिए, दस्तावेज़ों को अपलोड करने से लेकर, उन्हें वर्गीकृत करने, ओसीआर के निर्माण, एमएल मॉडल को एकीकृत करने तक, सभी चीजों को सहज और स्वचालित बनाने के लिए, हम दस्तावेज़ को समझने के लिए एक सहज पाइपलाइन बनाने के लिए यूनी पथ पर काम कर रहे हैं। नीचे यह कैसे काम करता है की एक छवि है।

अब हम इनमें से प्रत्येक की समीक्षा करते हैं और सीखते हैं कि हम यूनीपैथ के साथ नैनोनेट को कैसे एकीकृत कर सकते हैं।

चरण 1: UiPath पर साइन अप करें और UiPath स्टूडियो डाउनलोड करें

वर्कफ़्लो बनाने के लिए, पहले, हमें UiPath में एक खाता बनाना होगा। यदि आप एक मौजूदा उपयोगकर्ता हैं, तो आप सीधे अपने खाते में लॉग इन कर सकते हैं, अपने UiPath डैशबोर्ड को पुनर्निर्देशित कर सकते हैं। इसके बाद, आपको यूआईपैथ स्टूडियो (सामुदायिक संस्करण) डाउनलोड और इंस्टॉल करना होगा, जो मुफ़्त है।

चरण 2: नैनोनेट्स घटक डाउनलोड करें

अगला, अपना सेट अप करने के लिए चालान प्रसंस्करण पाइपलाइन, आपको नीचे दिए गए लिंक से नैनोनेट्स कनेक्टर डाउनलोड करना होगा।

-> NanoNets OCR - RPA घटक

नीचे UiPath मार्केटप्लेस, और नैनोनेट्स कंपोनेंट का स्क्रीनशॉट है। इसके अलावा, इसे डाउनलोड करने के लिए, सुनिश्चित करें कि आपने विंडोज ऑपरेटिंग सिस्टम से UiPath में लॉग इन किया है।

आपकी डाउनलोड की गई फ़ाइलों में नीचे सूचीबद्ध फ़ाइलें होनी चाहिए,

UiPath OCR Predict ├── Main.xaml
└── project.json

चरण 3: Main.xaml फ़ाइल नैनोनेट घटक खोलें

यह जांचने के लिए कि नैनोनेट्स UiPath काम कर रहा है या नहीं, आप Ui Path Studio का उपयोग करके डाउनलोड किए गए नैनोनेट घटक से अपनी Main.xml फ़ाइल खोल सकते हैं। फिर आप दस्तावेज़ प्रसंस्करण के लिए आपके लिए पहले से बनाई गई अपनी पाइपलाइन देख सकते हैं।

चरण 4: अपने मॉडल आईडी, एपीआई कुंजी और एपीआई समापन बिंदु को नैनोनेट्स एपीपी से इकट्ठा करें

अगला, आप नैनोनेट एपीपी से किसी भी प्रशिक्षित ओसीआर मॉडल का उपयोग कर सकते हैं और मॉडल आईडी, एपीआई कुंजी और समापन बिंदु इकट्ठा कर सकते हैं। नीचे उन्हें जल्दी से खोजने के लिए और अधिक विवरण दिए गए हैं।

मॉडल आईडी: अपने नैनोनेट्स खाते में लॉगिन करें और "मेरे मॉडल" पर जाएँ। आप एक नए मॉडल को प्रशिक्षित कर सकते हैं या किसी मौजूदा मॉडल के एप्लिकेशन आईडी को कॉपी कर सकते हैं।

API समापन बिंदु: आप किसी भी मौजूदा मॉडल को चुन सकते हैं और अपने एपीआई एंडपॉइंट को खोजने के लिए इंटीग्रेट पर क्लिक कर सकते हैं। नीचे एक उदाहरण है कि आपके समापन बिंदु कैसे दिखते हैं।

https://app.nanonets.com/api/v2/OCR/Model/XXXXXXX-4840-4c27-8940-d3add200779e/LabelUrls/

3. एपीआई कुंजी: एपीआई कुंजी टैब पर नेविगेट करें, और आप किसी भी मौजूदा एपीआई कुंजी की प्रतिलिपि बना सकते हैं या एक नया बना सकते हैं।

चरण 5: UI पथ में अपनी विधि और चर प्राप्त करने के लिए HTTP अनुरोध जोड़ें

अब अपने मॉडल को नैनोनेट्स से यूआई पथ में एकीकृत करने के लिए, आपको सबसे पहले HTTP रिक्वेस्ट पर क्लिक करना होगा और एंडपॉइंट जोड़ना होगा, जो कि इनपुट सेक्शन के नीचे बाएं नेविगेशन में पाया जा सकता है। नीचे एक स्क्रीनशॉट है।

बाद में, अपने UiPath स्टूडियो से नैनोनेट्स एपीआई में एक कनेक्शन स्थापित करने के लिए अपने सभी चर जोड़ें। आप इस अनुभाग को "वेरिएबल्स टैब" के निचले फलक पर पा सकते हैं। नीचे स्क्रीनशॉट है, आपको अपनी एपीआई कुंजी, समाप्ति बिंदु और अपने मॉडल के मॉडल-आईडी को यहां अपडेट / कॉपी करना होगा।

चरण 6: भविष्यवाणियों के लिए फ़ाइल स्थान जोड़ें

अंत में, आप अपनी फ़ाइल स्थान को विशेषता टैब के नीचे जोड़ सकते हैं, जैसा कि नीचे स्क्रीनशॉट में दिखाया गया है, और अपने आउटपुट की भविष्यवाणी करने के लिए अपने शीर्ष नेविगेशन पर प्ले बटन दबाएं।

वोइला! नीचे स्क्रीनशॉट में हमारे द्वारा अनुरोधित दस्तावेज़ के लिए हमारे आउटपुट हैं। अधिक संसाधित करने के लिए, आप बस अपनी फ़ाइल स्थानों को जोड़ सकते हैं और रन बटन दबा सकते हैं।

चरण 7 - CSV / ERP में पुश आउटपुट

अंत में, अपने वांछित प्रारूप में अपने उत्पादन को अनुकूलित करने के लिए हम Main.XML फ़ाइल में आपकी पाइपलाइन में नए ब्लॉक जोड़ सकते हैं। हम इसे ऑफ़लाइन फ़ाइलों या API कॉल के माध्यम से किसी भी मौजूदा ईआरपी सिस्टम में भी धकेल सकते हैं।