آر پی اے اور دستاویز کی تفہیم کے ساتھ او سی آر کے لیے ایک جامع گائیڈ

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

آخری اپ ڈیٹ: جنوری، 2021۔

یہ بلاگ آپ کے دستاویز کے ورک فلو کو خودکار کرنے کے لیے کسی بھی RPA ٹول کے ساتھ OCR استعمال کرنے کا ایک جامع جائزہ ہے۔ ہم دریافت کرتے ہیں کہ کس طرح جدید ترین مشین لرننگ پر مبنی OCR ٹیکنالوجیز کے لیے قواعد یا ٹیمپلیٹ سیٹ اپ کی ضرورت نہیں ہے۔

RPAs یا روبوٹک پروسیس آٹومیشن سافٹ ویئر ٹولز ہیں جن کا مقصد دہرائے جانے والے کاروباری کاموں کو ختم کرنا ہے۔ مزید CIOs اخراجات کو کم کرنے کے لیے ان کی طرف متوجہ ہو رہے ہیں اور ملازمین کو زیادہ قیمتی کاروباری کام پر توجہ دینے میں مدد کر رہے ہیں۔ مثالوں میں ویب سائٹس پر تبصروں کا جواب دینا یا کسٹمر آرڈر پروسیسنگ شامل ہیں۔ قدرے زیادہ پیچیدہ کاموں میں دستاویزات کو سنبھالنا شامل ہے۔ ہاتھ سے لکھے ہوئے فارم اور انوائس - ان کو عام طور پر ایک میراثی نظام سے دوسرے میں منتقل کرنے کی ضرورت ہوتی ہے - اپنے ای میل کلائنٹ کو اپنے SAP ERP سسٹم میں کہیں جہاں آپ کو ڈیٹا نکالنے کی ضرورت ہے۔ یہ مسئلہ کا حصہ ہے۔

زیادہ تر OCR ٹولز جو ان دستاویزات سے ڈیٹا حاصل کرتے ہیں وہ ٹیمپلیٹ پر مبنی ہوتے ہیں (کہتے ہیں۔ ابی Flexicapture) اور نیم ساختہ دستاویزات پر اچھی طرح سے پیمانہ نہ بنائیں۔ نئی نسل کے مشین لرننگ پر مبنی حل ہیں جو عام طور پر API فراہم کرتے ہیں۔
انضمام جو دستاویزات سے کلیدی قدر کے جوڑے حاصل کر سکتے ہیں - انٹرپرائز سسٹم عام طور پر میراثی ہوتے ہیں اور بیرونی APIs کے ساتھ انضمام کے لیے کھلے نہیں ہوتے۔ دوسری طرف، RPAs ان میراثی نظام کے ورک فلو کو سنبھالنے کے لیے بنائے گئے ہیں جیسے فولڈرز سے دستاویزات کا اندراج اور ERPs یا CRMs میں نتائج درج کرنا۔

جیسا کہ روبوٹک پروسیس آٹومیشن (RPA) اور ML ہائپر آٹومیشن کی طرف ترقی کر رہے ہیں، ہم ML کے ساتھ مل کر سافٹ ویئر بوٹس کا استعمال کر سکتے ہیں تاکہ پیچیدہ کاموں جیسے کہ دستاویز کی درجہ بندی، ایکسٹریکشن، اور آپٹیکل کریکٹر ریکگنیشن کو ہینڈل کیا جا سکے۔ ایک حالیہ تحقیق میں، یہ کہا گیا کہ RPAs کا استعمال کرتے ہوئے کسی کام کے لیے صرف 29% فنکشنز کو خودکار کر کے، اکیلے فنانس ڈیپارٹمنٹ ہی انسانی غلطیوں کی وجہ سے ہونے والے 25,000 گھنٹے سے زیادہ دوبارہ کام کو بچاتے ہیں جس کی قیمت 878,000 ڈالر سالانہ ہے وقت اکاؤنٹنگ عملے [40]. اس بلاگ میں، ہم RPAs کے ساتھ OCRs کے استعمال کے بارے میں سیکھیں گے اور دستاویز کو سمجھنے کے ورک فلو میں گہرا غوطہ لگائیں گے۔ ذیل میں مندرجات کا جدول ہے۔

تعریفیں اور جائزہ

RPA، عام طور پر، ایک ٹیکنالوجی ہے جو سافٹ ویئر ہارڈویئر بوٹس کے ذریعے انتظامی کاموں کو خودکار بنانے میں مدد کرتی ہے۔ یہ بوٹس یوزر انٹرفیس کا فائدہ اٹھاتے ہیں۔ ڈیٹا پر قبضہ کرنے اور ایپلی کیشنز میں ہیرا پھیری کرنے کے لیے جیسا کہ انسان کرتے ہیں۔ مثال کے طور پر، ایک RPA ایک GUI میں لیے گئے کاموں کی ایک سیریز کو دیکھ سکتا ہے، کہہ سکتا ہے کہ حرکت پذیر کرسر، APIs سے جڑیں، ڈیٹا کو کاپی پیسٹ کریں، اور RPA وائر فریم میں کارروائیوں کی وہی ترتیب ترتیب دے جو کوڈ میں ترجمہ کرتا ہے۔ مزید یہ کہ یہ کام مستقبل میں انسانی مداخلت کے بغیر انجام دیے جا سکتے ہیں۔ آپٹیکل کریکٹر ریکگنیشن (OCR) کسی بھی فنکشنل روبوٹک پروسیس آٹومیشن (RPA) حل کی ایک اہم خصوصیت ہے۔ اس ٹیکنالوجی کا استعمال مختلف ذرائع سے متن کو پڑھنے اور نکالنے کے لیے کیا جاتا ہے جیسے کہ تصاویر یا پی ڈی ایف اسے دستی طور پر کیپچر کیے بغیر ڈیجیٹل فارمیٹ میں۔

دوسری طرف، دستاویز کی تفہیم وہ اصطلاح ہے جو دستاویز کے ڈیٹا کو پڑھنے، تشریح کرنے اور عمل کرنے کو خود بخود بیان کرنے کے لیے استعمال ہوتی ہے۔ اس عمل میں سب سے اہم سافٹ ویئر بوٹس خود ہی تمام کام انجام دیتے ہیں۔ یہ بوٹس ڈیجیٹل اسسٹنٹ کے طور پر دستاویزات کو سمجھنے کے لیے مصنوعی ذہانت اور مشین لرننگ کی طاقت کا فائدہ اٹھاتے ہیں۔ اس طرح، ہم کہہ سکتے ہیں کہ دستاویز کی تفہیم دستاویز پروسیسنگ، AI، اور RPA کے چوراہے پر ابھرتی ہے۔

دستاویز کی تفہیم دستاویز پروسیسنگ، AI، اور RPA کے چوراہے پر ابھرتی ہے۔ [تصویری ماخذ: Ui پاتھ دستاویز کی تفہیم [2] ]

روبوٹ کیسے OCR اور ML کے ساتھ دستاویزات کو سمجھنا سیکھ سکتے ہیں۔

اس سے پہلے کہ ہم دستاویزی تفہیم میں گہرائی سے اتریں، آئیے دستاویز کی تفہیم کے لیے روبوٹس کے کردار کے بارے میں بات کرتے ہیں۔ یہ بالکل پوشیدہ مددگار ہماری زندگی کو بہت زیادہ آرام دہ بناتے ہیں۔ فلموں اور سیریز کے برعکس، یہ روبوٹ جسمانی آلات یا مصنوعی ذہانت کے پروگرام نہیں ہیں جو ڈیسک ٹاپ پر بیٹھ کر کام انجام دینے کے لیے بٹنوں کو دباتے ہیں۔ ہم ان کے بارے میں ڈیجیٹل اسسٹنٹ کے طور پر سوچ سکتے ہیں جو ہماری طرح ایپلی کیشنز کو پڑھ کر اور استعمال کرکے دستاویزات پر کارروائی کرنے کی تربیت یافتہ ہیں۔ عملی طور پر، روبوٹ کسی عمل کی کارکردگی اور کارکردگی کو بہتر بنانے میں اچھے ہیں۔ پھر بھی، وہ ایک اسٹینڈ لون سافٹ ویئر ہونے کی وجہ سے اس عمل کا جائزہ نہیں لے سکتے اور علمی فیصلے نہیں کر سکتے۔ تاہم، اگر مشین لرننگ کامیابی کے ساتھ مربوط ہو جاتی ہے، تو روبوٹکس زیادہ متحرک اور موافقت پذیر ہو جائیں گے۔ مثال کے طور پر، سامنے اور درمیانی دفتر میں دستاویز کی پروسیسنگ، ڈیٹا مینجمنٹ، اور دیگر افعال کے لیے استعمال کیے جانے والے روبوٹس زیادہ ذہین کام انجام دیں گے، جیسے کہ ڈپلیکیٹ اندراجات کو ختم کرنا یا اس عمل میں سسٹم کے نامعلوم استثنیٰ کو حل کرنا۔ مزید، روبوٹ کو مصنوعی ذہانت (AI) کا استعمال کرتے ہوئے دستاویزات سے ڈیٹا کو پڑھنے، نکالنے، تشریح کرنے اور اس پر عمل کرنے کی تربیت دی جاتی ہے۔

ورک فلو کو بہتر بنانے کے لیے کمپنیاں RPA کے ساتھ ذہین OCR کو کیسے ضم کر سکتی ہیں۔

دستاویز کا ڈیٹا نکالنا دستاویز کو سمجھنے کے لیے ایک اہم جز ہے۔ اس سیکشن میں، ہم بحث کریں گے کہ ہم OCR کو RPA کے ساتھ یا اس کے برعکس کیسے ضم کر سکتے ہیں۔ سب سے پہلے، ہم سب جانتے تھے کہ ٹیمپلیٹس، سٹائل، فارمیٹنگ، اور بعض اوقات زبان کے لحاظ سے مختلف قسم کے دستاویزات ہوتے ہیں۔ اس لیے ہم ان دستاویزات سے ڈیٹا نکالنے کے لیے ایک سادہ OCR تکنیک پر انحصار نہیں کر سکتے۔ اس مسئلے کو حل کرنے کے لیے، ہم OCR کے اندر مختلف دستاویز کے ڈھانچے کے ڈیٹا کو ہینڈل کرنے کے لیے اصول پر مبنی اپروچز اور ماڈل پر مبنی اپروچز دونوں استعمال کریں گے۔ اب ہم دیکھیں گے کہ OCR کرنے والی کمپنیاں دستاویزات کی قسم کی بنیاد پر اپنے موجودہ سسٹم میں RPAs کو کیسے ضم کر سکتی ہیں۔

ساختی دستاویزات: اس قسم کی دستاویزات میں، ترتیب اور ٹیمپلیٹس عام طور پر طے شدہ اور تقریباً ایک جیسے ہوتے ہیں۔ مثال کے طور پر، ایک ایسی تنظیم پر غور کریں جو حکومت کی طرف سے جاری کردہ IDs جیسے پاسپورٹ یا ڈرائیونگ لائسنس کے ساتھ KYC کرتی ہے۔ یہ تمام دستاویزات ایک جیسی ہوں گی اور ان کی فیلڈز ایک جیسی ہوں گی جیسے کہ شناختی نمبر، شخص کا نام، عمر، اور کچھ دیگر ایک ہی جگہوں پر۔ لیکن صرف تفصیلات مختلف ہوتی ہیں۔ کچھ رکاوٹیں ہوسکتی ہیں جیسے ٹیبل اوور فلونگ یا غیر فائل شدہ ڈیٹا۔

عام طور پر، تجویز کردہ نقطہ نظر ساختی دستاویزات کے لیے معلومات کو نکالنے کے لیے ٹیمپلیٹ یا اصول پر مبنی انجن کا استعمال کرتا ہے۔ ان میں ریگولر ایکسپریشنز یا سادہ پوزیشن میپنگ اور OCR شامل ہو سکتے ہیں۔ لہذا معلومات کو خود کار طریقے سے نکالنے کے لیے سافٹ ویئر روبوٹس کو مربوط کرنے کے لیے، ہم یا تو پہلے سے موجود ٹیمپلیٹس کا استعمال کر سکتے ہیں یا اپنے سٹرکچرڈ ڈیٹا کے لیے اصول بنا سکتے ہیں۔ اصول پر مبنی نقطہ نظر کو استعمال کرنے میں ایک نقصان ہے، کیونکہ یہ مقررہ حصوں پر انحصار کرتا ہے، یہاں تک کہ شکل کے ڈھانچے میں معمولی تبدیلیاں بھی قواعد کے ٹوٹنے کا سبب بن سکتی ہیں۔

نیم ساختہ دستاویزات: ان دستاویزات میں ایک جیسی معلومات ہیں لیکن مختلف پوزیشنوں میں ترتیب دی گئی ہیں۔ مثال کے طور پر غور کریں۔ انوائس 8-12 ایک جیسے فیلڈز پر مشتمل ہے۔ چند ایک میں انوائس، مرچنٹ کا پتہ سب سے اوپر واقع ہوسکتا ہے، اور دوسروں میں، یہ نیچے پایا جاسکتا ہے۔ عام طور پر یہ اصول پر مبنی نقطہ نظر زیادہ درستگی نہیں دیتے ہیں۔ اس لیے ہم مشین لرننگ اور ڈیپ لرننگ ماڈلز کو تصویر میں لاتے ہیں تاکہ OCR کا استعمال کرتے ہوئے معلومات نکال سکیں۔ متبادل طور پر، بعض صورتوں میں، ہم ہائبرڈ ماڈلز استعمال کر سکتے ہیں جن میں قواعد اور ML ماڈل دونوں شامل ہوں۔ چند مشہور پہلے سے تربیت یافتہ ماڈلز ہیں FastRCNN، Attention OCR، دستاویزات میں معلومات نکالنے کے لیے گراف کنولوشن۔ تاہم، دوبارہ ان ماڈلز میں کچھ خرابیاں ہیں۔ لہذا ہم درستگی یا اعتماد سکور جیسے میٹرکس کا استعمال کرتے ہوئے الگورتھم کی کارکردگی کی پیمائش کرتے ہیں۔ چونکہ ماڈل ٹھوس اصولوں پر عمل کرنے کے بجائے پیٹرن سیکھ رہا ہے، اس لیے یہ درست کرنے کے بعد ابتدائی طور پر غلطیاں کر سکتا ہے۔ تاہم، ان خرابیوں کا حل - ایم ایل ماڈل جتنے زیادہ نمونے پروسس کرتا ہے، درستگی کو یقینی بنانے کے لیے وہ اتنے ہی زیادہ پیٹرن سیکھتا ہے۔

غیر ساختہ دستاویزات: RPA، آج غیر ساختہ ڈیٹا کو براہ راست منظم کرنے سے قاصر ہے، اس لیے پہلے روبوٹ کو OCR کا استعمال کرتے ہوئے سٹرکچرڈ ڈیٹا نکالنے اور تخلیق کرنے کی ضرورت ہوتی ہے۔ ساختی اور نیم ساختہ دستاویزات کے برعکس، غیر ساختہ ڈیٹا میں چند کلیدی اقدار کے جوڑے نہیں ہوتے ہیں۔ مثال کے طور پر چند ایک میں انوائس, ہم کسی بھی کلیدی نام کے بغیر ایک مرچنٹ کا پتہ دیکھتے ہیں؛ اسی طرح، ہم دوسرے شعبوں جیسے تاریخ، انوائس ID کے لیے بھی اسی کا مشاہدہ کرتے ہیں۔ ایم ایل ماڈلز کے لیے درست طریقے سے ان پر کارروائی کرنے کے لیے، روبوٹس کو تحریری متن کو قابل عمل ڈیٹا، جیسے ای میل، فون نمبر، پتہ وغیرہ میں ترجمہ کرنے کا طریقہ سیکھنے کی ضرورت ہے۔ پھر ماڈل سیکھے گا کہ 7- یا 10 ہندسوں کے نمبروں کے پیٹرن کو نکالا جانا چاہیے۔ فون نمبرز اور بہت بڑا متن جس میں پانچ ہندسوں کے کوڈز اور متن کے طور پر مختلف اسم ہیں۔ ان ماڈلز کو مزید درست بنانے کے لیے، ہم نیچرل لینگویج پروسیسنگ (NLP) کی تکنیکوں کو بھی استعمال کر سکتے ہیں جیسے کہ Named Entity Recognition اور Word Embedding۔

مجموعی طور پر دستاویز کو سمجھنے کے لیے، پہلے ڈیٹا کو سمجھنا اور پھر RPAs کے ساتھ OCR کو لاگو کرنا ضروری ہے۔ اس کے بعد، قدم بہ قدم کسی عمل کی نقشہ سازی کرنے کے بجائے، ہم رولز اور مشین لرننگ الگورتھم کو یکجا کرکے، جیسا کہ اوپر زیر بحث آیا طاقتور OCR صلاحیتوں کے ساتھ اس عمل کو ریکارڈ کرکے ایک روبوٹ کو "جیسے میں کرتا ہوں" سکھا سکتے ہیں۔ سافٹ ویئر روبوٹ اسکرین پر آپ کے کلکس اور اعمال کی پیروی کرتا ہے اور پھر انہیں قابل تدوین ورک فلو میں بدل دیتا ہے۔ اگر آپ مکمل طور پر مقامی پروگراموں میں کام کر رہے ہیں، تو یہ اتنا ہی ہے جتنا آپ کو جاننے کی ضرورت ہے۔

RPA ڈویلپرز کو درپیش OCR چیلنجز

ہم نے دیکھا ہے کہ ہم مختلف دستاویزات کے لیے OCRR کو RPAs کے ساتھ کیسے ضم کر سکتے ہیں، لیکن چیلنجوں کے چند معاملات ایسے ہیں جہاں روبوٹ کو اچھی طرح سے ہینڈل کرنے کی ضرورت ہے۔ آئیے اب ان پر بات کرتے ہیں!

کمزور یا متضاد ڈیٹا: دستاویز کی تفہیم میں ڈیٹا ایک اہم کردار ادا کرتا ہے۔ زیادہ تر معاملات میں، دستاویزات کو کیمرے کا استعمال کرتے ہوئے اسکین کیا جاتا ہے جہاں ٹیکسٹ اسکیننگ کے دوران دستاویز کی فارمیٹنگ کھونے کا امکان ہوتا ہے (یعنی، بولڈ، اٹالک اور انڈر لائن کو ہمیشہ تسلیم نہیں کیا جاتا ہے)۔ بعض اوقات، OCR متن کو غلط طریقے سے نکال سکتا ہے جس کی وجہ سے املا کی غلطیاں، بے قاعدہ پیراگراف ٹوٹ جاتا ہے، جو روبوٹ کی مجموعی کارکردگی کو کم کر دیتا ہے۔ اس لیے تمام گمشدہ اقدار کو سنبھالنا اور اعلیٰ درستگی کے ساتھ ڈیٹا کیپچر کرنا OCR کے لیے اعلیٰ درستگی حاصل کرنے کے لیے بہت ضروری ہے۔
دستاویزات میں صفحہ کی غلط سمت بندی: پیج اورینٹیشن اور سکیونیس بھی عام مسائل میں سے ایک ہے جو OCR کی غلط ٹیکسٹ تصحیح کا باعث بنتا ہے۔ یہ عام طور پر اس وقت ہوتا ہے جب ڈیٹا اکٹھا کرنے کے مرحلے کے دوران دستاویزات کو غلط طریقے سے اسکین کیا جاتا ہے۔ اس پر قابو پانے کے لیے، ہمیں روبوٹس کو صفحہ پر آٹو فٹ، آٹو فلٹر جیسے چند فنکشنز کا اعلان کرنا ہوگا تاکہ وہ اسکین شدہ دستاویز کے معیار میں اضافہ اور آؤٹ پٹ پر درست ڈیٹا حاصل کر سکیں۔
انضمام کے مسائل: تمام RPA ٹولز ریموٹ ڈیسک ٹاپ ماحول پر اچھی کارکردگی کا مظاہرہ نہیں کرتے ہیں – وہ آٹومیشن میں کریش اور اہم مسائل کا باعث بنتے ہیں۔ مزید یہ کہ، RPA ڈویلپر کو یہ جاننے کی ضرورت ہے کہ مخصوص کیس کے لیے کون سا OCR حل بہترین ہوگا۔ اس کے علاوہ، مخصوص آٹومیشن ٹولز کے ساتھ کام کرنے کے لیے، RPA ڈویلپر کو صرف Microsoft، Google کی تخلیق کردہ محدود OCR ٹیکنالوجی کا انتخاب کرنے کی ضرورت ہے۔ اس لیے ہمارے حسب ضرورت الگورتھم اور ماڈلز کو یکجا کرنا بعض اوقات مشکل ہوتا ہے۔
تمام متن سکیمبلڈ ٹیکسٹ ہے: حقیقی زندگی کے استعمال کے کیسز کے لیے، عام OCR کے ذریعے کیپچر کیے گئے متن کو مکمل طور پر گھمایا جاتا ہے اور اس میں کوئی بامعنی معلومات نہیں ہوتی ہیں جسے بوٹس اہم کارروائیوں کو انجام دینے کے لیے استعمال کر سکتے ہیں۔ مفید ایپلیکیشنز بنانے کے قابل ہونے کے لیے RPA ڈویلپرز کو مضبوط ML سپورٹ کی ضرورت ہوتی ہے۔

دستاویز کو سمجھنے کے ورک فلو کے لیے پائپ لائن

پچھلے حصوں میں، ہم نے دیکھا ہے کہ کس طرح بوٹس مختلف قسم کے دستاویزات کے لیے OCR کو انجام دینے میں مدد کرتے ہیں۔ لیکن OCR صرف ایک تکنیک ہے جو تصاویر یا دیگر فائلوں کو متن میں تبدیل کرتی ہے۔ اب، اس سیکشن میں، ہم دستاویزات کو جمع کرنے کے آغاز سے لے کر آخر میں بامعنی معلومات کو مطلوبہ فارمیٹ میں محفوظ کرنے تک دستاویز کو سمجھنے کے ورک فلو کو دیکھیں گے۔

اپنے بوٹ کا استعمال کرتے ہوئے فولڈر سے دستاویز داخل کریں: یہ بوٹس کے ذریعے دستاویز کی سمجھ حاصل کرنے کا پہلا قدم ہے۔ یہاں، ہم یا تو کلاؤڈ پلیٹ فارم پر (ایک API کا استعمال کرتے ہوئے) یا مقامی مشین سے دستاویز حاصل کریں گے۔ کچھ معاملات میں، اگر ہماری دستاویزات ویب صفحات پر ہیں، تو ہم بوٹس کے ذریعے سکریپنگ اسکرپٹ کو خودکار کر سکتے ہیں جہاں سے وہ بروقت دستاویزات حاصل کر سکتے ہیں۔
دستاویز کی قسم: ڈیٹا حاصل کرنے کے بعد، دستاویز کی قسم اور فارمیٹ کو سمجھنا ضروری ہے جس کے ساتھ وہ ہمارے سسٹمز میں محفوظ ہوتے ہیں، جیسا کہ بعض اوقات، ہم مختلف فائل فارمیٹس میں مختلف ذرائع سے ڈیٹا وصول کرتے ہیں جیسے PDF، PNG، اور JPG۔ صرف فائل کی قسمیں ہی نہیں، بعض اوقات جب دستاویزات کو فون کیمروں سے اسکین کیا جاتا ہے، تو چند چیلنجنگ مسائل جیسے امیج کی ترچھی، گردش، چمک، یا کم ریزولوشن کو بھی سنبھالا جانا چاہیے۔ اس طرح، ہمیں یہ یقینی بنانا ہوگا کہ بوٹس ان دستاویزات کو ساختی، نیم ساختہ، یا غیر ساختہ زمرہ میں درجہ بندی کریں، اس طرح اسے عام شکل میں محفوظ کیا جائے۔ درجہ بندی کا کام دستاویزات کا ٹیمپلیٹس کے ساتھ موازنہ کرکے اور خصوصیات جیسے فونٹس، زبان، کلیدی قدر کے جوڑوں کی موجودگی، میزیں وغیرہ کا تجزیہ کرکے حاصل کیا جاتا ہے۔
OCR کے ساتھ ڈیٹا نکالنا: ٹھیک ہے، اب جب کہ بوٹس نے ہمارے دستاویزات کو عام شکل میں ترتیب دیا ہے اور ان کی درجہ بندی کی ہے، اب وقت آگیا ہے کہ ہم OCR تکنیک کا استعمال کرتے ہوئے انہیں ڈیجیٹلائز کریں۔ اس کے ساتھ، ہمارے پاس متن ہوگا، اس کا مقام امیجز سے کوآرڈینیٹس میں۔ اس سے بعد کے مراحل کے لیے دستاویزات اور ڈیٹا کو معیاری بنانے میں مدد ملتی ہے۔ ہم کچھ ایسے بھی ہوتے ہیں جب OCR سافٹ ویئر حروف کے درمیان صحیح طور پر فرق نہیں کر پاتا، جیسے 't' بمقابلہ 'i'، یا '0' بمقابلہ 'O'۔ OCR سافٹ ویئر کے استعمال سے آپ جن غلطیوں کو دور کرنا چاہتے ہیں وہ نئے سر درد کا باعث بن سکتی ہیں جب OCR ٹیکنالوجی کسی دستاویز کے معیار یا اصل شکل کی بنیاد پر اس کی باریکیوں کا تجزیہ کرنے سے قاصر ہے۔ یہ وہ جگہ ہے جہاں مشین لرننگ تصویر میں آتی ہے، جس پر ہم اگلے مرحلے میں بات کریں گے۔
بوٹس کا استعمال کرتے ہوئے ذہین OCR کے لیے ML/DL کا فائدہ اٹھانا: ڈیٹا کو ڈیجیٹائز کرنے کے بعد، OCR سافٹ ویئر کو سمجھنا چاہیے کہ وہ کس قسم کی دستاویز کے ساتھ کام کر رہا ہے اور کیا متعلقہ ہے۔ لیکن روایتی OCR سافٹ ویئر دستاویز کی درجہ بندی کی کوششوں کو پیمانے کے لیے جدوجہد کر سکتا ہے۔ اس لیے سافٹ ویئر بوٹس کو مشین لرننگ اور گہری سیکھنے کی تکنیکوں سے فائدہ اٹھاتے ہوئے علمی صلاحیتوں کے ساتھ تربیت دی جانی چاہیے تاکہ OCR کو زیادہ ذہین بنایا جا سکے۔ ML-based OCR سلوشنز کسی دستاویز کی قسم کی شناخت کر سکتے ہیں اور اسے آپ کے کاروبار کے ذریعے استعمال ہونے والی معروف دستاویز کی قسم سے مماثل کر سکتے ہیں۔ وہ غیر ساختہ دستاویزات میں متن کے بلاکس کو بھی پارس اور سمجھ سکتے ہیں۔ ایک بار جب حل خود دستاویز کے بارے میں مزید جان لیتا ہے، تو یہ ارادے اور معنی کی بنیاد پر متعلقہ معلومات کو نکالنا شروع کر سکتا ہے۔
بہتر ڈیٹا نکالنا اور درجہ بندی: ڈیٹا نکالنا دستاویز کی تفہیم کا بنیادی حصہ ہے۔ جیسا کہ اس مرحلے میں RPA's کو OCR کے ساتھ انٹیگریٹ کرنے کے بارے میں پچھلے سیکشن میں زیر بحث آیا، دستاویز کی قسم کی بنیاد پر ڈیٹا نکالنے کی تکنیک کا انتخاب کریں۔ RPAs کے ذریعے، ہم آسانی سے کنفیگر کر سکتے ہیں کہ کون سا ایکسٹریکٹر استعمال کرنا ہے، چاہے اصول پر مبنی ہو یا ML پر مبنی ہو یا ہائبرڈ ماڈل OCR تکنیک۔ معلومات نکالنے کے بعد واپس آنے والے اعتماد اور کارکردگی کے میٹرکس کی بنیاد پر، سافٹ ویئر روبوٹ انہیں مزید تجزیہ کے لیے ہمارے مطلوبہ فارمیٹ میں محفوظ کر لیں گے۔ ذیل میں ایک تصویر ہے کہ ہم کس طرح ایکسٹریکٹرز کو ترتیب دے سکتے ہیں اور UIPath کے ذریعے RPA ٹول میں اعتماد کی سطح کو سیٹ کر سکتے ہیں۔

*UI پاتھ میں دستاویز کو سمجھنے کے لیے ضروری ایکسٹریکٹرز کا انتخاب کرنا*

6. توثیق اور بااختیار بصیرت: OCR اور مشین لرننگ ماڈل معلومات نکالنے کے معاملے میں سو فیصد درست نہیں ہیں، اس لیے روبوٹس کی مدد سے انسانی مداخلت کی ایک تہہ شامل کرنے سے مسئلہ حل ہو سکتا ہے۔ اس توثیق کے کام کرنے کا طریقہ یہ ہے کہ جب بھی روبوٹس کم درستگی اور مستثنیات سے نمٹتے ہیں، تو یہ فوری طور پر ایکشن سینٹر کو ایک اطلاع بھیجتا ہے جہاں ایک ملازم کو ڈیٹا کی توثیق کرنے یا مستثنیات کو سنبھالنے کی درخواست موصول ہوتی ہے اور کلکس کے معاملے میں کسی بھی غیر یقینی صورتحال کو حل کر سکتا ہے۔ اس کے علاوہ، ہم مصنوعی ذہانت کی صلاحیت کو غیر مقفل کر سکتے ہیں تاکہ پیشین گوئیاں کرنے کے لیے وقت کے ساتھ ڈیٹا کو دستاویز کیا جا سکے، اور ممکنہ بے ضابطگیوں کی نشاندہی کی جا سکے جو دھوکہ دہی، نقل اور دیگر غلطیوں کی نشاندہی کر سکتے ہیں۔

روبوٹ کو دستاویزی تفہیم کے ساتھ مربوط کرنے کے فوائد

خودکار عمل: دستاویز کو سمجھنے کے لیے بوٹس کو مربوط کرنے کی اہم وجہ شروع سے آخر تک پورے عمل کو خودکار بنانا ہے۔ ہمیں بس اتنا کرنے کی ضرورت ہے کہ بوٹس کو سیکھنے، بیٹھنے اور آرام کرنے کے لیے ایک ورک فلو بنانا ہے۔ توثیق کے عمل کے دوران، ہمیں ان مسائل کو حل کرنے کی ضرورت پڑسکتی ہے جو بوٹس کے ذریعہ مطلع کیے جاتے ہیں جہاں کسی غلطی یا دھوکہ دہی کی نشاندہی کی جاتی ہے۔
مشین لرننگ کے ساتھ بوٹس: آٹومیشن کے عمل کے دوران، ہم بوٹس کو مشین لرننگ کے لیے لچکدار بنا سکتے ہیں۔ یعنی روبوٹ یہ بھی سیکھ سکتے ہیں کہ مشین لرننگ ماڈل کس طرح کارکردگی کا مظاہرہ کر رہے ہیں اور اس طرح دستاویزات کے متن اور معلومات کے اخراج کے لیے اعلیٰ درستگی اور کارکردگی حاصل کرنے کے لیے ماڈلز کو بہتر بناتے ہیں۔
دستاویز کی پروسیسنگ کی وسیع رینج پر عمل کریں: ٹیبل اور معلومات نکالنے جیسے عام کاموں کے لیے، ہمیں مختلف قسم کے دستاویزات کے لیے مختلف گہری سیکھنے کی پائپ لائنیں بنانا ہوں گی۔ یہ متعدد ایپلی کیشنز بنانے اور مختلف سرورز پر مختلف ماڈلز کی تعیناتی کا باعث بنتا ہے، جس کے لیے بہت زیادہ محنت اور وقت درکار ہوتا ہے۔ جب بوٹس تصویر میں دستاویزات کی ایک وسیع رینج کے لیے ہوتے ہیں، تو ہمارے پاس صرف ایک پائپ لائن ہو سکتی ہے جس میں بوٹس ان کی درجہ بندی کر سکتے ہیں اور پھر مختلف کاموں کے لیے مناسب ماڈل استعمال کر سکتے ہیں۔ ہم APIs کے ذریعے مختلف خدمات کو بھی مربوط کر سکتے ہیں اور ڈیٹا حاصل کرنے کے سلسلے میں دوسری تنظیموں کے ساتھ بات چیت کر سکتے ہیں۔
تعینات کرنے میں آسان: پائپ لائنز بننے کے بعد دستاویز کو سمجھنے کے لیے، تعیناتی کا عمل صرف ایک منٹ ہے۔ ہم یا تو تربیت کے بعد بوٹس کے ذریعے API برآمد کر سکتے ہیں، یا پھر ہمارے پاس ایک حسب ضرورت RPA حل ہو سکتا ہے جسے ہمارے مقامی نظاموں میں استعمال کیا جا سکتا ہے۔ اس قسم کی تعیناتی کاروباری اداروں کو بھی بہتر بنا سکتی ہے اور بہت کم خطرات کے ساتھ اخراجات کو کم کر سکتی ہے۔

Nanonets درج کریں۔

NanoNets ایک مشین لرننگ پلیٹ فارم ہے جو صارفین کو ڈیٹا حاصل کرنے کی اجازت دیتا ہے۔ انوائس، رسیدیں، اور دیگر دستاویزات بغیر کسی ٹیمپلیٹ کے سیٹ اپ کے۔ ہمارے پاس جدید ترین ڈیپ لرننگ اور کمپیوٹر وژن الگورتھم ہیں جو پیچھے سے چل رہے ہیں جو OCR، ٹیبل نکالنے، کلیدی قدر کی جوڑی نکالنے جیسے دستاویز کو سمجھنے کے کسی بھی قسم کے کام کو سنبھال سکتے ہیں۔ وہ عام طور پر APIs کے طور پر برآمد کیے جاتے ہیں یا مختلف استعمال کے معاملات کی بنیاد پر جگہ پر تعینات کیے جا سکتے ہیں۔ یہاں چند مثالیں ہیں،

انوائس ماڈل: سے کلیدی فیلڈز کی شناخت کریں۔ انوائس جیسے خریداروں کا نام، رسید کی شناخت، تاریخ، رقم وغیرہ۔
رسیدوں کا ماڈل: رسیدوں سے کلیدی فیلڈز کی شناخت کریں جیسے بیچنے والے کا نام، نمبر، تاریخ، رقم وغیرہ۔
ڈرائیونگ لائسنس (یو ایس اے): اہم فیلڈز کی شناخت کریں جیسے لائسنس نمبر، ڈی او بی، ایکسپائری ڈیٹ، ایشو ڈیٹ وغیرہ۔
دوبارہ شروع کریں: تجربہ، تعلیم، مہارت کے سیٹ، امیدوار کی معلومات وغیرہ نکالیں۔

ان ورک فلو کو تیز تر اور مضبوط بنانے کے لیے، ہم UiPath کا استعمال کرتے ہیں، جو کہ آپ کے دستاویزات کو بغیر کسی ٹیمپلیٹ کے ہموار آٹومیشن کے لیے RPA ٹول ہے۔ اگلے حصے میں، ہم دیکھیں گے کہ آپ دستاویز کو سمجھنے کے لیے UiPath Connect کو Nanonets کے ساتھ کیسے استعمال کر سکتے ہیں۔ RPA مارکیٹ کے 3 سب سے بڑے کھلاڑی ہیں UiPath, Automation Anywhere اور بلیو پرزم. یہ بلاگ Uipath پر مرکوز ہے۔

UiPath کے ساتھ NanoNets

ہم نے اپنے پچھلے حصوں میں دستاویز کو سمجھنے کی پائپ لائن بنانا سیکھا ہے۔ اس کے لیے OCR، RPA's، اور مشین لرننگ کی بنیادی معلومات درکار ہوتی ہیں، کیونکہ مختلف مقامات پر مختلف کاموں کے لیے مختلف نقطہ نظر اور الگورتھم موجود ہیں۔ اس کے علاوہ، ہمیں نیورل نیٹ ورکس بنانے میں بہت زیادہ محنت کرنی ہوگی جو ہمارے ٹیمپلیٹس کو سمجھتے ہیں، تربیت دیتے ہیں اور ان کو تعینات کرتے ہیں۔ لہذا، دستاویزات کو اپ لوڈ کرنے، ان کی درجہ بندی کرنے، OCR بنانے، ML ماڈلز کو یکجا کرنے سے لے کر ہر چیز کو آرام دہ اور خودکار بنانے کے لیے، ہم Nanonets میں دستاویز کی تفہیم کے لیے ایک ہموار پائپ لائن بنانے کے لیے Ui پاتھ پر کام کر رہے ہیں۔ ذیل میں ایک تصویر ہے کہ یہ کیسے کام کرتا ہے۔

اب آئیے ان میں سے ہر ایک کا جائزہ لیں اور سیکھیں کہ ہم Nanonets کو UiPath کے ساتھ کیسے ضم کر سکتے ہیں۔

مرحلہ 1: UiPath پر سائن اپ کریں اور UiPath اسٹوڈیو ڈاؤن لوڈ کریں۔

ورک فلو بنانے کے لیے، پہلے، ہمیں UiPath میں ایک اکاؤنٹ بنانا ہوگا۔ اگر آپ موجودہ صارف ہیں، تو آپ اپنے UiPath ڈیش بورڈ کو ری ڈائریکٹ کرتے ہوئے اپنے اکاؤنٹ میں براہ راست لاگ ان کر سکتے ہیں۔ اگلا، آپ کو UiPath اسٹوڈیو (کمیونٹی ایڈیشن) ڈاؤن لوڈ اور انسٹال کرنا پڑے گا، جو کہ مفت ہے۔

مرحلہ 2: Nanonets اجزاء ڈاؤن لوڈ کریں۔

اگلا، اپنے سیٹ اپ کرنے کے لیے انوائس پروسیسنگ پائپ لائن، آپ کو نیچے دیے گئے لنک سے Nanonets کنیکٹر ڈاؤن لوڈ کرنا پڑے گا۔

-> NanoNets OCR - RPA جزو

ذیل میں UiPath مارکیٹ پلیس، اور Nanonets اجزاء کا اسکرین شاٹ ہے۔ اس کے علاوہ، اسے ڈاؤن لوڈ کرنے کے لیے، یقینی بنائیں کہ آپ نے ونڈوز آپریٹنگ سسٹم سے UiPath میں لاگ ان کیا ہے۔

آپ کی ڈاؤن لوڈ کردہ فائلوں میں درج ذیل فائلیں ہونی چاہئیں،

UiPath OCR Predict ├── Main.xaml
└── project.json

مرحلہ 3: Main.xaml فائل کو کھولیں Nanonets Component

یہ چیک کرنے کے لیے کہ آیا Nanonets UiPath کام کر رہا ہے یا نہیں، آپ Ui Path Studio کا استعمال کرتے ہوئے ڈاؤن لوڈ کیے گئے Nanonets جزو سے اپنی Main.xml فائل کھول سکتے ہیں۔ پھر آپ دیکھ سکتے ہیں کہ آپ کی پائپ لائن پہلے سے ہی آپ کے لیے دستاویز کی کارروائی کے لیے بنائی گئی ہے۔

مرحلہ 4: Nanonets APP سے اپنی ماڈل ID، API کلید اور API اینڈ پوائنٹ اکٹھا کریں۔

اس کے بعد، آپ Nanonets APP سے تربیت یافتہ OCR ماڈلز میں سے کوئی بھی استعمال کر سکتے ہیں اور ماڈل ID، API کلید اور اختتامی نقطہ جمع کر سکتے ہیں۔ انہیں تیزی سے تلاش کرنے کے لیے ذیل میں آپ کے لیے مزید تفصیلات ہیں۔

ماڈل ID: اپنے Nanonets اکاؤنٹ میں لاگ ان کریں اور "My Models" پر جائیں۔ آپ نئے ماڈل کو تربیت دے سکتے ہیں یا موجودہ ماڈل کی ایپلیکیشن آئی ڈی کاپی کر سکتے ہیں۔

API اختتامی نقطہ: آپ کسی بھی موجودہ ماڈل کا انتخاب کر سکتے ہیں اور اپنا API اینڈ پوائنٹ تلاش کرنے کے لیے Integrate پر کلک کر سکتے ہیں۔ ذیل میں ایک مثال دی گئی ہے کہ آپ کے اختتامی نقطے کیسے نظر آتے ہیں۔

https://app.nanonets.com/api/v2/OCR/Model/XXXXXXX-4840-4c27-8940-d3add200779e/LabelUrls/

3. API کلید: API کلید کے ٹیب پر جائیں، اور آپ کسی بھی موجودہ API کلید کو کاپی کر سکتے ہیں یا ایک نئی بنا سکتے ہیں۔

مرحلہ 5: اپنا طریقہ اور متغیرات UI پاتھ میں حاصل کرنے کے لیے HTTP درخواست شامل کریں۔

اب اپنے ماڈل کو Nanonets سے UI پاتھ میں ضم کرنے کے لیے، آپ کو HTTP درخواست پر پہلا کلک کرنا ہوگا اور EndPoint شامل کرنا ہوگا، جو ان پٹ سیکشن کے تحت بائیں نیویگیشن پر پایا جاسکتا ہے۔ ذیل میں ایک اسکرین شاٹ ہے۔

بعد میں، اپنے UiPath اسٹوڈیو سے Nanonets API سے کنکشن قائم کرنے کے لیے اپنے تمام متغیرات شامل کریں۔ آپ یہ سیکشن "متغیر ٹیب" پر نیچے پین میں تلاش کر سکتے ہیں۔ ذیل میں اسکرین شاٹ ہے، آپ کو اپنی API کلید، اختتامی نقطہ اور اپنے ماڈل کی ماڈل ID کو یہاں اپ ڈیٹ/کاپی کرنا ہوگا۔

مرحلہ 6: پیشین گوئیوں کے لیے فائل کا مقام شامل کریں۔

آخر میں، آپ اپنی فائل لوکیشن کو اوصاف کے ٹیب کے نیچے شامل کر سکتے ہیں، جیسا کہ ذیل کے اسکرین شاٹ میں دکھایا گیا ہے، اور اپنے آؤٹ پٹس کی پیشین گوئی کرنے کے لیے اپنے اوپر نیویگیشن پر پلے بٹن کو دبائیں۔

Voila! ذیل کے اسکرین شاٹ میں جس دستاویز کی ہم نے درخواست کی ہے اس کے لیے ہمارے آؤٹ پٹ یہ ہیں۔ مزید کارروائی کرنے کے لیے، آپ آسانی سے اپنی فائل کے مقامات شامل کر سکتے ہیں اور رن بٹن کو دبائیں۔

مرحلہ 7 – آؤٹ پٹ کو CSV/ERP میں دھکیلیں۔

آخر میں، اپنے آؤٹ پٹ کو آپ کے مطلوبہ فارمیٹ میں حسب ضرورت بنانے کے لیے ہم Main.XML فائل میں آپ کی پائپ لائن میں نئے بلاکس شامل کر سکتے ہیں۔ ہم اسے آف لائن فائلوں یا API کالز کے ذریعے کسی بھی موجودہ ERP سسٹم میں بھی دھکیل سکتے ہیں۔

کسی بھی مدد کے لیے ہم سے support@nanonets.com پر رابطہ کریں۔

Webinar

اگلے منگل کو OCR پر RPA کے ساتھ ویبینار کے لیے ہمارے ساتھ شامل ہوں، یہاں اندراج کریں.

حوالہ جات

ہے [1] گارٹنر کا کہنا ہے کہ روبوٹک پروسیس آٹومیشن مالیاتی محکموں کو سالانہ 25,000 گھنٹے پرہیز کرنے والے کام کی بچت کر سکتی ہے۔

ہے [2] دستاویز کی تفہیم - AI دستاویز پروسیسنگ

ہے [3] آر پی اے او سی آر - بلند کرنے کے عمل آٹومیشن | اچھا

ہے [4] دستاویز کی تفہیم کو بہتر بنانے کے لیے AI کا استعمال کیسے کریں۔

ہے [5] https://www.uipath.com/product/document-understanding

ہے [6] انوائس OCR کے لیے UiPath ورک فلو میں NanoNets کا استعمال

مزید پڑھنا

آپ کو ہماری تازہ ترین پوسٹس میں دلچسپی ہو سکتی ہے:

: اپ ڈیٹ کریں‌
دستاویز کی تفہیم میں OCR، RPA کے استعمال اور اثرات کے بارے میں مزید پڑھنے کا مواد شامل کیا گیا۔

ماخذ: https://nanonets.com/blog/ocr-with-rpa-and-document-understanding-uipath/

ٹائم اسٹیمپ: 19 فرمائے، 2021

ٹائم اسٹیمپ: جون 8، 2023

RPA اور دستاویز کی تفہیم کے ساتھ OCR کے لیے ایک جامع گائیڈ

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

تعریفیں اور جائزہ

روبوٹ کیسے OCR اور ML کے ساتھ دستاویزات کو سمجھنا سیکھ سکتے ہیں۔

ورک فلو کو بہتر بنانے کے لیے کمپنیاں RPA کے ساتھ ذہین OCR کو کیسے ضم کر سکتی ہیں۔

RPA ڈویلپرز کو درپیش OCR چیلنجز

دستاویز کو سمجھنے کے ورک فلو کے لیے پائپ لائن

روبوٹ کو دستاویزی تفہیم کے ساتھ مربوط کرنے کے فوائد

Nanonets درج کریں۔

UiPath کے ساتھ NanoNets

Webinar

حوالہ جات

مزید پڑھنا

آپ کو ہماری تازہ ترین پوسٹس میں دلچسپی ہو سکتی ہے:

سے زیادہ اے آئی اور مشین لرننگ

انوائس پر کارروائی کی قیمت کیا ہے؟

ڈیجیٹل پرچیز آرڈر 101

ازگر کا استعمال کرتے ہوئے XML فائلوں کو کیسے پارس کریں؟

پی ڈی ایف امیجز کو آن لائن ٹیکسٹ میں کیسے تبدیل کیا جائے؟

ایک کمبل پی او کیا ہے؟

5 میں میک کے لیے 2022 بہترین OCR سافٹ ویئر

بھرتی کے ورک فلو کے لیے AI کا فائدہ اٹھانے کے لیے Nanonets کے ساتھ خدمت گزار شراکت دار

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ