اسکین شدہ دستاویزات سے ڈیٹا نکالنا

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

اسکین شدہ دستاویزات سے ڈیٹا نکالنا

اسکین شدہ دستاویزات سے ڈیٹا نکالنا چاہتے ہیں؟ کوشش کریں۔ نانونٹس™ اعلی درجے کی AI پر مبنی OCR سکینر سے معلومات کو نکالنا اور منظم کرنا سکین شدہ دستاویزات خود کار طریقے سے.

تعارف

چونکہ دنیا نے آسانی کے لیے کاغذات اور لکھاوٹ سے ڈیجیٹل دستاویزات کی طرف رخ کیا ہے، تصاویر اور اسکین شدہ دستاویزات کو بامعنی ڈیٹا میں تبدیل کرنے کی اہمیت آسمان کو چھو رہی ہے۔

انتہائی درست دستاویز ڈیٹا نکالنے کی ضرورت کو برقرار رکھنے کے لیے، متعدد تحقیقی سہولیات اور کارپوریشنز (یعنی، Google، AWS، Nanonets وغیرہ) نے کمپیوٹر ویژن اور نیچرل لینگویج پروسیسنگ (NLP) کے شعبوں میں ٹیکنالوجیز پر گہری توجہ مرکوز کی۔

گہری سیکھنے والی ٹیکنالوجیز کے پھلنے پھولنے نے ڈیٹا کی اس قسم میں ایک بڑی چھلانگ کو یقینی بنایا ہے جسے نکالا جا سکتا ہے۔ ہم اب صرف متن کو نکالنے سے ہی محدود نہیں ہیں، بلکہ دیگر ڈیٹا ڈھانچے جیسے کہ میزیں اور کلیدی قدر کے جوڑے بھی۔ بہت سے حل اب دستاویزات ڈیٹا نکالنے میں افراد اور کاروباری مالکان کی ضروریات کو پورا کرنے کے لیے مختلف مصنوعات پیش کرتے ہیں۔

اس مضمون میں اسکین شدہ دستاویزات سے ڈیٹا نکالنے کے لیے استعمال ہونے والی موجودہ ٹیکنالوجی میں غوطہ لگایا گیا ہے، اس کے بعد ازگر میں ایک مختصر ہینڈ آن ٹیوٹوریل ہے۔ ہم اس وقت مارکیٹ میں موجود کچھ مقبول حلوں کو بھی دیکھیں گے جو اس فیلڈ میں بہترین پیشکش فراہم کرتے ہیں۔

ڈیٹا نکالنا کیا ہے؟

ڈیٹا نکالنے کا عمل غیر ساختہ ڈیٹا کو پروگراموں کے ذریعے قابل تشریح معلومات میں تبدیل کرنے کا عمل ہے تاکہ انسانوں کو مزید ڈیٹا پروسیسنگ کی اجازت دی جا سکے۔ یہاں ہم اسکین شدہ دستاویزات سے نکالے جانے والے ڈیٹا کی کئی عام اقسام کی فہرست دیتے ہیں۔

ٹیکسٹ ڈیٹا

اسکین شدہ دستاویزات سے ڈیٹا نکالنے کا سب سے عام اور سب سے اہم کام ٹیکسٹ نکالنا ہے۔ یہ عمل، اگرچہ بظاہر سیدھا لگتا ہے، حقیقت میں بہت مشکل ہے کیونکہ اسکین شدہ دستاویزات اکثر تصاویر کی شکل میں پیش کی جاتی ہیں۔ اس کے علاوہ، نکالنے کے طریقے متن کی اقسام پر بہت زیادہ انحصار کرتے ہیں۔ اگرچہ متن زیادہ تر وقت گھنے طباعت شدہ فارمیٹس میں موجود ہوتا ہے، لیکن کم اچھی طرح سے اسکین شدہ دستاویزات سے یا ہاتھ سے لکھے ہوئے خطوط سے متنوع متن نکالنے کی صلاحیت بھی اتنی ہی اہم ہے۔ اس طرح کے عمل سے پروگراموں کو تصاویر کو مشین سے انکوڈ شدہ متن میں تبدیل کرنے کی اجازت ملے گی، جہاں ہم مزید تجزیہ کے لیے انہیں غیر ساختہ ڈیٹا (بغیر مخصوص فارمیٹنگ کے) سے منظم ڈیٹا میں ترتیب دے سکتے ہیں۔

💡

گہری سیکھنے کے الگورتھم کو سمجھنا چاہتے ہیں جو اس طرح کے عمل کو طاقت دیتے ہیں؟ ہماری طرف بڑھیں۔ لے آؤٹ ایل ایم وضاحت شدہ بلاگ

میزیں

ڈیٹا سٹوریج کے لیے ٹیبلر فارمز سب سے زیادہ مقبول طریقہ ہے، کیونکہ فارمیٹ کی انسانی آنکھوں سے آسانی سے تشریح کی جا سکتی ہے۔ اسکین شدہ دستاویزات سے ٹیبل نکالنے کے عمل کے لیے کریکٹر ڈٹیکشن سے آگے کی ٹیکنالوجی کی ضرورت ہوتی ہے - ایک مناسب ٹیبل نکالنے کے لیے لائنوں اور دیگر بصری خصوصیات کا پتہ لگانا چاہیے اور مزید حساب کے لیے ان معلومات کو سٹرکچرڈ ڈیٹا میں تبدیل کرنا چاہیے۔ کمپیوٹر ویژن کے طریقے (مندرجہ ذیل حصوں میں تفصیل کے ساتھ بیان کیے گئے ہیں) اعلی درستگی کے ٹیبل نکالنے کے لیے بہت زیادہ استعمال کیے جاتے ہیں۔

کلیدی قدر کے جوڑے

ایک متبادل فارمیٹ جسے ہم اکثر ڈیٹا اسٹوریج کے لیے دستاویزات میں اپناتے ہیں وہ ہے کلیدی قدر کے جوڑے (KVPs)۔

KVPs بنیادی طور پر دو ڈیٹا آئٹمز ہیں — ایک کلید اور ایک قدر — جو ایک دوسرے کے ساتھ جڑے ہوئے ہیں۔ کلید کو دوبارہ حاصل کرنے کے لیے ایک منفرد شناخت کنندہ کے طور پر استعمال کیا جاتا ہے۔ ایک کلاسک KVP مثال لغت ہے، جہاں الفاظ کی کلیدیں ہیں اور متعلقہ تعریفیں قدریں ہیں۔ یہ جوڑے، جب کہ عام طور پر کسی کا دھیان نہیں دیا جاتا، درحقیقت دستاویزات میں بہت کثرت سے استعمال کیا جاتا ہے: سروے میں سوالات جیسے کہ نام، عمر، اور انوائس میں اشیاء کی قیمتیں سبھی واضح طور پر KVPs ہیں۔

تاہم، جدولوں کے برعکس، KVPs اکثر نامعلوم فارمیٹس میں موجود ہوتے ہیں اور بعض اوقات جزوی طور پر ہاتھ سے لکھے بھی ہوتے ہیں۔ مثال کے طور پر، چابیاں خانوں میں پہلے سے پرنٹ کی جا سکتی ہیں اور فارم کو مکمل کرتے وقت اقدار ہاتھ سے لکھی جاتی ہیں۔ لہذا، KVP نکالنے کے لیے بنیادی ڈھانچے کو خود بخود تلاش کرنا ایک جاری تحقیقی عمل ہے یہاں تک کہ جدید ترین سہولیات اور لیبز کے لیے بھی۔

اعداد و شمار

آخر میں، یہ بھی نکالنے کے لئے بہت ضروری ہے یا ڈیٹا پر قبضہ اسکین شدہ دستاویز کے اندر موجود اعداد و شمار سے۔ پائی چارٹ اور بار چارٹ جیسے شماریاتی اشارے اکثر دستاویزات کے لیے اہم معلومات پر مشتمل ہوتے ہیں۔ ڈیٹا نکالنے کا ایک اچھا عمل مزید استعمال کے لیے اعداد و شمار سے جزوی طور پر ڈیٹا نکالنے کے لیے لیجنڈز اور نمبرز سے اندازہ لگانے کے قابل ہونا چاہیے۔

اسکین شدہ دستاویزات سے ڈیٹا نکالنا چاہتے ہیں؟ نانونٹس دیں۔™ اعلی درستگی، زیادہ لچک، پوسٹ پروسیسنگ، اور انضمام کے ایک وسیع سیٹ کے لیے ایک اسپن!

ڈیٹا نکالنے کے پیچھے ٹیکنالوجیز

ڈیٹا نکالنا دو اہم عملوں کے گرد گھومتا ہے: آپٹیکل کریکٹر ریکگنیشن (او سی آر) اس کے بعد نیچرل لینگویج پروسیسنگ (این ایل پی).

OCR ایکسٹرکشن ٹیکسٹ امیجز کو مشین انکوڈڈ ٹیکسٹ میں تبدیل کرنے کا عمل ہے، جب کہ مؤخر الذکر معنی کا اندازہ لگانے کے لیے الفاظ کا تجزیہ ہے۔ اکثر OCR کے ساتھ کمپیوٹر وژن کی دوسری تکنیکیں ہوتی ہیں جیسے باکس اور لائن کا پتہ لگانے کے لیے مذکورہ بالا ڈیٹا کی اقسام جیسے کہ میزیں اور KVPs کو مزید جامع نکالنے کے لیے۔

ڈیٹا نکالنے کی پائپ لائن کے پیچھے بنیادی بہتری گہری سیکھنے کی ترقی سے مضبوطی سے جڑی ہوئی ہے جس نے کمپیوٹر ویژن اور نیچرل لینگویج پروسیسنگ (NLP) کے شعبوں میں بہت زیادہ تعاون کیا۔

گہری تعلیم کیا ہے؟

مصنوعی ذہانت کے دور کی ہپ کے پیچھے گہری سیکھنے کا ایک بڑا کردار ہے، اور متعدد ایپلی کیشنز میں اسے مسلسل آگے بڑھایا جاتا رہا ہے۔ روایتی انجینئرنگ میں، ہمارا مقصد ایک ایسے سسٹم/فنکشن کو ڈیزائن کرنا ہے جو دیے گئے ان پٹ سے آؤٹ پٹ پیدا کرتا ہے۔ دوسری طرف گہری تعلیم، انٹرمیڈیٹ رشتہ تلاش کرنے کے لیے ان پٹ اور آؤٹ پٹس پر انحصار کرتی ہے جسے نام نہاد کے ذریعے نئے ان دیکھے ڈیٹا تک بڑھایا جا سکتا ہے۔ عصبی نیٹ ورک.

ایک نیورل نیٹ ورک، یا ملٹی لیئر پرسیپٹرون (ایم ایل پی)، ایک مشین لرننگ فن تعمیر ہے جس سے متاثر ہوکر انسانی دماغ کیسے سیکھتا ہے۔ نیٹ ورک میں نیوران ہوتے ہیں، جو حیاتیاتی نیوران کی نقل کرتے ہیں اور مختلف معلومات دینے پر "فعال" ہوتے ہیں۔ نیوران کے سیٹ تہوں کی تشکیل کرتے ہیں، اور متعدد پرتیں ایک ساتھ جمع کر کے ایک نیٹ ورک بناتی ہیں تاکہ متعدد شکلوں کی پیشن گوئی کے مقاصد کو پورا کیا جا سکے (یعنی تصویر کی درجہ بندی یا آبجیکٹ کا پتہ لگانے کے لیے باؤنڈنگ بکس)۔

کمپیوٹر ویژن کے میدان میں، اعصابی نیٹ ورک کی مختلف حالتوں کی ایک قسم بہت زیادہ لاگو ہوتی ہے - convolutional neural networks (CNNs). روایتی تہوں کے بجائے، ایک CNN convolutional kernels کو اپناتا ہے جو خصوصیت نکالنے کے لیے ٹینسر (یا ہائی ڈائمینشنل ویکٹر) کے ذریعے پھسلتے ہیں۔ آخر میں روایتی نیٹ ورک کی تہوں کے ساتھ، CNNs تصویر سے متعلق کاموں میں بہت کامیاب ہیں، اور مزید OCR نکالنے اور دیگر خصوصیات کا پتہ لگانے کے لیے بنیاد بنائے۔

دوسری طرف، NLP نیٹ ورکس کے ایک اور سیٹ پر انحصار کرتا ہے، جو ٹائم سیریز ڈیٹا پر فوکس کرتا ہے۔ تصویروں کے برعکس، جہاں ایک تصویر ایک دوسرے سے آزاد ہوتی ہے، متن کی پیشین گوئی زیادہ تر فائدہ مند ہو سکتی ہے اگر پہلے یا بعد کے الفاظ کو بھی مدنظر رکھا جائے۔ گزشتہ چند سالوں میں، نیٹ ورکس کا ایک خاندان، یعنی طویل مختصر مدتی یادیں (LSTMs)، جو موجودہ نتائج کی پیشن گوئی کرنے کے لیے پچھلے نتائج کو بطور ان پٹ لیتا ہے۔ دو طرفہ LSTMs کو بھی اکثر پیشین گوئی کی پیداوار کو بڑھانے کے لیے اپنایا جاتا تھا، جہاں پہلے اور بعد کے دونوں نتائج پر غور کیا جاتا تھا۔ تاہم حالیہ برسوں میں، ٹرانسفارمرز کا ایک تصور جو توجہ کا طریقہ کار استعمال کرتا ہے، اس کی اعلی لچک کی وجہ سے بڑھنا شروع ہو رہا ہے جس کے نتیجے میں ترتیب وار ٹائم سیریز کو سنبھالنے والے روایتی نیٹ ورکس کے مقابلے میں بہتر نتائج حاصل ہوتے ہیں۔

ڈیٹا نکالنے کی ایپلی کیشنز

ڈیٹا نکالنے کا بنیادی مقصد غیر ساختہ دستاویزات سے ڈیٹا کو سٹرکچرڈ فارمیٹس میں تبدیل کرنا ہے، جس میں متن، اعداد و شمار اور ڈیٹا کے ڈھانچے کی انتہائی درست بازیافت عددی اور سیاق و سباق کے تجزیہ کے لیے بہت مددگار ثابت ہو سکتی ہے۔ یہ تجزیے خاص طور پر کاروبار کے لیے بہت مددگار ثابت ہو سکتے ہیں:

بزنس

کاروباری کارپوریشنز اور بڑی تنظیمیں روزانہ کی بنیاد پر ایک جیسے فارمیٹس کے ساتھ ہزاروں کاغذی کارروائیوں سے نمٹتی ہیں — بڑے بینکوں کو متعدد ایک جیسی درخواستیں موصول ہوتی ہیں، اور تحقیقی ٹیموں کو شماریاتی تجزیہ کرنے کے لیے فارموں کے ڈھیروں کا تجزیہ کرنا پڑتا ہے۔ لہٰذا، دستاویزات سے ڈیٹا نکالنے کے ابتدائی مرحلے کی آٹومیشن انسانی وسائل کی فالتو پن کو نمایاں طور پر کم کرتی ہے اور کارکنوں کو معلومات کی کلید کرنے کے بجائے ڈیٹا کا تجزیہ کرنے اور ایپلی کیشنز کا جائزہ لینے پر توجہ مرکوز کرنے کی اجازت دیتی ہے۔

درخواستوں کی تصدیق - کمپنیاں بہت ساری درخواستیں وصول کرتی ہیں، چاہے ہاتھ سے لکھی گئی ہوں یا صرف درخواست فارم کے ذریعے۔ اکثر اوقات، ان ایپلی کیشنز کے ساتھ تصدیقی مقاصد کے لیے ذاتی ID بھی ہو سکتی ہے۔ شناختی دستاویزات جیسے پاسپورٹ یا کارڈز کی اسکین شدہ دستاویزات عام طور پر ایک جیسے فارمیٹس کے بیچ میں آتی ہیں۔ لہذا، ایک اچھی طرح سے لکھا ہوا ڈیٹا ایکسٹریکٹر ڈیٹا (متن، ٹیبل، اعداد و شمار، KVPs) کو مشین کے ذریعے سمجھے جانے والے متن میں تیزی سے تبدیل کر سکتا ہے، جو ان کاموں پر کام کرنے کے اوقات کو کافی حد تک کم کر سکتا ہے اور نکالنے کے بجائے درخواست کے انتخاب پر توجہ مرکوز کر سکتا ہے۔
ادائیگی کی مفاہمت - ادائیگیوں کا مفاہمت اکاؤنٹس کے درمیان نمبروں کی مماثلت کو یقینی بنانے کے لیے بینک اسٹیٹمنٹس کا موازنہ کرنے کا عمل ہے، جو کہ دستاویزات سے ڈیٹا نکالنے کے گرد گھومتا ہے - کافی سائز اور آمدنی کے مختلف ذرائع والی کمپنی کے لیے ایک چیلنجنگ مسئلہ۔ ڈیٹا نکالنا اس عمل کو آسان بنا سکتا ہے اور ملازمین کو ناقص ڈیٹا پر توجہ مرکوز کرنے اور کیش فلو کے بارے میں ممکنہ دھوکہ دہی کے واقعات کو دریافت کرنے کی اجازت دیتا ہے۔
شماریاتی تجزیہ - کارپوریشنز اور تنظیمیں اپنی مصنوعات اور خدمات کو بہتر بنانے کے لیے صارفین یا تجربہ کار شرکاء کے تاثرات استعمال کرتی ہیں، اور فیڈ بیک کی ایک جامع تشخیص کے لیے عام طور پر شماریاتی تجزیہ کی ضرورت ہوتی ہے۔ تاہم، سروے کا ڈیٹا متعدد فارمیٹس میں موجود ہو سکتا ہے یا متن کے درمیان مختلف فارمیٹس کے ساتھ چھپا ہوا ہے۔ ڈیٹا نکالنا بیچوں میں موجود دستاویزات سے واضح ڈیٹا کی نشاندہی کرکے عمل کو آسان بنا سکتا ہے، مفید عمل تلاش کرنے کے عمل کو آسان بنا سکتا ہے، اور بالآخر کارکردگی میں اضافہ کر سکتا ہے۔
ماضی کے ریکارڈز کا اشتراک کرنا - صحت کی دیکھ بھال سے لے کر بینک کی خدمات کو تبدیل کرنے تک، بڑی صنعتوں کو اکثر صارفین کی نئی معلومات درکار ہوتی ہیں جو شاید کہیں اور موجود تھیں۔ مثال کے طور پر، منتقل ہونے کی وجہ سے ہسپتالوں کو تبدیل کرنے والے مریض کے پاس پہلے سے موجود میڈیکل ریکارڈز ہو سکتے ہیں جو نئے ہسپتال کے لیے مددگار ثابت ہو سکتے ہیں۔ ایسے معاملات میں، ایک اچھا ڈیٹا نکالنے والا سافٹ ویئر کام آتا ہے کیونکہ فرد کے لیے تمام معلومات کو خود بخود بھرنے کے لیے نئے ہسپتال میں ریکارڈ کی اسکین شدہ تاریخ لانے کی ضرورت ہوتی ہے۔ نہ صرف یہ آسان ہوگا بلکہ یہ خاص طور پر صحت کی دیکھ بھال کی صنعت میں مریضوں کے اہم ریکارڈوں کو نظر انداز کیے جانے والے وسیع خطرات سے بھی بچ سکتا ہے۔

سبق

ڈیٹا نکالنے کے طریقہ کار پر ایک واضح نظریہ فراہم کرنے کے لیے، ہم اسکیننگ دستاویزات سے ڈیٹا نکالنے کے طریقوں کے دو سیٹ دکھاتے ہیں۔

شروع سے عمارت

مندرجہ ذیل طریقے سے PyTesseract انجن کے ذریعے OCR انجن نکالنے والا سادہ ڈیٹا بنا سکتا ہے۔

try: from PIL import Image
except ImportError: import Image
import pytesseract # If you don't have tesseract executable in your PATH, include the following:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# Example tesseract_cmd = r'C:Program Files (x86)Tesseract-OCRtesseract' # Simple image to string
print(pytesseract.image_to_string(Image.open('test.png'))) # List of available languages
print(pytesseract.get_languages(config='')) # French text image to string
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra')) # In order to bypass the image conversions of pytesseract, just use relative or absolute image path
# NOTE: In this case you should provide tesseract supported images or tesseract will return error
print(pytesseract.image_to_string('test.png')) # Batch processing with a single file containing the list of multiple image file paths
print(pytesseract.image_to_string('images.txt')) # Timeout/terminate the tesseract job after a period of time
try: print(pytesseract.image_to_string('test.jpg', timeout=2)) # Timeout after 2 seconds print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # Timeout after half a second
except RuntimeError as timeout_error: # Tesseract processing is terminated pass # Get bounding box estimates
print(pytesseract.image_to_boxes(Image.open('test.png'))) # Get verbose data including boxes, confidences, line and page numbers
print(pytesseract.image_to_data(Image.open('test.png'))) # Get information about orientation and script detection
print(pytesseract.image_to_osd(Image.open('test.png'))) # Get a searchable PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f: f.write(pdf) # pdf type is bytes by default # Get HOCR output
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr') # Get ALTO XML output
xml = pytesseract.image_to_alto_xml('test.png')

کوڈ کے بارے میں مزید معلومات کے لیے، آپ ان کے آفیشل کو چیک آؤٹ کر سکتے ہیں۔ دستاویزات.

آسان الفاظ میں، کوڈ کسی دی گئی تصویر سے ڈیٹا جیسے ٹیکسٹس اور باؤنڈنگ بکس نکالتا ہے۔ کافی مفید ہونے کے باوجود، انجن اتنا مضبوط نہیں ہے جتنا کہ تربیت کے لیے ان کی کافی کمپیوٹیشنل طاقت کی وجہ سے جدید حل کے ذریعے فراہم کردہ ہے۔

گوگل دستاویز API کا استعمال

 def async_detect_document(gcs_source_uri, gcs_destination_uri):
"""OCR with PDF/TIFF as source files on GCS""" import json import re from google.cloud import vision from google.cloud import storage # Supported mime_types are: 'application/pdf' and 'image/tiff' mime_type = 'application/pdf' # How many pages should be grouped into each json output file. batch_size = 2 client = vision.ImageAnnotatorClient() feature = vision.Feature( type_=vision.Feature.Type.DOCUMENT_TEXT_DETECTION) gcs_source = vision.GcsSource(uri=gcs_source_uri) input_config = vision.InputConfig( gcs_source=gcs_source, mime_type=mime_type) gcs_destination = vision.GcsDestination(uri=gcs_destination_uri) output_config = vision.OutputConfig( gcs_destination=gcs_destination, batch_size=batch_size) async_request = vision.AsyncAnnotateFileRequest( features=[feature], input_config=input_config, output_config=output_config) operation = client.async_batch_annotate_files( requests=[async_request]) print('Waiting for the operation to finish.') operation.result(timeout=420) # Once the request has completed and the output has been # written to GCS, we can list all the output files. storage_client = storage.Client() match = re.match(r'gs://([^/]+)/(.+)', gcs_destination_uri) bucket_name = match.group(1) prefix = match.group(2) bucket = storage_client.get_bucket(bucket_name) # List objects with the given prefix. blob_list = list(bucket.list_blobs(prefix=prefix)) print('Output files:') for blob in blob_list: print(blob.name) # Process the first output file from GCS. # Since we specified batch_size=2, the first response contains # the first two pages of the input file. output = blob_list[0] json_string = output.download_as_string() response = json.loads(json_string) # The actual response for the first page of the input file. first_page_response = response['responses'][0] annotation = first_page_response['fullTextAnnotation'] # Here we print the full text from the first page. # The response contains more information: # annotation/pages/blocks/paragraphs/words/symbols # including confidence scores and bounding boxes print('Full text:n') print(annotation['text'])

بالآخر، گوگل کا دستاویز AI آپ کو دستاویزات سے بہت سی معلومات کو اعلی درستگیوں کے ساتھ نکالنے کی اجازت دیتا ہے۔ اس کے علاوہ، سروس مخصوص استعمال کے لیے بھی پیش کی جاتی ہے، بشمول نارمل اور جنگلی تصاویر دونوں کے لیے متن نکالنا۔

ملاحظہ کیجیے یہاں زیادہ کے لئے.

ڈیٹا نکالنے کی پیشکش کرنے والے موجودہ حل

دستاویز ڈیٹا نکالنے کے لیے APIs کے ساتھ بڑی کارپوریشنز کے علاوہ، بہت سے حل ہیں جو انتہائی درست فراہم کرتے ہیں۔ پی ڈی ایف او سی آر خدمات ہم پی ڈی ایف او سی آر کے متعدد آپشنز پیش کرتے ہیں جو مختلف پہلوؤں میں مہارت رکھتے ہیں، ساتھ ہی کچھ حالیہ تحقیقی پروٹو ٹائپس جو امید افزا نتائج فراہم کرتے نظر آتے ہیں*:

*سائیڈ نوٹ: متعدد OCR سروسز ہیں جن کا ہدف جنگلی میں تصاویر جیسے کاموں کی طرف ہے۔ ہم نے ان خدمات کو چھوڑ دیا کیونکہ ہم فی الحال صرف پی ڈی ایف دستاویز پڑھنے پر توجہ مرکوز کر رہے ہیں۔

گوگل API — سب سے بڑے آن لائن سروس فراہم کنندگان میں سے ایک کے طور پر، Google اپنی اہم کمپیوٹر ویژن ٹیکنالوجی کے ساتھ دستاویز نکالنے میں شاندار نتائج پیش کرتا ہے۔ اگر استعمال کافی کم ہو تو کوئی بھی اپنی خدمات مفت میں استعمال کر سکتا ہے، لیکن API کالز بڑھنے کے ساتھ ہی قیمت بڑھ جاتی ہے۔
گہرا ریڈر — ڈیپ ریڈر ایک تحقیقی کام ہے جو ACCV کانفرنس 2019 میں شائع ہوا ہے۔ اس میں کام کرنے کے لیے متعدد جدید ترین نیٹ ورک آرکیٹیکچرز شامل کیے گئے ہیں جیسے دستاویز کی مماثلت، متن کی بازیافت، اور تصاویر کو مسترد کرنا۔ یہاں اضافی خصوصیات ہیں جیسے ٹیبلز اور کلیدی ویلیو پیئر نکالنا جو ڈیٹا کو منظم طریقے سے بازیافت اور محفوظ کرنے کی اجازت دیتے ہیں۔
Nanonets™ — ایک انتہائی ہنر مند گہری سیکھنے والی ٹیم کے ساتھ، Nanonets™ PDF OCR مکمل طور پر ٹیمپلیٹ اور رول سے آزاد ہے۔ لہذا، Nanonets™ نہ صرف مخصوص قسم کی PDFs پر کام کر سکتا ہے، بلکہ اسے متن کی بازیافت کے لیے کسی بھی دستاویز کی قسم پر بھی لاگو کیا جا سکتا ہے۔