ایمیزون ٹیکسٹریکٹ کے ساتھ پی ڈی ایف دستاویز کی پری پروسیسنگ: بصری کا پتہ لگانا اور ہٹانا

ماخذ نوڈ: 1204412

ایمیزون ٹیکسٹ ایک مکمل طور پر منظم مشین لرننگ (ML) سروس ہے جو سکین شدہ دستاویزات سے پرنٹ شدہ ٹیکسٹ، ہینڈ رائٹنگ، اور دیگر ڈیٹا خود بخود نکالتی ہے جو فارمز اور ٹیبلز سے ڈیٹا کی شناخت، سمجھنے اور نکالنے کے لیے سادہ آپٹیکل کریکٹر ریکگنیشن (OCR) سے آگے نکل جاتی ہے۔ Amazon Textract مختلف دستاویزات میں متن کا پتہ لگا سکتا ہے، بشمول مالیاتی رپورٹس، طبی ریکارڈ، اور ٹیکس فارم۔

بہت سے استعمال کے معاملات میں، آپ کو مختلف بصری، جیسے لوگو، تصاویر اور چارٹس کے ساتھ دستاویزات کو نکالنے اور ان کا تجزیہ کرنے کی ضرورت ہے۔ یہ بصری ایمبیڈڈ ٹیکسٹ پر مشتمل ہے جو Amazon Textract آؤٹ پٹ کو تبدیل کرتا ہے یا آپ کے بہاو کے عمل کے لیے ضروری نہیں ہے۔ مثال کے طور پر، بہت سے رئیل اسٹیٹ کی تشخیص کے فارم یا دستاویزات میں مکانات کی تصاویر یا تاریخی قیمتوں کے رجحانات ہوتے ہیں۔ ڈاؤن اسٹریم کے عمل میں اس معلومات کی ضرورت نہیں ہے، اور آپ کو دستاویز کا تجزیہ کرنے کے لیے Amazon Textract استعمال کرنے سے پہلے اسے ہٹانا ہوگا۔ اس پوسٹ میں، ہم آپ کی پری پروسیسنگ کے حصے کے طور پر ان بصریوں کو ہٹانے کے دو مؤثر طریقے بتاتے ہیں۔

حل جائزہ

اس پوسٹ کے لیے، ہم ایک پی ڈی ایف استعمال کرتے ہیں جس میں ایک لوگو اور ایک مثال کے طور پر ایک چارٹ ہوتا ہے۔ ہم ان بصریوں کو تبدیل کرنے اور ان کا پتہ لگانے کے لیے دو مختلف قسم کے عمل کا استعمال کرتے ہیں، پھر انہیں دوبارہ ترتیب دیتے ہیں۔

پہلے طریقہ میں، ہم بصریوں کے کنارے کا پتہ لگانے کے لیے اوپن سی وی لائبریری کینی ایج ڈیٹیکٹر کا استعمال کرتے ہیں۔ دوسرے طریقے کے لیے، ہم ان بصریوں کے مقام کا پتہ لگانے کے لیے ایک حسب ضرورت پکسل کنسنٹریشن اینالائزر لکھتے ہیں۔

آپ ان بصریوں کو مزید پروسیسنگ کے لیے نکال سکتے ہیں، اور اپنے استعمال کے معاملے میں فٹ ہونے کے لیے آسانی سے کوڈ میں ترمیم کر سکتے ہیں۔

تلاش کے قابل PDFs مقامی PDF فائلیں ہیں جو عام طور پر دیگر ایپلی کیشنز، جیسے ٹیکسٹ پروسیسرز، ورچوئل پی ڈی ایف پرنٹرز، اور مقامی ایڈیٹرز کے ذریعہ تیار کی جاتی ہیں۔ اس قسم کی PDFs دستاویز کے اندر میٹا ڈیٹا، متن اور تصویری معلومات کو برقرار رکھتی ہیں۔ آپ لائبریریوں کو آسانی سے استعمال کر سکتے ہیں۔ PyMuPDF/fitz پی ڈی ایف ڈھانچے کو نیویگیٹ کرنے اور تصاویر اور متن کی شناخت کرنے کے لیے۔ اس پوسٹ میں، ہم ناقابل تلاش یا تصویر پر مبنی دستاویزات پر فوکس کرتے ہیں۔

آپشن 1: OpenCV ایج ڈیٹیکٹر کے ساتھ بصریوں کا پتہ لگانا

اس نقطہ نظر میں، ہم پی ڈی ایف کو پی این جی فارمیٹ میں تبدیل کرتے ہیں، پھر اس کے ساتھ دستاویز کو گرے اسکیل کرتے ہیں۔ OpenCV-Python لائبریری اور بصری مقامات کا پتہ لگانے کے لیے کینی ایج ڈیٹیکٹر کا استعمال کریں۔ آپ درج ذیل میں تفصیلی مراحل پر عمل کر سکتے ہیں۔ نوٹ بک.

  1. دستاویز کو گرے اسکیل میں تبدیل کریں۔

  1. Canny-Edged دستاویز میں شکلوں کا پتہ لگانے کے لیے Canny Edge الگورتھم کا اطلاق کریں۔
  2. متعلقہ جہتوں کے ساتھ مستطیل شکل کی شناخت کریں۔

آپ اپنے استعمال کے معاملے کی بنیاد پر پتہ لگانے کی درستگی کو بڑھانے کے لیے کچھ پیرامیٹرز کو مزید ٹیون اور بہتر بنا سکتے ہیں:

  • کم از کم اونچائی اور چوڑائی - یہ پیرامیٹرز بصری کھوج کے لیے کم از کم اونچائی اور چوڑائی کی حد کی وضاحت کرتے ہیں۔ اس کا اظہار صفحہ کے سائز کے فیصد میں ہوتا ہے۔
  • بھرتی - جب ایک مستطیل سموچ کا پتہ چل جاتا ہے، تو ہم اضافی پیڈنگ ایریا کی وضاحت کرتے ہیں تاکہ صفحہ کے کل رقبہ پر کچھ لچک پیدا ہو جس کو درست کیا جائے۔ یہ ان صورتوں میں مددگار ہے جہاں بصری میں متن واضح طور پر محدود مستطیل علاقوں کے اندر نہیں ہیں۔

فوائد اور نقصانات۔

اس نقطہ نظر کے درج ذیل فوائد ہیں:

  • یہ زیادہ تر استعمال کے معاملات کو پورا کرتا ہے۔
  • اسے نافذ کرنا آسان ہے، اور جلدی جلدی اٹھنا اور چلنا
  • اس کے بہترین پیرامیٹرز اچھے نتائج دیتے ہیں۔

تاہم، طریقہ کار میں مندرجہ ذیل خرابیاں ہیں:

  • باؤنڈنگ باکس یا ارد گرد کے کناروں کے بغیر بصریوں کے لیے، کارکردگی بصریوں کی قسم کے لحاظ سے مختلف ہو سکتی ہے۔
  • اگر متن کا ایک بلاک بڑے باؤنڈنگ خانوں کے اندر ہے تو، پورے ٹیکسٹ بلاک کو بصری سمجھا جائے گا اور اس منطق کا استعمال کرتے ہوئے ہٹا دیا جائے گا۔

آپشن 2: پکسل کی حراستی کا تجزیہ

ہم تصویری پکسلز کا تجزیہ کرکے اپنے دوسرے نقطہ نظر کو نافذ کرتے ہیں۔ عام متن کے پیراگراف اپنی لائنوں میں ارتکاز کے دستخط کو برقرار رکھتے ہیں۔ ہم پکسل کثافت کی پیمائش اور تجزیہ کر سکتے ہیں تاکہ پکسل کی کثافت والے علاقوں کی نشاندہی کی جا سکے جو باقی دستاویز سے مماثل نہیں ہیں۔ آپ درج ذیل میں تفصیلی مراحل پر عمل کر سکتے ہیں۔ نوٹ بک.

  1. دستاویز کو گرے اسکیل میں تبدیل کریں۔
  2. سرمئی علاقوں کو سفید میں تبدیل کریں۔
  3. سیاہ پکسلز کے ارتکاز کا حساب لگانے کے لیے پکسلز کو افقی طور پر سمیٹیں۔
  4. دستاویز کو افقی پٹیوں یا حصوں میں تقسیم کریں تاکہ ان کی شناخت کی جا سکے جو مکمل متن نہیں ہیں (پورے صفحے پر پھیلا ہوا ہے)۔

  1. تمام افقی حصوں کے لیے جو مکمل متن نہیں ہیں، ان علاقوں کی نشاندہی کریں جو متن ہیں بمقابلہ وہ علاقے جو تصاویر ہیں۔ یہ کم سے کم اور زیادہ سے زیادہ سیاہ پکسل کی حراستی حدوں کا استعمال کرتے ہوئے حصوں کو فلٹر کرکے کیا جاتا ہے۔
  2. غیر مکمل متن کے طور پر شناخت شدہ علاقوں کو ہٹا دیں۔

آپ غیر متن والے علاقوں کی شناخت کی درستگی کو بہتر بنانے کے لیے درج ذیل پیرامیٹرز کو ٹیون کر سکتے ہیں:

  • غیر متنی افقی سیگمنٹ کی حد - صفحہ میں غیر متنی افقی حصوں کا پتہ لگانے کے لیے استعمال ہونے والی کم سے کم اور زیادہ سے زیادہ سیاہ پکسل کی حراستی کی حد کی وضاحت کریں۔
  • غیر متنی عمودی سیگمنٹ کی حد - صفحہ میں غیر متنی عمودی حصوں کا پتہ لگانے کے لیے استعمال ہونے والے کم سے کم اور زیادہ سے زیادہ سیاہ پکسل کے ارتکاز کی حد کی وضاحت کریں۔
  • ونڈو کا سائز - کنٹرول کرتا ہے کہ تجزیہ کے لیے صفحہ کو افقی اور عمودی حصوں میں کیسے تقسیم کیا جاتا ہے (X_WINDOW, Y_WINDOW)۔ اس کی وضاحت پکسلز کی تعداد میں کی گئی ہے۔
  • کم سے کم بصری علاقہ - سب سے چھوٹے علاقے کی وضاحت کرتا ہے جسے ہٹانے کے لیے بصری سمجھا جا سکتا ہے۔ اس کی وضاحت پکسلز میں کی گئی ہے۔
  • گرے رینج کی حد - بھوری رنگ کے شیڈز کو ہٹانے کی حد۔

فوائد اور نقصانات۔

یہ نقطہ نظر انتہائی حسب ضرورت ہے۔ تاہم، اس میں درج ذیل خرابیاں ہیں:

  • زیادہ سے زیادہ پیرامیٹرز میں زیادہ وقت لگتا ہے اور حل کی گہری سمجھ حاصل کرنے میں
  • اگر دستاویز مکمل طور پر درست نہیں کی گئی ہے (ایک زاویہ کے ساتھ کیمرے سے لی گئی تصویر)، یہ طریقہ ناکام ہو سکتا ہے۔

نتیجہ

اس پوسٹ میں، ہم نے دکھایا کہ آپ کس طرح مختلف دستاویزات سے بصری ترمیم کے لیے دو طریقوں پر عمل درآمد کر سکتے ہیں۔ دونوں طریقوں کو لاگو کرنا آسان ہے۔ آپ اعلیٰ معیار کے نتائج حاصل کر سکتے ہیں اور اپنے استعمال کے معاملے کے مطابق کسی بھی طریقے کو اپنی مرضی کے مطابق بنا سکتے ہیں۔

Amazon Textract میں مختلف تکنیکوں کے بارے میں مزید جاننے کے لیے، عوام کو دیکھیں AWS نمونے GitHub ریپو.


مصنفین کے بارے میں

 یوآن جیانگ مشین لرننگ میں فوکس کے ساتھ ایک Sr Solution آرکیٹیکٹ ہے۔ وہ ایمیزون کمپیوٹر ویژن ہیرو پروگرام اور ایمیزون مشین لرننگ ٹیکنیکل فیلڈ کمیونٹی کا رکن ہے۔

وکٹر ریڈ کنورسیشنل AI فوکس کے ساتھ ایک سینئر پارٹنر سلوشن آرکیٹیکٹ ہے۔ وہ Amazon Computer Vision Hero پروگرام کا رکن بھی ہے۔

لوئس پینیڈا ایک سینئر پارٹنر مینجمنٹ سلوشن آرکیٹیکٹ ہے۔ وہ Amazon Computer Vision Hero پروگرام کا رکن بھی ہے۔

میگوئل رومیرو کالوو AWS مشین لرننگ سلوشن لیب سے ڈیٹا سائنٹسٹ ہے۔

ماخذ: https://aws.amazon.com/blogs/machine-learning/process-text-and-images-in-pdf-documents-with-amazon-textract/

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ بلاگ