پی ڈی ایف سے ایکسل میں کیسے ایکسپورٹ کریں۔

ماخذ نوڈ: 807929

یہ بلاگ اسکین شدہ پی ڈی ایف سے ایکسل میں معلومات برآمد کرنے کے لیے ایک جامع گائیڈ ہے۔

معلومات کا دھماکہ اور پی ڈی ایف کا استعمال

معلومات ہر جگہ ہے۔ اعداد و شمار کے مطابق سال 1.7 میں ہر سیکنڈ میں 2020MB سے زیادہ ڈیٹا بنتا ہے۔ اگر یہ سلسلہ جاری رہا تو 463 کے آخر تک ہمارے پاس 2025 ایگزابائٹس ڈیٹا ہوگا۔ سیلف ڈرائیونگ کاریں، کمپنی سے متعلقہ دستاویزات، ای میلز، تصاویر وغیرہ۔ ان میں سے، ٹیکسٹ سے متعلق ڈیٹا کو ذخیرہ کرنے کے لیے، پی ڈی ایف کا کثرت سے استعمال کیا جاتا ہے۔ پی ڈی ایف کی کچھ عام مثالوں میں کتابیں، رسیدیں، ٹیکس فارم، لاجسٹک معلومات اور بہت کچھ شامل ہے۔

لیکن یہاں ایک مسئلہ ہے! بہت سے لوگوں کو پی ڈی ایف دستاویزات سے اہم معلومات کو پارس کرنا یا نکالنا مبہم لگتا ہے۔ اس لیے وہ معلومات کو استعمال کرنے اور بامعنی بصیرت کو سامنے لانے کے لیے دستاویزات سے ڈیٹا کو ٹیبلر ڈیٹا (زیادہ تر ایکسل شیٹس) میں منتقل کرنے کے طریقے تلاش کرتے ہیں۔ اس کالم میں، ہم سیکھیں گے کہ کس طرح ہم مختلف تکنیکوں کے ذریعے ایکسل شیٹس میں پی ڈی ایف کی معلومات برآمد کرتے ہیں۔ ہم یہ بھی دیکھیں گے کہ کس طرح OCR اور ڈیپ لرننگ PDFs سے معلومات نکالنے کے پورے عمل کو خودکار بنانے میں ہماری مدد کر سکتے ہیں۔

شروع کرنے سے پہلے، یہاں پوسٹ کا ایک فوری خاکہ ہے:


پی ڈی ایف کو ایکسل میں تبدیل کرنے کا مسئلہ

پی ڈی ایف عام طور پر ڈیٹا دیکھنے کے لیے سب سے زیادہ پڑھنے کے قابل فارمیٹس میں سے ایک ہیں۔ لیکن انہیں ایکسل شیٹس میں تبدیل کرنا ایک مشکل کام ہے کیونکہ:

  • ہمیں سادہ پرائمیٹوز کے ساتھ ایک فارمیٹ کی ضرورت ہے اور کوئی منظم معلومات نہیں ہے۔
  • پی ڈی ایف فائلوں میں ٹیبل کا کوئی جزو نہیں ہے کیونکہ ٹیبل سیدھی لائنوں اور رنگین پس منظر کے ساتھ بنائے جاتے ہیں
  • چونکہ پی ڈی ایف میں میزیں تصویروں کی طرح کھینچی جاتی ہیں، اس لیے ٹیبل کا پتہ لگانا ایک پیچیدہ عمل ہے: - ہم شکلوں، متن کی پوزیشن، لکیروں اور متن کے درمیان تعلق وغیرہ کے لحاظ سے ٹیمپلیٹس کو سمجھتے ہیں۔
  • ڈیجیٹل امیج کے ذریعہ یا پرنٹ شدہ فائل کو اسکین کرکے تیار کردہ پی ڈی ایف میں مسخ شدہ لکیریں ہیں اور متنی عناصر نہیں ہیں۔

پوری کوشش مایوس کن معلوم ہوتی ہے، لیکن جیسا کہ ہم دیکھنے جا رہے ہیں، بعض اوقات ہم ان پی ڈی ایف فائلوں سے بھی حقیقت میں معلومات نکال سکتے ہیں۔

مندرجہ بالا مسائل کو دیکھ کر، ٹیبل پر مشتمل پی ڈی ایف کی دو قسمیں ہیں:

  1. متنی ڈیٹا کے ساتھ میزیں (الیکٹرانک طور پر تیار کردہ)
  2. اسکین شدہ تصاویر کے ساتھ میزیں (غیر الیکٹرانک طور پر تیار کردہ)
کم ریزولیوشن/ منحرف اسکین شدہ پی ڈی ایف (غیر الیکٹرانک)

اسکین شدہ پی ڈی ایف سے ایکسل شیٹس میں معلومات برآمد کرنا چاہتے ہیں؟ کی طرف بڑھیں۔ نانونٹس PDFs سے Excel میں ایکسپورٹ کرنے کے عمل کو خودکار کرنے کے لیے…


اسکین شدہ پی ڈی ایف کو ایکسل میں ایکسپورٹ کرنا کیسے کام کرتا ہے؟

پی ڈی ایف فائلوں کا مقصد صرف ڈیٹا کو دیکھنے کے لیے ہوتا ہے نہ کہ اس میں ہیرا پھیری کے لیے۔ لہذا، ایکسل شیٹس میں پی ڈی ایف ڈیٹا ایکسپورٹ کرنا سب سے زیادہ تھکا دینے والا اور پیچیدہ کام ہے۔

زیادہ تر صارفین یا ڈویلپر اس کام کو انجام دینے کے لیے وہاں موجود کچھ آن لائن ٹولز کو براؤز کرکے شروع کرتے ہیں۔ لیکن وہ پیچیدہ پی ڈی ایف فارمیٹس کے ذریعے تجزیہ کرنے کے لیے اتنے درست یا قابل نہیں ہیں۔ نیز، یہ ٹولز استعمال کرنے کے لیے آزاد نہیں ہیں، اور یہ روزانہ یا ماہانہ استعمال تک محدود ہیں۔

PDFs کو Excel میں منتقل کرنے کے کام کو سمجھنے کے لیے، ہمیں پہلے اس بات کی تصدیق کرنی ہوگی کہ آیا PDFs الیکٹرانک طور پر بنائے گئے ہیں یا نہیں۔ جب پی ڈی ایف الیکٹرانک طور پر تیار کی جاتی ہیں تو ایکسل میں پی ڈی ایف ایکسپورٹ کرنا کافی سیدھا ہوتا ہے۔ اس میں ڈیٹا کو ورڈ دستاویز میں برآمد کرنا اور پھر اسے ایکسل ورک بک میں کاپی کرنا شامل ہے۔ دوسری صورت میں، جب پی ڈی ایف الیکٹرانک طور پر تیار نہیں ہوتے ہیں (کہیں کہ کیا وہ فون کے ذریعے پکڑے گئے ہیں یا ای میل سے ڈاؤن لوڈ کیے گئے ہیں)، یہ عمل کافی مشکل ہے۔ ذیل میں ایک تفصیلی واک تھرو ہے کہ برآمدی عمل کیسے کام کرتا ہے:

  • سب سے پہلے، پی ڈی ایف ٹو ورڈ/ایکسل/ڈائریکٹ ٹیکسٹ کنورٹرز کا استعمال ہماری ضرورت کی معلومات کو کاپی کرنے کے لیے کیا جاتا ہے۔ اس صورت میں، نتیجہ اکثر گندا ہوتا ہے اگر پی ڈی ایف کسی ٹیمپلیٹس کی پیروی کرتے ہیں یا اگر کوئی ٹیبل موجود ہیں۔
  • OCR (آپٹیکل کریکٹر ریکگنیشن) انجن کا استعمال پی ڈی ایف کو پڑھنے اور پھر اس کے مواد کو ایک مختلف فارمیٹ، عام طور پر سادہ متن میں کاپی کرنے کے لیے کیا جاتا ہے۔ OCR انجنوں کے درمیان معیار مختلف ہوتا ہے اور اکثر لائسنس مفت نہیں ہوتے۔ آپ ہمیشہ مفت اور اوپن سورس Tesseract OCR کے ساتھ جا سکتے ہیں لیکن اس کے لیے کچھ پروگرامنگ جاننے کی ضرورت ہے۔
  • متن کو مطلوبہ فارمیٹ میں پروسیس کرنے یا ٹیبلر فارمیٹ میں اسٹور کرنے کے لیے کچھ اضافی پروگرامنگ کی ضرورت ہوتی ہے۔ اگر آپ ایک ڈویلپر ہیں اور کوڈنگ سے واقف ہیں، تو PDFMiner (Python-based) یا TIka (Java-based) استعمال کیا جا سکتا ہے۔
  • آخر میں، اگر ہم گوگل شیٹس استعمال کر رہے ہیں تو ہمیں فارمیٹ شدہ ڈیٹا کو Excel میں بھیجنے یا آن لائن APIs کو ترتیب دینے کے لیے کوڈ کے ٹکڑوں کو لکھنا پڑے گا۔

متنی پی ڈی ایف میں ٹیبلز کا پتہ لگانے کے طریقے

اب، آئیے پی ڈی ایف سے جدول نکالنے کے طریقوں پر بحث کرتے ہوئے شروع کرتے ہیں جب وہ الیکٹرانک طور پر بنائے جاتے ہیں۔ اس کام کو پورا کرنے کے لیے، ہمارے پاس دو تکنیکیں ہیں: سٹریم اور جالی۔ ان تکنیکوں کو پہلے ظاہر کیا گیا تھا اور جیسے ٹولز کے ذریعہ بہتر بنایا گیا تھا۔ Camelot اور ٹیبلولا. ہم ان ٹولز کا استعمال کرتے ہوئے کچھ مثالوں کو بھی دیکھیں گے اور انہیں مزید حصوں میں عمل میں دیکھیں گے۔

اسٹریم کا استعمال کرتے ہوئے ٹیبلز کا پتہ لگانا:

اس تکنیک کا استعمال ان میزوں کو پارس کرنے کے لیے کیا جاتا ہے جن میں خلیات کے درمیان خالی جگہیں ہوتی ہیں تاکہ ٹیبل کی ساخت کی نقالی کی جا سکے۔ بنیادی طور پر، اس جگہ کی نشاندہی کرنا جہاں متن موجود نہیں ہے۔ یہ پی ڈی ایف مائنر کی ایک صفحہ پر حروف کو حاشیے کا استعمال کرتے ہوئے الفاظ اور جملوں میں گروپ کرنے کی فعالیت کے اوپر بنایا گیا ہے۔

ذیل میں ایک فوری وضاحت ہے کہ یہ تکنیک کیسے کام کرتی ہے:

  1. سب سے پہلے، کچھ متن کی y-axis پوزیشن (یعنی اونچائی) کی بنیاد پر کھردرا اندازہ لگا کر قطاروں کا پتہ لگایا جاتا ہے۔ بنیادی طور پر، ایک ہی لائن پر موجود تمام متن کو ایک ہی قطار کا حصہ سمجھا جاتا ہے۔ اس کے بارے میں مزید پڑھنے کے لیے، آپ جا سکتے ہیں۔  انسی نورمینین کا ماسٹر کا مقالہ پی ڈی ایف میں ٹیبل کے مقامات تلاش کرنے پر۔
  2. اس کے بعد، متن کو کچھ ہیورسٹکس کی بنیاد پر کالموں میں گروپ کیا جاتا ہے۔ پی ڈی ایف میں، ہر لفظ اپنی جگہ پر ہوتا ہے، اس لیے بنیادی طور پر، الفاظ ایک ہی گروپ میں ڈالے جاتے ہیں اگر وہ قریب ہوں، اور پھر کالموں کی شناخت الفاظ کے گروپوں کے درمیان فاصلے کے لحاظ سے کی جاتی ہے۔
  3. آخر میں، ٹیبل کو پہلے کے مراحل پر پائی جانے والی قطاروں اور کالموں کی بنیاد پر ایک ساتھ رکھا جاتا ہے۔

جالی کا استعمال کرتے ہوئے میزوں کا پتہ لگانا:

اسٹریم تکنیک کے مقابلے میں، جالی فطرت میں زیادہ متعصب ہے۔ مطلب یہ اندازوں پر بھروسہ نہیں کرتا۔ یہ سب سے پہلے ان میزوں کے ذریعے تجزیہ کرتا ہے جس میں خلیوں کے درمیان لائنوں کی وضاحت ہوتی ہے۔ اگلا، یہ ایک صفحہ پر موجود متعدد ٹیبلز کو خود بخود پارس کر سکتا ہے۔

یہ تکنیک بنیادی طور پر کثیرالاضلاع کی شکل کو دیکھ کر اور ٹیبل سیلز کے اندر موجود متن کی شناخت کرکے کام کرتی ہے۔ یہ آسان ہو گا اگر پی ڈی ایف میں ایسی خصوصیت ہو جو کثیر الاضلاع کی شناخت کر سکے۔ اگر یہ ہوتا، تو اس کے اندر کیا ہے اسے پڑھنے کا ممکنہ طور پر ایک طریقہ ہوتا۔ تاہم، ایسا نہیں ہوتا۔ یہ وہ جگہ ہے جہاں ہمیں کمپیوٹر ویژن لائبریری کا استعمال کرنا پڑے گا جیسے OpenCV درج ذیل اقدامات کو انجام دینے کے لیے:

  1. سب سے پہلے، لائن کے حصوں کا پتہ چلا ہے
  2. اگلا، تمام لائنوں کے پکسلز کی شدت کو دیکھ کر لائنوں کے درمیان لائن کے چوراہوں کا پتہ لگایا جاتا ہے۔ اگر کسی لکیر کے پکسل میں باقی پکسلز سے زیادہ شدت ہے، تو یہ دو لائنوں کا حصہ ہے اور اس لیے ایک چوراہا ہے۔ جیسا کہ شکل 2 میں دکھایا گیا ہے۔
  3. ٹیبل کے کناروں کا تعین ایک دوسرے سے منسلک لائنوں کے پکسلز کی شدت کو دیکھ کر کیا جاتا ہے۔ یہاں، ایک لائن کے تمام پکسلز لیے گئے ہیں، اور سب سے زیادہ بیرونی لائنیں میز کی حدود کی نمائندگی کرتی ہیں
  4. تصویری تجزیہ کا ترجمہ پی ڈی ایف کوآرڈینیٹ میں کیا جاتا ہے، جہاں خلیات کا تعین کیا جاتا ہے۔ آخر میں، متن اس کی بنیاد پر سیل کو تفویض کیا جاتا ہے۔ x اور y نقاط

اسکین شدہ پی ڈی ایف سے ایکسل شیٹس میں معلومات برآمد کرنا چاہتے ہیں؟ کی طرف بڑھیں۔ نانونٹس PDFs سے Excel میں ایکسپورٹ کرنے کے عمل کو خودکار کرنے کے لیے…


اسکین شدہ پی ڈی ایف میں ٹیبلز کا پتہ لگانے کے طریقے

اسکین شدہ امیجز میں ٹیبلز کی شناخت کرنا ناممکن معلوم ہو سکتا ہے۔ اس کی وجہ یہ ہے کہ ہمیں تصویر میں الیکٹرانک طور پر موجود کوئی متن نہیں ملے گا۔ اس لیے کوئی میز بھی نہیں ہو سکتی۔ یہ وہ جگہ ہے جہاں ہمیں میزوں کا پتہ لگانے اور ان کے اندر موجود تمام متن کو نکالنے کے لیے OCR اور گہری سیکھنے کی تکنیک کا استعمال کرنا پڑے گا۔ اب، آئیے کچھ تکنیکوں کو دیکھتے ہیں جو پی ڈی ایف سے ٹیبل نکالتی ہیں جن میں اسکین شدہ معلومات ہیں۔

ازگر اور کمپیوٹر وژن کے ساتھ ٹیبلز کی شناخت کرنا

کمپیوٹر ویژن (CV) ایک ایسی ٹیکنالوجی ہے جو کمپیوٹر کو بصری دنیا کی تشریح اور سمجھنے کی تربیت دیتی ہے۔ پی ڈی ایف سے میزیں نکالنے کے معاملے میں، ہم ٹیبلز کی شناخت کے لیے بارڈرز، کناروں اور سیلز کو تلاش کرنے میں ہماری مدد کے لیے CV کا استعمال کریں گے۔ یہ پی ڈی ایف فائل میں مختلف فلٹرز، شکلیں، اور کچھ ریاضی کے عمل کو لاگو کرکے حاصل کیا جاتا ہے۔ تاہم، ان تکنیکوں میں درست طریقے سے انجام دینے کے لیے ڈیٹا پر کچھ پری پروسیسنگ کے اقدامات شامل ہیں۔

اب، آئیے اسکین شدہ پی ڈی ایف سے ٹیبلز کا پتہ لگانے کے لیے کچھ بنیادی ازگر کوڈ میں غوطہ لگائیں۔ غور کریں کہ ہمارے پاس پی ڈی ایف فائل ہے اور ہم اسے ایکسل شیٹ میں محفوظ کرنا چاہتے ہیں۔ ہم OCR کے ساتھ نارمل ٹیکسٹ نکال سکتے ہیں، لیکن ٹیبلز کی شناخت کے لیے ہمیں CV استعمال کرنا پڑے گا۔

پہلا قدم جو ہمیں پی ڈی ایف کو تصاویر میں تبدیل کرنا ہوگا، اور یہ اس لیے ہے کہ زیادہ تر CV الگورتھم تصاویر پر لاگو ہوتے ہیں۔ جیسا کہ تصاویر کو اعداد کی ایک صف میں تبدیل کیا جا سکتا ہے، ہم ان نمبروں کے درمیان مماثلت تلاش کر سکتے ہیں اور یہ معلوم کر سکتے ہیں کہ میزیں اور متن بالکل کہاں واقع ہیں۔ ذیل میں کوڈ کا ٹکڑا ہے:

from pdf2image import convert_from_path # convert pdf file to image
images = convert_from_path('example.pdf')
for i in range(len(images)): # Save pages as images in the pdf images[i].save('page'+ str(i) +'.png, 'PNG')

کہو، ہمارا پہلا صفحہ نام ہے۔ page_1، ہمیں پہلے اسے ایک python متغیر میں لوڈ کرنا ہوگا اور پھر ان تمام آپریشنز کو لاگو کرنا ہوگا جو ہمیں ٹیبل کی خصوصیات کی شناخت کرنے میں مدد کرتے ہیں۔ ذیل میں مکمل کوڈ کا ٹکڑا ہے:

# import cv2 import cv2 # load the image file = r'page_1.png'
table_image_contour = cv2.imread(file, 0)
table_image = cv2.imread(file) # Inverse Image Thresholding
ret, thresh_value = cv2.threshold( table_image_contour, 180, 255, cv2.THRESH_BINARY_INV) # Dilation
kernel = np.ones((5,5),np.uint8)
dilated_value = cv2.dilate(thresh_value,kernel,iterations = 1) contours, hierarchy = cv2.findContours( dilated_value, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE) for cnt in contours: x, y, w, h = cv2.boundingRect(cnt) # bounding the images if y < 50: table_image = cv2.rectangle(table_image, (x, y), (x + w, y + h), (0, 0, 255), 1) plt.imshow(table_image)
plt.show()
cv2.namedWindow('detecttable', cv2.WINDOW_NORMAL)

مندرجہ بالا کوڈ کے ٹکڑوں میں، ہم نے بہت کچھ کیا ہے! اب آئیے اس عمل کو ڈی کوڈ کرنے کی کوشش کرتے ہیں۔

سب سے پہلے، ہم نے اپنے پروگرام میں cv2 (کمپیوٹر وژن پیکیج) درآمد کیا ہے۔ یہ پیکیج اوپن سورس ہے اور استعمال کے لیے مکمل طور پر مفت ہے۔ آپ اسے اپنے کمپیوٹر پر انسٹال کر کے اسے آزما سکتے ہیں۔ اگلا، ہم cv2 سے ان بلٹ 'imread' فنکشن کا استعمال کرکے ایک کونٹور امیج لوڈ کرتے ہیں۔ یہ سموچ کی تصویر اصل تصویر کا کنٹراسٹ ورژن ہے۔

اس کے بعد، ہم نے دی گئی تصویر میں موجود ڈیٹا کو بڑھانے کے لیے الٹا امیج تھریشولڈنگ اور ڈائلیشن تکنیک کا استعمال کیا۔ ایک بار جب تصاویر کو بڑھا دیا جاتا ہے، ہم طریقہ استعمال کرتے ہیں findContours موجودہ تصویر کی شکلیں حاصل کرنے کے لیے cv2 ​​سے۔ FindContours دو قدروں کو کھولتا ہے۔ لہذا ہم ایک اور متغیر کا نام شامل کریں گے۔ hierarchy. جب امیجز نیسٹڈ ہوتے ہیں تو شکلیں ایک دوسرے پر انحصار کرتی ہیں۔ ایسے رشتوں کی نمائندگی کرنے کے لیے، درجہ بندی کا استعمال کیا جاتا ہے۔

آخر میں، شکلیں نشان زد کرتی ہیں کہ تصویر میں بالکل ڈیٹا کہاں موجود ہے۔ ہم شکلوں کی فہرست پر اعادہ کرتے ہیں جسے ہم نے پچھلے مرحلے میں شمار کیا تھا اور مستطیل خانوں کے نقاط کا حساب لگاتے ہیں جیسا کہ طریقہ استعمال کرتے ہوئے اصل تصویر میں دیکھا گیا ہے۔ cv2.boundingRect. آخری تکرار میں، ہم نے ان خانوں کو اصل امیج table_image پر استعمال کرتے ہوئے ڈال دیا۔ cv2.rectangle(). آخر میں، ہم matplotlib کا استعمال کرتے ہوئے آؤٹ پٹ کو پلاٹ کرتے ہیں۔ ذیل میں ایک اسکرین شاٹ ہے:

ڈیپ لرننگ کے ساتھ ٹیبلز کی شناخت

دستاویز کی تفہیم، معلومات نکالنے، اور بہت کچھ سے متعلق ایپلی کیشنز پر گہری سیکھنے کا بہت بڑا اثر پڑا۔ ٹیبل نکالنے جیسے استعمال کے معاملات کے لیے، بہت سی چیزوں پر غور کیا جانا چاہیے اور سٹیٹ آف دی آرٹ الگورتھم بنانے کے لیے ٹھوس پائپ لائنز بنانے کی ضرورت ہے۔ اس سیکشن میں، ہم پی ڈی ایف فائل سے ٹیبل نکالنے کے لیے ٹھوس نیورل نیٹ ورکس بنانے کے لیے درکار کچھ اقدامات اور تکنیکوں سے گزریں گے۔

  1. ڈیٹا کا مجموعہ: گہری سیکھنے پر مبنی نقطہ نظر اعداد و شمار پر مشتمل ہوتے ہیں اور موثر نمائندگیوں کو سیکھنے کے لیے بڑی تعداد میں تربیتی ڈیٹا کی ضرورت ہوتی ہے۔ بدقسمتی سے، ٹیبل کا پتہ لگانے کے لیے مارموٹ، UW3، وغیرہ جیسے بہت کم ڈیٹا سیٹس ہیں اور یہاں تک کہ ان میں صرف چند سو تصاویر ہیں۔ تاہم، پیچیدہ ٹیمپلیٹس اور لے آؤٹ کی دستاویزات کے لیے، ہمیں اپنے ڈیٹا سیٹس جمع کرنے پڑ سکتے ہیں۔
  2. ڈیٹا پروپوزل کی گذارش: یہ مرحلہ کسی بھی مشین لرننگ یا ڈیٹا سائنس پر مبنی مسئلہ کے لیے سب سے عام چیز ہے۔ اس میں بنیادی طور پر اس دستاویز کی قسم کو سمجھنا شامل ہے جس پر ہم کام کر رہے ہیں۔ مثال کے طور پر، کہتے ہیں کہ ہمارا مقصد PDFs کو Excel شیٹس میں ایکسپورٹ کرنا ہے۔ ہمیں یہ یقینی بنانا ہو گا کہ تمام ان پٹ ڈیٹا مطابقت رکھتا ہے۔ یہ رسیدیں، رسیدیں، یا کوئی سکین شدہ معلومات ہو سکتی ہیں۔ لیکن مستقل مزاجی کے ساتھ، گہری سیکھنے والے ماڈلز زیادہ درستگی کے ساتھ خصوصیات کو سیکھنے اور سمجھنے کے قابل ہوں گے۔
  3. ٹیبل قطار کالم تشریحات: دستاویزات پر کارروائی کرنے کے بعد، ہمیں دستاویز میں موجود تمام صفحات کے لیے تشریحات تیار کرنی ہوں گی۔ یہ تشریحات بنیادی طور پر ٹیبل اور کالم کے لیے ماسک ہیں۔ تشریحات ہمیں تصویر سے ٹیبلز اور اس کے کالم علاقوں کی شناخت کرنے میں مدد کرتی ہیں۔ یہاں، چونکہ پی ڈی ایف کے اندر موجود دیگر تمام متن پہلے ہی ٹیسریکٹ جیسے OCR کے ذریعے نکالے گئے ہیں، اس لیے صرف ٹیبل کے اندر موجود متن کو فلٹر کرنا ہوگا۔ اگلا، ہمیں ان فلٹر شدہ الفاظ کے ساتھ افقی سطح پر موجود قطاروں اور متعدد کالموں کا مجموعہ متعین کرنا ہوگا۔ تاہم، ہمیں کالم یا لائن کی حد بندی کے مواد کے لحاظ سے مختلف سیگمنٹیشن قوانین پر بھی غور کرنا پڑے گا، اور ایک قطار متعدد لائنوں پر پھیل سکتی ہے۔
  4. ایک ماڈل بنانا: ماڈل گہری سیکھنے کے الگورتھم کا مرکز ہے۔ اس میں بنیادی طور پر نیورل نیٹ ورک کو ڈیزائن اور لاگو کرنا شامل ہے۔ عام طور پر، اسکین شدہ کاپیوں پر مشتمل ڈیٹاسیٹس کے لیے، Convolutional Neural Networks کو وسیع پیمانے پر استعمال کیا جاتا ہے۔ تاہم، جدید ترین ماڈلز کی تعمیر میں بہت زیادہ تجربہ اور تجربہ شامل ہے۔ اب، آئیے کچھ موجودہ الگورتھم کو دیکھتے ہیں جو اسکین شدہ پی ڈی ایف سے ٹیبل نکالنے کے لیے استعمال ہوتے تھے۔
ٹیبل سے ڈیپ لرننگ ماڈلز/تشریحات کے ماسک تیار کرتے ہیں۔

اسکین شدہ پی ڈی ایف سے ایکسل شیٹس میں معلومات برآمد کرنا چاہتے ہیں؟ کی طرف بڑھیں۔ نانونٹس PDFs سے Excel میں ایکسپورٹ کرنے کے عمل کو خودکار کرنے کے لیے…


پی ڈی ایف کو ایکسل عمل میں خودکار کرنے کے کاروباری فوائد

  • پی ڈی ایف کی آٹومیشن خود بخود پی ڈی ایف سے ایکسل تک ڈیٹا نکالنے کے لیے قواعد اور فارمولے بنا اور تشکیل دے سکتی ہے۔ اس سے مطلوبہ معلومات کو دستی طور پر تلاش اور کاپی/پیسٹ کرنے کے لیے درکار وقت کم ہو جاتا ہے۔
  • تصاویر سے ڈیٹا کو متن میں نکالنا پی ڈی ایف کو خودکار کرنے سے بہت آسان ہو سکتا ہے، بلٹ ان OCR انجنوں کا استعمال کرتے ہوئے بغیر ڈیٹا کو دوبارہ دستی طور پر ٹائپ کئے۔ یہ نکالنے کے دوران ٹائپوز اور دیگر غلطیوں کا امکان کم کر دیتا ہے۔
  • ایک ہی بار میں تمام مطلوبہ معلومات حاصل کرنے کے لیے پوری نکالنے والی پائپ لائن کو خودکار بنا کر اور اسے پی ڈی ایف فائلوں کے بیچ پر چلا کر کاروباری کارکردگی کو بہتر بنایا جا سکتا ہے۔ اس کے ساتھ، ہم اس بات کو یقینی بنا سکتے ہیں کہ جب ضرورت ہو ڈیٹا دستیاب ہو۔
  • PDFs کو Excel کنورژن میں خودکار کر کے، ہم آپ کے ڈیٹا کو کسی بھی فریق ثالث سافٹ ویئر کے ساتھ آسانی سے ضم کر سکتے ہیں۔ مثال کے طور پر، اگر ہم خودکار انوائس نکالنے کے لیے ایک RPA عمل ترتیب دینا چاہتے ہیں، تو ہم انہیں آسانی سے ان پائپ لائنوں کے ساتھ شامل کر سکتے ہیں۔

پی ڈی ایف کو ایکسل میں تبدیل کرنے کے لیے کچھ موجودہ حلوں کا جائزہ

وہاں سے، ہمیں کئی ٹولز مل سکتے ہیں جو PDF ڈیٹا کو Excel میں تبدیل کر سکتے ہیں۔ تاہم، ہر مصنوعات کے اپنے فوائد اور نقصانات ہیں. اس سیکشن میں، ہم کچھ مفت کلاؤڈ/آن پریم ٹولز کو دیکھیں گے جنہیں ہم PDF کو Excel میں تبدیل کرنے اور آٹومیشن میں مدد کرنے کے لیے استعمال کر سکتے ہیں۔

نانونٹس

Nanonets ایک AI پر مبنی OCR سافٹ ویئر ہے جو انوائسز، رسیدوں، شناختی کارڈز اور مزید کی ذہین دستاویز پراسیسنگ کے لیے ڈیٹا کیپچر کو خودکار کرتا ہے۔ Nanonets غیر ساختہ ڈیٹا سے متعلقہ معلومات نکالنے کے لیے جدید OCR، مشین لرننگ اور ڈیپ لرننگ کا استعمال کرتی ہے۔ یہ تیز، درست، استعمال میں آسان ہے، صارفین کو شروع سے اپنی مرضی کے مطابق OCR ماڈل بنانے کی اجازت دیتا ہے اور اس میں کچھ صاف Zapier انضمام ہے۔ دستاویزات کو ڈیجیٹائز کریں، ڈیٹا فیلڈز نکالیں، اور APIs کے ذریعے ایک سادہ، بدیہی انٹرفیس میں اپنی روزمرہ کی ایپس کے ساتھ ضم کریں۔

نانونٹس ایک OCR سافٹ ویئر کے طور پر کیسے الگ ہے؟

پیشہ:

  • جدید UI
  • دستاویزات کی بڑی مقدار کو ہینڈل کرتا ہے۔
  • مناسب قیمت
  • استعمال میں آسانی
  • ڈویلپرز کی کسی اندرونی ٹیم کی ضرورت نہیں ہے۔
  • الگورتھم/ماڈلز کو تربیت/دوبارہ تربیت دی جا سکتی ہے۔
  • عظیم دستاویزات اور حمایت
  • اصلاح کے بہت سے اختیارات
  • انضمام کے اختیارات کا وسیع انتخاب
  • غیر انگریزی یا متعدد زبانوں کے ساتھ کام کرتا ہے۔
  • تقریباً کوئی پوسٹ پروسیسنگ کی ضرورت نہیں ہے۔
  • متعدد اکاؤنٹنگ سافٹ ویئر کے ساتھ ہموار 2 طرفہ انضمام
  • ڈویلپرز کے لیے زبردست API

Cons:

  • نہیں سنبھال سکتا بہت زیادہ حجم میں اضافہ
  • ٹیبل کیپچر UI بہتر ہو سکتا ہے۔

ایزی پی ڈی ایف۔

EasePDF ایک آن لائن مفت پی ڈی ایف کنورٹر ہے جو آپ کی پی ڈی ایف سے ہر ٹیبل شیٹ کو نکالتا ہے اور اعلی ترین درستگی کی شرح کے ساتھ ایکسل اسپریڈ شیٹس میں محفوظ کرتا ہے۔ یہ اصل پی ڈی ایف سے تمام ڈیٹا، لے آؤٹ اور فارمیٹنگ کو محفوظ رکھے گا۔

پیشہ:

  • مفت
  • گوگل ڈرائیو، ون ڈرائیو انٹیگریشن
  • بیچ پروسیسنگ کی حمایت کریں۔
  • پری پروسیسنگ ٹولز
  • موبائل فون پر کام کرتا ہے۔

Cons:

  • کوئی APIs نہیں۔
  • مکمل طور پر بادل
  • اپنی مرضی کے مطابق ڈیٹا کے ساتھ تربیت نہیں کرتا ہے۔

pdftoexcel

pdftoexcel.com ایک مفت آن لائن PDF to Excel کنورژن سروس ہے جسے ہر کوئی استعمال کر سکتا ہے۔ لیکن مفت صارفین کے لیے، اپ لوڈ کرنے میں تھوڑا زیادہ وقت لگ سکتا ہے۔

پیشہ:

  • مفت
  • مزید اپ لوڈز کے لیے قطار میں لگ رہا ہے۔

خامیاں

  • کوئی APIs نہیں۔
  • مکمل طور پر بادل
  • اپنی مرضی کے مطابق ڈیٹا کے ساتھ تربیت نہیں کرتا ہے۔
  • اتنا اچھا UI نہیں ہے۔
  • مفت ایڈیشن پر کوئی بیچ کی تبدیلی نہیں ہے۔

پی ڈی ایف زیلا

PDFZilla ایک طاقتور ٹول ہے جو ہمیں PDF دستاویزات کو Excel، Word، Plain Text، Rich Text، JPG، GIF، PNG، اور مزید فائل فارمیٹس میں تبدیل کرنے کی اجازت دیتا ہے۔

پیشہ:

  • اچھی درستگی
  • 20+ زبانوں کو سپورٹ کرتا ہے۔
  • بیچ کے عمل کی حمایت کرتا ہے۔

Cons:

  • ایپ صرف ونڈوز پر دستیاب ہے۔
  • محدود آزمائشی مدت
  • اتنا اچھا UI نہیں ہے۔

Adobe Acrobat PDF to Excel:

ایڈوب پی ڈی ایف فارمیٹ کا اصل ڈویلپر ہے، اس لیے ان کا ایڈوب ایکروبیٹ سافٹ ویئر مارکیٹ میں معروف سافٹ ویئر ہونا چاہیے۔ یہ یقینی طور پر خصوصیات سے بھرا ہوا ہے، بشمول ایکسل اسپریڈ شیٹس میں استعمال کے لیے پی ڈی ایف فائلوں کو XL XS فائلوں میں تبدیل کرنے کی صلاحیت۔ یہ عمل تیز اور بے درد ہونا چاہیے، ڈیٹا کو دوبارہ فارمیٹنگ کی ضرورت کے بغیر محفوظ کیا جائے۔

ایڈوب ایکروبیٹ میں، آپ وہ پی ڈی ایف فائل کھولتے ہیں جسے آپ ایکسپورٹ کرنا چاہتے ہیں، ایکسپورٹ پی ڈی ایف ٹول پر کلک کریں، اپنے فارمیٹس کا انتخاب کریں جیسے کہ ایکسل ورک بک یا .xlxs، پھر بھیجیں۔ آپ اپنے سیل فون سمیت کسی بھی ڈیوائس پر ایسا کر سکتے ہیں۔

پیشہ

  • ہائی درستگی
  • آسانی سے خصوصیات برآمد کریں۔
  • جامع خصوصیات

خامیاں

  • کوئی API حسب ضرورت نہیں۔
  • انتہائی قیمتیں۔
  • محدود آزمائشی مدت

ایک فوری موازنہ…

نمایاں کریں نانونٹس ایزی پی ڈی ایف۔ pdftoexcel پی ڈی ایف زیلا ایڈوب ایکروبیٹ
صارف مواجہ سادہ، آسان اور جدید سادہ پیچیدہ اور غیر محسوس پیچیدہ سادہ
انضمام بہت لمیٹڈ لمیٹڈ لمیٹڈ بہت
حسب ضرورت جی ہاں نہیں نہیں لمیٹڈ لمیٹڈ
APIs جی ہاں نہیں نہیں لمیٹڈ لمیٹڈ
رفتار تیز روزہ روزہ آہستہ اعتدال پسند روزہ
درستگی ہائی ہائی اعتدال پسند ہائی ہائی


اسکین شدہ پی ڈی ایف سے ایکسل شیٹس میں معلومات برآمد کرنا چاہتے ہیں؟ کی طرف بڑھیں۔ نانونٹس PDFs سے Excel میں ایکسپورٹ کرنے کے عمل کو خودکار کرنے کے لیے…


ایکسل میں پی ڈی ایف ایکسپورٹ کرتے وقت عام طور پر درپیش مسائل

  1. صحیح الگورتھم تلاش کرنا: جب پی ڈی ایف سے ایکسل ٹیکسٹ نکالنے کی بات آتی ہے، تو اکثر ڈویلپرز کو درپیش ایک عام مسئلہ صحیح الگورتھم تلاش کرنا ہے جو پوری پی ڈی ایف دستاویز کو پارس اور سمجھ سکتا ہے۔ یہاں ایک ہے سوال اسی حوالے سے StackOverflow پر پوسٹ کیا گیا۔ اس کی وجہ یہ ہے کہ، وہاں، ہمیں بہت سے گہرے سیکھنے کے الگورتھم ملتے ہیں، لیکن ایک بار پھر، ہمیں اپنے استعمال کے کیس اور ڈیٹا کی قسم کی بنیاد پر انہیں ٹھیک کرنا پڑے گا۔ اس میں موجودہ ماڈل کا استعمال کرتے ہوئے ہمارے اپنے ڈیٹا کے ساتھ پورے ماڈل کو دوبارہ تربیت دینا شامل ہے۔ اس کے علاوہ، ماڈلز کو دوبارہ تربیت دینے کے بعد ڈیولپرز اسی درستگی کا وعدہ نہیں کر سکتے کیونکہ ڈیپ لرننگ ماڈلز کو بہت زیادہ ہائپر پیرامیٹر ٹیوننگ کی ضرورت ہوتی ہے۔
  2. ٹیبل نکالنا: PDFs کو Excel میں تبدیل کرنے کے عمل کو خودکار کرنے کے لیے، ٹیبل نکالنا ایک اہم کردار ادا کرتا ہے۔ لہذا، اس آٹومیشن کے لیے جدولوں کی شناخت اور ان کے ذریعے تجزیہ کرنا بھی اہم ہے۔ زیادہ تر نئے ڈویلپرز ٹیبل نکالنے کے لیے مختلف CV اور گہری سیکھنے پر مبنی الگورتھم کے ذریعے براؤز کر سکتے ہیں، جو کہ چیلنجنگ ہے۔ ان میں سے کچھ ٹیکسٹریکٹ، روسم وغیرہ جیسی خدمات استعمال کر سکتے ہیں، جو مختلف بیک اینڈ کے مختلف ورک فلو کے ساتھ مربوط ہونے کے لیے پیچیدہ ہیں۔
  3. پوسٹ پروسیسنگ اور اضافی سکرپٹ: PDFs سے نکالا گیا متن ہر وقت درست نہیں ہوسکتا ہے۔ اس لیے مختلف تکنیکوں کا استعمال کرتے ہوئے پوسٹ پروسیسنگ کے بہت سے مراحل پر عمل کیا جاتا ہے، مثال کے طور پر، اگر ہم چاہتے ہیں کہ ٹیبلز میں صرف مخصوص کالم نکالے جائیں یا پی ڈی ایف سے کالم میں تمام تاریخوں کو درج کریں۔ ایسے معاملات میں، OCR کافی نہیں ہے۔ ہمیں ریگولر ایکسپریشنز، لینگویج ماڈلز، اور سادہ گھریلو حالات کا استعمال کرتے ہوئے تکنیکوں پر انحصار کرنا پڑے گا۔ یہ پھر کچھ اضافی کام ہے۔ لہذا، ہمیں ایک طاقتور نکالنے والے الگورتھم کا انتخاب کرتے وقت محتاط رہنا ہوگا جس میں زیادہ تر پوسٹ پروسیسنگ شامل ہو۔

نتیجہ

اس مضمون میں، ہم نے دیکھا ہے کہ ہم مختلف تکنیکوں کا استعمال کرتے ہوئے PDF کو Excel میں کیسے برآمد کر سکتے ہیں۔ ہم نے گہرائی سے جائزہ لیا ہے کہ ہم الیکٹرانک اور غیر الیکٹرانک پی ڈی ایف کو ایکسل دستاویز میں تبدیل کرنے کے لیے OCR اور ڈیپ لرننگ کا استعمال کیسے کر سکتے ہیں۔

مزید، ہم نے دیکھا ہے کہ ہم PDF سے Excel کی تبدیلی کے لیے ڈیپ لرننگ ماڈلز کا استعمال کرتے ہوئے ایک ٹھوس پائپ لائن کیسے بنا سکتے ہیں۔ آخر میں، ہم نے کچھ مقبول ٹولز دیکھے ہیں جنہیں ہم براہ راست ورک فلو بنانے کے لیے استعمال کر سکتے ہیں۔

آٹومیشن کے لیے Nanonets کا استعمال شروع کریں۔

ماڈل آزمائیں یا آج ہی ڈیمو کی درخواست کریں!

اب کوشش

ماخذ: https://nanonets.com/blog/pdf-to-excel/

ٹائم اسٹیمپ:

افلاطون کے ذریعہ دوبارہ شائع کردہ مزید