كيفية تحويل ملفات PDF إلى جداول بيانات Google عبر الإنترنت

عقدة المصدر: 1693145

ستجد في هذه المقالة طرقًا مختلفة لتحويل ملفات PDF إلى جداول بيانات Google.

سوف تتعلم أيضًا كيف يمكن للشبكات النانوية أن تفعل ذلك أتمتة سير العمل بالكامل لتحويل PDF إلى جداول بيانات Google على الانترنت.

قبل أن ننظر في كيفية تحويل PDF إلى جداول بيانات Google ، دعنا نلقي نظرة على سبب أهمية القيام بذلك.

لماذا تحويل ملفات PDF إلى جداول بيانات Google؟

وفقا لهذا مدونة جوجل مشاركة من صفحة مدونة Google الرسمية ، فإن أكثر من 5 ملايين شركة تستخدم حل G Suite الخاص بهم. في الوقت نفسه ، بدأ عدد كبير من الشركات أيضًا في استخدام تكامل جداول بيانات Google لأتمتة المهام.

[المحتوى جزءا لا يتجزأ]
تحويل ملفات PDF إلى جداول بيانات Google

لنفكر في حالة استخدام نموذجية. يتلقى فريق الحسابات الدائنة فاتورة بتنسيق PDF القياسي. يمر شخص ما يدويًا عبر الفاتورة والمفاتيح الموجودة في المعلومات المطلوبة في مستند جداول بيانات Google قبل إعادة توجيهها إلى قسم الشؤون المالية. يقوم قسم التمويل بالدفع للمورد الخاص بك ويقوم بإدخال إدخال في دفتر الأستاذ الخاص بالشركة.

بصرف النظر عن كونها عملية طويلة الأمد ، فهذه عملية عرضة للخطأ وسيكون من المنطقي أكثر أن تقوم بأتمتة هذه العملية.

الآن بعد أن أصبحت الحاجة إلى تحويل ملفات PDF إلى نموذج ورقة Google واضحة ، فلنلقِ نظرة على كيفية تنظيم مستندات PDF وما هي التحديات في تحليلها.


تريد تحويل PDF ملفات ل صفائح جوجل ؟ الدفع النانو مجاني  محول PDF إلى CSV. أو اكتشف كيف قم بأتمتة سير عمل PDF بالكامل إلى جداول بيانات Google باستخدام Nanonets.

سير عمل تحويل البيانات الآلي باستخدام شبكات النانو


التحديات مع تحليل مستند PDF

كان تنسيق المستند المحمول عبارة عن تنسيق ملف تم تطويره في البداية بواسطة Adobe وتم إصداره لاحقًا كمعيار مفتوح. منذ ذلك الحين تم اعتماده على نطاق واسع لأنه لا يعرف نظام التشغيل الأساسي.

إذن ، ما سبب صعوبة تحليل ملف PDF وتحويل محتوياته إلى تنسيق آخر؟ الصور التالية تتحدث بألف كلمة وستقود النقطة إلى المنزل.

لقطة شاشة لمستند PDF بسيط
لقطة شاشة لمستند PDF بسيط

تُظهر الصورة أعلاه لقطة شاشة لمستند PDF يتم فتحه باستخدام قارئ PDF. دعنا نحاول فتح نفس مستند PDF باستخدام محرر نصوص.

تم فتح لقطة شاشة لملف PDF باستخدام محرر نصوص
تم فتح لقطة شاشة لملف PDF باستخدام محرر نصوص

توضح الصور أعلاه أنه عند تخزين المعلومات في ملف PDF ، يتم فقد هيكلها الأصلي تمامًا. هذا لأن تنسيق PDF يتكون ببساطة من إرشادات حول كيفية طباعة / رسم سلسلة من الأحرف على الصفحة.

إذا كنت تعتقد أن استخراج النص أمر صعب ، فإن استخراج البيانات الموجودة في الجداول يكون أكثر صعوبة بسبب التنسيقات الجدولية المتنوعة على نطاق واسع المستخدمة.

نأمل أن تكون مقتنعًا بأن تحويل مستند PDF إلى نموذج أوراق Google ليس نزهة في الحديقة. يتحدث القسم التالي عن النهج الذي يتبعه معظم محللي PDF الحديثين للتعرف على / تحليل المعلومات من مستند PDF.

الطريقة الحديثة لتحليل مستندات PDF

تستخدم معظم موزعي PDF الحديثين التدفق الموصوف أدناه لتحليل البيانات غير المهيكلة من مستندات PDF.

مخطط انسيابي يوضح التدفق النموذجي لمحللي PDF الحديثين
مخطط انسيابي يوضح التدفق النموذجي لمحللي PDF الحديثين

دعنا نلقي نظرة موجزة على كل خطوة من خطوات العملية:

1. المعالجة المسبقة أو تنظيف البيانات:

كلما كان شكل ملف PDF الخاص بك أفضل ، كان من الأسهل على نموذج التعلم الآلي الخاص بك الاستخراج أو الاستخراج التقاط البيانات منه. على سبيل المثال ، إذا تم مسح مستند PDF ضوئيًا ، فمن المحتم أن يحتوي على بعض عناصر المسح الضوئي التي قد تؤثر على أداء المحول.

تعد إزالة الضوضاء باستخدام المرشحات المناسبة والثنائية وتصحيح الانحراف وما إلى ذلك من أكثر خطوات المعالجة المسبقة شيوعًا. وظيفة Nanonets التالية Nanonets Tesseract بوست يحتوي على بعض الأمثلة الرائعة لكيفية معالجة المستندات مسبقًا التعرف الضوئي على الحروف(OCR) يعمل عليها.

هذا هو المكان الذي يحدث فيه معظم السحر. عادةً ما يتم استخراج البيانات بواسطة نموذج التعلم الآلي (ML). تحتوي معظم نماذج ML المستخدمة لاستخراج البيانات من ملفات PDF على مجموعة من أدوات التعرف الضوئي على الأحرف وأدوات التعرف على النصوص والنماذج وما إلى ذلك.

لغرض هذا المنشور ، يمكننا التعامل مع النموذج على أنه صندوق أسود يأخذ مستند PDF الخاص بك كمدخل ويبث المعلومات المحللة. أيضًا ، نظرًا لأنه يستخدم ML في جوهره ، يمكن إعادة تدريبه باستخدام بيانات مخصصة لتناسب حالة استخدام شركتك.

3. المعالجة اللاحقة:

في هذه الخطوة ، يتم تحويل البيانات المستخرجة إلى التنسيق المطلوب مثل CSV و XML و JSON وما إلى ذلك. أيضًا ، تتم إضافة قواعد إضافية محددة بواسطة المستخدم فوق التوقعات التي يقوم بها الذكاء الاصطناعي. يمكن أن يشمل ذلك قواعد تنسيق الإخراج ، وقيود إضافية على المعلومات المستخرجة وما إلى ذلك.

يبحث القسم التالي في بعض المقاييس التي يمكننا استخدامها لقياس أداء محلل PDF.


تريد تحويل PDF ملفات ل صفائح جوجل ؟ الدفع النانو مجاني  محول PDF إلى CSV. تعرف على كيفية أتمتة سير عمل PDF بالكامل إلى جداول بيانات Google باستخدام Nanonets.

استخراج الجدول الآلي مع النانو
استخراج الجدول الآلي مع النانو


مقاييس لقياس أداء محول PDF

نظرًا لأن معظم محولات PDF سيتم استخدامها لمعالجة الفواتير أو المهام ذات الصلة ، فإن دقة وسرعة استخراج الجدول من مستند PDF عامل حاسم في الحكم على أداء محول PDF.

2. القدرة على تعدد اللغات:

تلتزم معظم الشركات الكبيرة بتلقي الفواتير بعدد من اللغات المختلفة. يجب أن يدعم محلل PDF التحليل متعدد اللغات خارج الصندوق أو يجب أن يوفر خيارًا يمكن للمستخدمين من خلاله تدريب النموذج باستخدام البيانات المخصصة.

3. التكامل مع برامج المحاسبة:

يجب أن يكون محول PDF المثالي عبارة عن وحدة للتوصيل والتشغيل يمكن إضافتها بسهولة إلى القائمة الموجودة لديك وثيقة سير العمل. يجب أن يدعم التكامل مع برامج المحاسبة الشائعة مثل QuickBooks و Xero و Wave وما إلى ذلك.

4. سهل وبديهي:

من المرجح أن يتم تشغيل الأداة بواسطة مستخدمين غير تقنيين. سيكون من المفيد إذا كان يمكن تشغيله بأقل قدر من المعرفة التقنية.

طرق مختلفة لتحويل ملفات PDF إلى جداول بيانات Google

1- استخدام محرر مستندات Google لتحويل ملفات PDF إلى جداول بيانات Google

يحتوي Google Drive على إمكانية مدمجة للتعرف على الجداول والنصوص في مستندات PDF البسيطة. تحتاج ببساطة إلى:

  1. قم بتحميل ملف PDF الخاص بك إلى Google Drive Sample_invoice_pdfviewer

  2. انقر فوق "فتح باستخدام مستندات Google" Sample_invoice_googlesheets

  3. انسخ البيانات التي تريدها والصقها في جداول بيانات Google Sample_invoice_googlesheets

على الرغم من أن هذا يبدو أنه يعمل بشكل جيد ، فلنجرب شيئًا أكثر عملية قليلاً. ضع في اعتبارك هذه الفاتورة البسيطة.
نموذج_طريقة_صوت_دفع

يؤدي فتح هذا باستخدام تطبيق مستندات Google إلى النتيجة التالية.

Sample_invoice_txt_drivemethod
من الواضح أنه مع زيادة تعقيد المستند ، نحتاج إلى الاعتماد على أدوات أكثر تعقيدًا للتعرف على البيانات.

2. استخدام الأدوات عبر الإنترنت:

تتكامل العديد من الأدوات عبر الإنترنت ، مثل مستخرج جداول PDF و Online2PDF وما إلى ذلك ، مباشرةً مع Google Drive وتوفر إمكانية خارج الصندوق لتحويل مستندات PDF إلى جداول بيانات Google.

ومع ذلك ، عندما تم اختبار هذه الأدوات باستخدام نموذج فاتورة PDF الموضح أعلاه ، لم يتم الكشف عن الجداول في معظم الحالات.


تريد تحويل PDF ملفات ل صفائح جوجل ؟ الدفع النانو مجاني  محول PDF إلى CSV. تعرف على كيفية أتمتة سير عمل PDF بالكامل إلى جداول بيانات Google باستخدام شبكات النانو كما هو موضح أدناه.

استخراج الجدول الآلي مع النانو
استخراج الجدول الآلي مع النانو


أتمتة عملية تحويل ملف PDF إلى جداول بيانات Google

يمكننا أتمتة عملية تحليل ملف PDF بالكامل واستخراج البيانات في نموذج جداول بيانات Google باستخدام الأدوات التالية.

1. استخدام Webhooks:

Webhooks هي طلبات HTTP معرّفة بشكل مخصص. يتم تشغيلها عادةً في حدث ، أي عند وقوع حدث ما ، يرسل التطبيق معلومات إلى عنوان URL محدد مسبقًا.

كيف يمكنك استخدام هذا لأتمتة سير عملك؟ دعونا ننظر في حالة الاستخدام النموذجية لمعالجة الفاتورة. تتلقى عددًا من الفواتير من مورديك وتغذيها في محول PDF إلى Google Sheets الموجود على السحابة. كيف تعرف متى انتهى النموذج من معالجة المستندات؟

بدلاً من التحقق يدويًا مما إذا كان التحويل قد اكتمل ، يمكنك ببساطة استخدام خطاف الويب الذي يُعلمك عندما يتم استخراج البيانات الموجودة في ملف PDF إلى مستند جداول بيانات Google.

2. استخدام واجهات برمجة التطبيقات

API لتقف على واجهة برمجة التطبيقات. باستخدام استدعاءات API المناسبة ، قد يكون تحويل مستندات PDF إلى جداول بيانات Google أمرًا سهلاً مثل كتابة سطور التعليمات البرمجية التالية:

#Feed the PDF documents into the PDF to Google sheets converter
Success_code, unique_id = NanonetsAPI.uploaddata(PDF_documents)

إذا كانت شركتك قد قامت بالفعل بإعداد التكامل مع Webhooks ، فستتلقى إشعارًا عندما يتم تحويل مستندات PDF الخاصة بك بنجاح. يمكنك بعد ذلك تنزيل نموذج جداول بيانات Google باستخدام واجهة برمجة التطبيقات الموضحة أدناه.

#Download Google Sheets forms
Google_sheets_data = NanonetsAPI.downloaddata(unqiue_id)

PDF إلى جداول بيانات Google باستخدام Nanonets

المحلل اللغوي لـ Nanonets PDF يجعل التحليل والتحويل سهلاً ودقيقًا. تم استخدام محلل PDF لتحليل نموذج فاتورة. يوضح هذا القسم سهولة استخدام الأداة ودقتها. بدلاً من الحديث عن مدى روعة الأمر ، توضح الصور التالية هذه النقطة بشكل مناسب.

الصورة الموضحة أدناه هي لقطة شاشة لنموذج الفاتورة التي تم تغذيتها إلى المحلل اللغوي لـ Nanonets PDF.

تم تغذية نموذج PDF إلى المحلل اللغوي لـ Nanonets PDF
تم تغذية نموذج PDF إلى المحلل اللغوي لـ Nanonets PDF

ما عليك سوى الانتقال إلى موقع Nanonets وتحميل الفاتورة. يستغرق التحويل بضع ثوانٍ فقط بعد ذلك يمكن تنزيل البيانات المحللة بتنسيقات متنوعة مثل CSVو XLSX وما إلى ذلك (تحقق من شبكات النانو محول PDF إلى CSV)

لقطة شاشة لملف PDF المعالج
لقطة شاشة لملف PDF المعالج

تُظهر الصورة التالية لقطة شاشة لملف CSV يحتوي على البيانات التي تم تحليلها من مستند PDF.

ملف CSV
ملف CSV

أخيرًا ، لتحويل ملف CSV إلى نموذج أوراق google ، فإن الأمر ببساطة يتعلق بتحميل ملف XLSX / CSV إلى محرك google الخاص بك. يمكن أتمتة هذه الخطوة من خلال استخدام Google Drive APIs.

يتم تصدير بيانات CSV إلى نموذج أوراق Google
يتم تصدير بيانات CSV إلى نموذج أوراق Google

يوضح القسم التالي كيف يمكن إنشاء خط أنابيب بسيط باستخدام المحلل اللغوي Nanonets PDF.


هل تريد استخراج المعلومات من مستندات PDF وتحويلها / إضافتها إلى مستند Google Sheets؟ تحقق من شبكات النانو لأتمتة تصدير أي معلومات من أي مستند PDF إلى جداول بيانات Google!


إنشاء خط أنابيب بسيط

1. قم بتحميل مستندات PDF تلقائيًا باستخدام Nanonets API

تسمح لك Nanonets API بتحميل المستندات الخاصة بك تلقائيًا والتي يجب تحليلها. يوضح مقتطف الكود التالي كيف يمكن القيام بذلك باستخدام Python.

قم بتحميل ملفات PDF الخاصة بك إلى نموذج Nanonets باستخدام واجهة برمجة التطبيقات هذه
قم بتحميل ملفات PDF الخاصة بك إلى نموذج Nanonets باستخدام واجهة برمجة التطبيقات هذه

2. استخدم تكامل webhooks لتلقي إشعار عند الانتهاء من التحليل

يمكن تكوين Webhooks لإعلامك تلقائيًا بمجرد تحليل المستندات.

3. قم بمراجعة وتحميل جداول بيانات Google

قم بتنزيل ومراجعة ملفات CSV للتأكد من أن كل شيء على ما يرام وتحميل البيانات إلى جداول بيانات Google باستخدام Google drive API.

حافة Nanonets

فيما يلي بعض ميزات Nanonets PDF Parser التي تجعله الأداة المثالية لعملك.

1- التكاملات الخارجية:

يمكن دمج نموذج الشبكات النانوية بسهولة مع MySql و Quickbooks و Salesforce وما إلى ذلك. وهذا يعني أن سير العمل الحالي الخاص بك لا يزال غير مضطرب ويمكن ببساطة توصيل محول الشبكات النانوية كوحدة إضافية.

2. دقة عالية وأوقات معالجة منخفضة:

تتميز أداة التحليل اللغوي Nanonets PDF بدقة تزيد عن 95٪ + وهي نسبة أعلى بكثير بالمقارنة مع منافسيها.

3. ميزات ما بعد المعالجة الرائعة:

افترض أن قاعدة البيانات الخاصة بك قد تم دمجها مع نموذج الشبكات النانوية. يملأ النموذج تلقائيًا بعض الحقول (ببيانات من قاعدة البيانات الخاصة بك) بناءً على البيانات المستخرجة من المستند. على سبيل المثال:

بعض ميزات شبكات النانو بعد المعالجة
بعض ميزات شبكات النانو بعد المعالجة

كما هو موضح في الشكل ، يتم ملء حقل Registered_ID تلقائيًا (عن طريق البحث في قاعدة البيانات) بناءً على Invoice_ID المستخرج من PDF.

4. واجهة بسيطة وبديهية

بينما تم التقليل من أهمية هذه الميزة ، وجدت أن واجهة المستخدم وتجربة المستخدم موجودة على الفور. استغرقت عملية التسجيل بالكامل وتحميل المستند وتحليل البيانات أقل من 5 دقائق. هذا يساوي تقريبًا الوقت الذي يستغرقه الكمبيوتر المحمول في التمهيد!

5. قاعدة عملاء ضخمة

إذا كان لا يزال لديك تحفظات بشأن استخدام Nanonets لأتمتة سير عملك ، فما عليك سوى إلقاء نظرة على بعض الشركات التي تستخدم خدماتها.

  • ديلويت
  • شروين ويليامز
  • DoorDash
  • P & G

هل تريد استخراج المعلومات من مستندات PDF وتحويلها / إضافتها إلى مستند Google Sheets؟ تحقق من شبكات النانو لأتمتة تصدير أي معلومات من أي مستند PDF إلى جداول بيانات Google!


وفي الختام

في هذا المنشور ، ألقينا نظرة على كيفية أتمتة سير عملك باستخدام محول PDF إلى Google Sheets. في البداية ، تعلمنا عن الحاجة إلى تحويل مستندات PDF إلى جداول بيانات Google متبوعًا بالتحديات التي نواجهها خلال هذه العملية. ثم انغمسنا في الأساليب التي يتبعها محللون حديثون لتحليل مستندات PDF وقمنا أيضًا بتنفيذ بعض الأساليب الشائعة. تعلمنا أيضًا كيف يمكننا أتمتة التحويل بالكامل باستخدام عمليات التكامل الخارجية مثل الويب هوك وواجهات برمجة التطبيقات. أخيرًا ، استخدمنا أداة Nanonets لتحليل عينة فاتورة ، واستخراج البيانات في نموذج أوراق Google واستكشفنا أيضًا بعض ميزات المعالجة اللاحقة الرائعة.

هل أعطيت نموذج Nanonets فرصة؟ إذا كان الأمر كذلك ، فيرجى ترك تعليق أدناه بخصوص تجربتك مع الأداة. إذا لم يكن كذلك ، فابدأ وجربها. قد تجعل يومك فقط!

الطابع الزمني:

اكثر من الذكاء الاصطناعي والتعلم الآلي