نحوه تبدیل PDF به Google Sheets به صورت آنلاین

گره منبع: 1693145

در این مقاله با روش های مختلفی برای تبدیل PDF به Google Sheets آشنا خواهید شد.

شما همچنین خواهید آموخت که چگونه نانو شبکه ها می توانند کل گردش کار تبدیل PDF به Google Sheets را خودکار کنید آنلاین.

قبل از اینکه به نحوه تبدیل PDF به Google Sheets نگاهی بیاندازیم، بیایید نگاهی به چرایی اهمیت انجام این کار بیندازیم.

چرا PDF ها را به Google Sheets تبدیل کنیم؟

با توجه به این وبلاگ گوگل پس از ارسال از صفحه رسمی وبلاگ گوگل، بیش از 5 میلیون کسب و کار از راه حل G Suite خود استفاده می کنند. در همان زمان، تعداد زیادی از شرکت‌ها نیز شروع به استفاده از ادغام Google Sheets برای خودکارسازی وظایف کرده‌اند.

[محتوای جاسازی شده]
تبدیل PDF به Google Sheets

Let’s consider a typical use case. Your Accounts Payable team receives an invoice, in the standard PDF format. Someone manually goes through the invoice and keys in the required information into a Google Sheets document before forwarding it to the Finance section. The Finance section pays your supplier and makes an entry in the company’s ledger.

جدا از اینکه این یک فرآیند طولانی مدت است، مستعد خطا است و خودکار کردن آن بسیار منطقی تر است.

اکنون که نیاز به تبدیل PDF به فرم شیت گوگل مشخص شده است، بیایید نگاهی به ساختار اسناد PDF بیندازیم و تجزیه آنها با چه چالش هایی مواجه است.


می خواهید تبدیل کنید PDF فایل ها به صفحات Google ؟ وارسی نانو شبکه ها رایگان  تبدیل PDF به CSV. یا دریابید که چگونه کل گردش کار PDF خود را در Google Sheets با Nanonets خودکار کنید.

گردش کار تبدیل خودکار داده ها با نانو شبکه ها


چالش‌های تجزیه یک سند PDF

فرمت سند قابل حمل یک فرمت فایل بود که ابتدا توسط Adobe توسعه یافت و بعداً به عنوان یک استاندارد باز منتشر شد. از آن زمان به طور گسترده ای مورد استفاده قرار گرفته است زیرا برای سیستم عامل زیربنایی ناشناس است.

بنابراین، چرا تجزیه یک PDF و تبدیل محتوای آن به فرمت دیگری اینقدر چالش برانگیز است؟ تصاویر زیر هزاران کلمه را بیان می کنند و موضوع را به خانه هدایت می کنند.

اسکرین شات از یک سند PDF ساده
اسکرین شات از یک سند PDF ساده

تصویر بالا اسکرین شات یک سند PDF را نشان می دهد که با استفاده از یک پی دی اف خوان باز می شود. بیایید سعی کنیم همان سند PDF را با استفاده از یک ویرایشگر متن باز کنیم.

تصویر صفحه PDF با استفاده از ویرایشگر متن باز شد
تصویر صفحه PDF با استفاده از ویرایشگر متن باز شد

تصاویر بالا به وضوح نشان می دهد که وقتی اطلاعات در یک PDF ذخیره می شود، ساختار اصلی آن به طور کامل از بین می رود. این به این دلیل است که فرمت PDF به سادگی شامل دستورالعمل هایی در مورد نحوه چاپ/رسم دنباله ای از کاراکترها در یک صفحه است.

اگر فکر می کنید استخراج متن دشوار است، استخراج داده های موجود در جداول به دلیل فرمت های جدولی بسیار متنوعی که استفاده می شود، چالش برانگیزتر است.

امیدواریم متقاعد شده باشید که تبدیل یک سند PDF به فرم Google Sheets پیاده روی در پارک نیست. بخش بعدی در مورد رویکرد اکثر تجزیه کننده های PDF مدرن برای شناسایی/تجزیه اطلاعات از یک سند PDF صحبت می کند.

رویکرد مدرن برای تجزیه اسناد PDF

اکثر تجزیه کننده های PDF مدرن از جریان توضیح داده شده در زیر برای تجزیه داده های بدون ساختار از اسناد PDF استفاده می کنند.

فلوچارتی که جریان معمولی تجزیه کننده های PDF مدرن را نشان می دهد
فلوچارتی که جریان معمولی تجزیه کننده های PDF مدرن را نشان می دهد

بیایید به طور خلاصه به هر مرحله از فرآیند نگاهی بیندازیم:

1. پیش پردازش یا پاکسازی داده ها:

هرچه PDF شما بهتر به نظر برسد، استخراج یا استخراج برای مدل یادگیری ماشین شما آسان تر خواهد بود گرفتن اطلاعات از آن. به عنوان مثال، اگر سند PDF اسکن شده باشد، باید حاوی برخی از مصنوعات اسکن باشد که می تواند بر عملکرد مبدل تأثیر بگذارد.

حذف نویز با استفاده از فیلترهای مناسب، باینریزه کردن، تصحیح انحراف و غیره برخی از رایج ترین مراحل پیش پردازش هستند. پست نانو نت زیر Nanonets Tesseract Post شامل چند نمونه عالی از نحوه پیش پردازش اسناد قبل از آن است تشخیص نوری شخصیت(OCR) روی آنها اجرا می شود.

اینجا جایی است که بیشتر جادو اتفاق می افتد. استخراج داده ها معمولاً توسط یک مدل یادگیری ماشینی (ML) انجام می شود. اکثر مدل‌های ML که برای استخراج داده‌ها از فایل‌های PDF استفاده می‌شوند، ترکیبی از ابزارهای تشخیص کاراکتر نوری، ابزارهای تشخیص متن و الگو و غیره هستند.

برای هدف این پست، ما می توانیم مدل را به عنوان یک جعبه سیاه در نظر بگیریم که سند PDF شما را به عنوان ورودی می گیرد و اطلاعات تجزیه شده را بیرون می اندازد. همچنین، از آنجایی که از ML در هسته خود استفاده می‌کند، می‌توان آن را با داده‌های سفارشی برای تناسب با موارد استفاده شرکت شما آموزش داد.

3. پردازش پست:

در این مرحله داده های استخراج شده به فرمت های مورد نیاز مانند CSV، XML، JSON و غیره تبدیل می شوند. همچنین قوانین اضافی تعریف شده توسط کاربر در بالای پیش بینی های انجام شده توسط هوش مصنوعی اضافه می شود. این می تواند شامل قوانینی برای قالب بندی خروجی، محدودیت های اضافی بر روی اطلاعات استخراج شده و غیره باشد.

بخش زیر به معیارهایی می پردازد که می توانیم برای اندازه گیری عملکرد تجزیه کننده PDF از آنها استفاده کنیم.


می خواهید تبدیل کنید PDF فایل ها به صفحات Google ؟ وارسی نانو شبکه ها رایگان  تبدیل PDF به CSV. نحوه خودکارسازی کل گردش کار PDF خود را در Google Sheets با Nanonets بیابید.

استخراج خودکار جدول با نانو شبکه
استخراج خودکار جدول با نانو شبکه


معیارهایی برای اندازه گیری عملکرد یک مبدل PDF

از آنجایی که اکثر مبدل‌های PDF برای پردازش فاکتور یا کارهای مرتبط استفاده می‌شوند، دقت و سرعت استخراج جدول از یک سند PDF عاملی حیاتی در قضاوت در مورد عملکرد مبدل PDF است.

2. قابلیت چند زبانه:

اکثر شرکت های بزرگ ملزم به دریافت فاکتورها به زبان های مختلف هستند. تجزیه کننده PDF یا باید از تجزیه چند زبانه خارج از جعبه پشتیبانی کند یا باید گزینه ای را ارائه دهد که توسط آن کاربران می توانند مدل را با استفاده از داده های سفارشی آموزش دهند.

3. یکپارچه سازی با نرم افزار حسابداری:

مبدل PDF ایده آل باید یک ماژول plug and play باشد که به راحتی می تواند به موجود شما اضافه شود گردش کار سند. باید از ادغام با نرم افزارهای حسابداری محبوب مانند QuickBooks، Xero، Wave و غیره پشتیبانی کند.

4. آسان و شهودی:

این ابزار به احتمال زیاد توسط کاربران غیر فنی اداره می شود. اگر بتوان با حداقل دانش فنی کار کرد، سودمند خواهد بود.

روش های مختلف تبدیل PDF به Google Sheets

1. استفاده از Google Docs برای تبدیل PDF به Google Sheets

Google Drive دارای قابلیت داخلی برای تشخیص جداول و متن در اسناد PDF ساده است. شما به سادگی نیاز دارید:

  1. فایل PDF خود را در گوگل درایو آپلود کنید نمونه_فاکتور_pdfviewer

  2. روی «باز کردن با Google Docs» کلیک کنید sample_invoice_googlesheets

  3. داده‌های مورد نظر خود را کپی کنید و در Google Sheets جای‌گذاری کنید Sample_invoice_googlesheets

اگرچه به نظر می رسد که به خوبی کار می کند، بیایید چیزی کمی کاربردی تر را امتحان کنیم. این فاکتور ساده را در نظر بگیرید.
Sample_invoice_drivemethod

باز کردن این با استفاده از برنامه Google Docs نتیجه زیر را به دست می دهد.

Sample_invoice_txt_drivemethod
واضح است که با افزایش پیچیدگی سند، باید به ابزارهای پیچیده تری برای تشخیص داده ها تکیه کنیم.

2. استفاده از ابزارهای آنلاین:

چندین ابزار آنلاین مانند استخراج جداول PDF، Online2PDF و غیره، مستقیماً با Google Drive ادغام می شوند و قابلیت تبدیل اسناد PDF به Google Sheets را فراهم می کنند.

با این حال، هنگامی که این ابزارها با استفاده از نمونه فاکتور PDF نشان داده شده در بالا آزمایش شدند، جداول در اکثر موارد شناسایی نشدند.


می خواهید تبدیل کنید PDF فایل ها به صفحات Google ؟ وارسی نانو شبکه ها رایگان  تبدیل PDF به CSV. بیاموزید که چگونه کل گردش کار PDF خود را در صفحات Google با Nanonets خودکار کنید، مانند شکل زیر.

استخراج خودکار جدول با نانو شبکه
استخراج خودکار جدول با نانو شبکه


خودکارسازی فرآیند تبدیل PDF به Google Sheets

با استفاده از ابزارهای زیر می‌توانیم فرآیند تجزیه PDF و استخراج داده‌ها در فرم Google Sheets را کاملاً خودکار کنیم.

1. استفاده از Webhooks:

وب هوک ها درخواست های HTTP تعریف شده سفارشی هستند. آنها معمولاً در یک رویداد فعال می شوند، یعنی زمانی که یک رویداد رخ می دهد، برنامه اطلاعات را به یک URL از پیش تعریف شده ارسال می کند.

چگونه می توانید از این برای خودکار کردن گردش کار خود استفاده کنید؟ بیایید استفاده معمولی از پردازش فاکتور را در نظر بگیریم. شما تعدادی فاکتور از تامین کنندگان خود دریافت می کنید و آنها را به مبدل PDF به Google Sheets که در فضای ابری قرار دارد وارد می کنید. چگونه می دانید که مدل پردازش اسناد را به پایان رسانده است؟

به جای اینکه به صورت دستی بررسی کنید آیا تبدیل کامل شده است یا خیر، می توانید به سادگی از یک هوک استفاده کنید که به شما اطلاع می دهد زمانی که داده های PDF در یک سند Google Sheets استخراج می شوند.

2. استفاده از API

API مخفف Application Programming Interface است. با استفاده از تماس‌های API مناسب، تبدیل اسناد PDF به Google Sheets ممکن است به آسانی نوشتن خطوط کد زیر باشد:

#Feed the PDF documents into the PDF to Google sheets converter
Success_code, unique_id = NanonetsAPI.uploaddata(PDF_documents)

اگر شرکت شما قبلاً ادغام با Webhooks را راه‌اندازی کرده است، زمانی که اسناد PDF شما با موفقیت تبدیل شدند، اعلانی دریافت خواهید کرد. سپس می توانید فرم Google Sheets را با استفاده از API نشان داده شده در زیر دانلود کنید.

#Download Google Sheets forms
Google_sheets_data = NanonetsAPI.downloaddata(unqiue_id)

PDF به Google Sheets با نانو شبکه

تجزیه کننده PDF Nanonets تجزیه و تبدیل را آسان و دقیق می کند. تجزیه کننده PDF برای تجزیه نمونه فاکتور استفاده شد. این بخش آسانی استفاده و دقت ابزار را نشان می دهد. به جای اینکه در مورد عالی بودن آن صحبت کنیم، تصاویر زیر به درستی این موضوع را نشان می دهند.

تصویر زیر تصویری از نمونه فاکتور است که به تجزیه کننده PDF Nanonets داده شده است.

نمونه PDF تغذیه شده به تجزیه کننده PDF Nanonets
نمونه PDF تغذیه شده به تجزیه کننده PDF Nanonets

به سادگی به وب سایت Nanonets بروید و فاکتور را آپلود کنید. تبدیل تنها چند ثانیه طول می کشد که پس از آن می توان داده های تجزیه شده را در قالب های مختلفی دانلود کرد CSV، XLSX و غیره (نانونت ها را بررسی کنید تبدیل PDF به CSV)

اسکرین شات از PDF پردازش شده
اسکرین شات از PDF پردازش شده

تصویر بعدی تصویری از فایل CSV را نشان می دهد که حاوی داده های تجزیه شده از سند PDF است.

پرونده CSV
پرونده CSV

در نهایت، برای تبدیل فایل CSV به فرم google sheets، فقط باید فایل XLSX/CSV را در درایو گوگل خود آپلود کنید. این مرحله را می توان با استفاده از APIهای درایو Google خودکار کرد.

داده‌های CSV به فرم برگه‌های Google صادر شد
داده‌های CSV به فرم برگه‌های Google صادر شد

بخش زیر نشان می دهد که چگونه می توان با استفاده از تجزیه کننده PDF Nanonets یک خط لوله ساده ایجاد کرد.


آیا می خواهید اطلاعات را از اسناد PDF استخراج کنید و آنها را به سند Google Sheets تبدیل یا اضافه کنید؟ نانو شبکه ها را بررسی کنید برای صادرات خودکار هر گونه اطلاعات از هر سند PDF به Google Sheets!


ایجاد یک خط لوله ساده

1. به طور خودکار اسناد PDF خود را با استفاده از Nanonets API آپلود کنید

Nanonets API به شما این امکان را می دهد که اسناد خود را که باید تجزیه شوند به طور خودکار آپلود کنید. قطعه کد زیر نشان می دهد که چگونه می توان این کار را با استفاده از پایتون انجام داد.

PDF های خود را با استفاده از این API در مدل Nanonets آپلود کنید
PDF های خود را با استفاده از این API در مدل Nanonets آپلود کنید

2. از ادغام webhooks برای دریافت اعلان پس از اتمام تجزیه استفاده کنید

Webhooks را می توان طوری پیکربندی کرد که پس از تجزیه اسناد به طور خودکار به شما اطلاع دهد.

3. بررسی و آپلود در Google Sheets

فایل‌های CSV را دانلود و بررسی کنید تا مطمئن شوید همه چیز مرتب است و داده‌ها را با استفاده از API درایو Google در Google Sheets آپلود کنید.

لبه نانو شبکه

در اینجا برخی از ویژگی های Nanonets PDF Parser آورده شده است که آن را به ابزاری ایده آل برای تجارت شما تبدیل می کند.

1-ادغام های خارجی:

مدل نانو شبکه‌ها را می‌توان به راحتی با MySql، Quickbooks، Salesforce و غیره ادغام کرد. این بدان معناست که جریان کار فعلی شما بدون مزاحمت باقی می‌ماند و مبدل نانو شبکه‌ها به سادگی می‌تواند به عنوان یک ماژول اضافی وصل شود.

2. دقت بالا و زمان پردازش کم:

ابزار تجزیه‌کننده PDF Nanonets دارای دقت بیش از 95% است که در مقایسه با رقبای خود بسیار بالاتر است.

3. ویژگی های جالب پس از پردازش:

فرض کنید پایگاه داده شما با مدل نانو شبکه ها ادغام شده است. مدل به طور خودکار برخی از فیلدها (با داده های پایگاه داده شما) را بر اساس داده های استخراج شده از سند پر می کند. مثلا:

برخی از ویژگی های پس از پردازش نانو شبکه ها
برخی از ویژگی های پس از پردازش نانو شبکه ها

همانطور که در شکل نشان داده شده است، فیلد Registered_ID به صورت خودکار (با جستجوی پایگاه داده) بر اساس Invoice_ID که از PDF استخراج می شود، پر می شود.

4. رابط ساده و شهودی

در حالی که این ویژگی دست کم گرفته شده است، من متوجه شدم که UI و UX مناسب هستند. کل فرآیند ثبت نام، آپلود سند و تجزیه داده ها کمتر از 5 دقیقه طول کشید. این تقریبا برابر با زمانی است که لپ تاپ من برای بالا آمدن نیاز دارد!

5. پایگاه مشتری عظیم

اگر هنوز در مورد استفاده از Nanonets برای خودکارسازی گردش کار خود محتاط هستید، کافی است به برخی از شرکت هایی که از خدمات آنها استفاده می کنند نگاهی بیندازید.

  • Deloitte
  • شروین ویلیامز
  • DoorDash
  • P&G

آیا می خواهید اطلاعات را از اسناد PDF استخراج کنید و آنها را به سند Google Sheets تبدیل یا اضافه کنید؟ نانو شبکه ها را بررسی کنید برای صادرات خودکار هر گونه اطلاعات از هر سند PDF به Google Sheets!


نتیجه

در این پست نگاهی انداختیم به اینکه چگونه می توانید گردش کار خود را با استفاده از مبدل PDF به Google Sheets خودکار کنید. در ابتدا، با نیاز به تبدیل اسناد PDF به Google Sheets و به دنبال آن چالش‌هایی که در طول این فرآیند با آن مواجه شد، آشنا شدیم. سپس به رویکردهای تجزیه‌کننده‌های مدرن برای تجزیه اسناد PDF پرداختیم و برخی از رویکردهای رایج را نیز پیاده‌سازی کردیم. همچنین یاد گرفتیم که چگونه می‌توانیم با استفاده از ادغام‌های خارجی مانند webhooks و API، تبدیل را کاملاً خودکار کنیم. در نهایت از ابزار Nanonets برای تجزیه یک نمونه فاکتور، استخراج داده ها در فرم Google Sheets و همچنین برخی از ویژگی های جالب پس از پردازش آن استفاده کردیم.

آیا مدل نانونت ها را امتحان کرده اید؟ اگر چنین است، لطفاً نظر خود را در مورد تجربه خود با این ابزار در زیر بنویسید. اگر نه، ادامه دهید و آن را امتحان کنید. ممکن است روز شما را بسازد!

تمبر زمان:

بیشتر از هوش مصنوعی و یادگیری ماشین