온라인에서 PDF를 Google 스프레드시트로 변환하는 방법

소스 노드 : 1693145

이 기사에서는 PDF를 Google 스프레드시트로 변환하는 다양한 방법을 알아봅니다.

또한 Nanonets가 어떻게 할 수 있는지 배우게 됩니다. PDF를 Google 스프레드시트로 변환하는 전체 워크플로 자동화 온라인.

PDF를 Google 스프레드시트로 변환하는 방법을 살펴보기 전에 이 작업이 중요한 이유를 살펴보겠습니다.

PDF를 Google 스프레드시트로 변환하는 이유는 무엇입니까?

이것에 의하면 구글 블로그 공식 Google 블로그 페이지의 게시물에 따르면 5백만 개 이상의 기업에서 G Suite 솔루션을 사용하고 있습니다. 동시에 많은 회사에서 Google 스프레드시트 통합을 사용하여 작업을 자동화하기 시작했습니다.

[포함 된 콘텐츠]
PDF를 Google 스프레드시트로 변환

일반적인 사용 사례를 고려해 보겠습니다. 귀하의 지급 계정 팀은 표준 PDF 형식의 송장을 받습니다. 누군가 수동으로 인보이스를 검토하고 필요한 정보를 입력하여 Google 스프레드시트 문서에 입력한 후 재무 섹션으로 전달합니다. 재무 섹션에서는 공급업체에 비용을 지불하고 회사 원장에 항목을 입력합니다.

오래 걸리는 프로세스 외에도 오류가 발생하기 쉬우므로 단순히 자동화하는 것이 훨씬 더 합리적입니다.

이제 PDF를 Google 시트 형식으로 변환해야 하는 필요성이 명확해졌으므로 PDF 문서가 어떻게 구성되어 있고 이를 구문 분석할 때 어떤 문제가 있는지 살펴보겠습니다.


변환하고 싶어 PDF 에 파일 Google 스프레드 시트 ? 체크 아웃 나노 넷 비어 있는  PDF에서 CSV로 변환기. 또는 방법 알아보기 Nanonets를 사용하여 전체 PDF를 Google 스프레드시트 워크플로로 자동화.

Nanonet을 사용한 자동화된 데이터 변환 워크플로


PDF 문서 구문 분석의 과제

휴대용 문서 형식은 Adobe에서 처음 개발한 파일 형식으로 나중에 공개 표준으로 출시되었습니다. 기본 운영 체제에 불가지론적이기 때문에 이후 널리 채택되었습니다.

그렇다면 PDF를 구문 분석하고 그 내용을 다른 형식으로 변환하는 것이 왜 그렇게 어려운 일입니까? 다음 이미지는 천 단어를 말하고 요점을 집으로 이끌 것입니다.

간단한 PDF 문서의 스크린샷
간단한 PDF 문서의 스크린샷

위 이미지는 PDF 리더를 사용하여 연 PDF 문서의 스크린샷을 보여줍니다. 텍스트 편집기를 사용하여 동일한 PDF 문서를 열어 보겠습니다.

텍스트 편집기를 사용하여 연 PDF의 스크린샷
텍스트 편집기를 사용하여 연 PDF의 스크린샷

위의 그림은 정보가 PDF에 저장될 때 원래 구조가 완전히 손실된다는 것을 분명히 합니다. PDF 형식은 단순히 페이지에 일련의 문자를 인쇄/그리는 방법에 대한 지침으로 구성되어 있기 때문입니다.

텍스트 추출이 어렵다고 생각한다면 사용되는 표 형식이 매우 다양하기 때문에 표에 있는 데이터를 추출하는 것이 훨씬 더 어렵습니다.

PDF 문서를 Google 스프레드시트 형식으로 변환하는 것은 쉬운 일이 아닙니다. 다음 섹션에서는 대부분의 최신 PDF 파서가 PDF 문서에서 정보를 인식/분석하기 위해 취하는 접근 방식에 대해 설명합니다.

PDF 문서 구문 분석에 대한 현대적인 접근 방식

대부분의 최신 PDF 파서는 PDF 문서에서 구조화되지 않은 데이터를 구문 분석하기 위해 아래에 설명된 흐름을 사용합니다.

최신 PDF 파서의 일반적인 흐름을 보여주는 순서도
최신 PDF 파서의 일반적인 흐름을 보여주는 순서도

프로세스의 각 단계를 간략하게 살펴보겠습니다.

1. 전처리 또는 데이터 정리:

PDF가 더 보기 좋을수록 기계 학습 모델이 더 쉽게 추출하거나 데이터 캡처 이것으로부터. 예를 들어 PDF 문서가 스캔된 경우 변환기의 성능에 영향을 줄 수 있는 일부 스캔 아티팩트가 포함되어 있어야 합니다.

적절한 필터를 사용한 노이즈 제거, 이진화, 왜곡 보정 등은 가장 일반적인 전처리 단계 중 일부입니다. 다음 나노넷 포스트 나노넷 테서랙트 포스트 문서를 사전 처리하는 방법에 대한 몇 가지 훌륭한 예가 포함되어 있습니다. 광학 문자 인식(OCR)이 실행됩니다.

이것은 대부분의 마법이 일어나는 곳입니다. 데이터 추출은 일반적으로 기계 학습(ML) 모델에 의해 수행됩니다. PDF에서 데이터 추출에 사용되는 대부분의 ML 모델에는 광학 문자 인식 도구, 텍스트 및 패턴 인식 도구 등의 조합이 포함되어 있습니다.

이 게시물의 목적을 위해 모델을 PDF 문서를 입력으로 받아 구문 분석된 정보를 내보내는 블랙 박스로 취급할 수 있습니다. 또한 ML을 핵심으로 사용하므로 회사의 사용 사례에 맞게 사용자 지정 데이터로 재학습할 수 있습니다.

3. 후처리:

이 단계에서는 추출된 데이터를 CSV, XML, JSON 등과 같은 필요한 형식으로 변환합니다. 또한 AI가 예측한 것 외에 추가적인 사용자 정의 규칙이 추가됩니다. 여기에는 출력 형식 지정 규칙, 추출되는 정보에 대한 추가 제약 조건 등이 포함될 수 있습니다.

다음 섹션에서는 PDF 파서의 성능을 측정하는 데 사용할 수 있는 몇 가지 메트릭을 살펴봅니다.


변환하고 싶어 PDF 에 파일 Google 스프레드 시트 ? 체크 아웃 나노 넷 비어 있는  PDF에서 CSV로 변환기. Nanonets를 사용하여 전체 PDF를 Google Sheets 워크플로로 자동화하는 방법을 알아보세요.

Nanonet을 사용한 자동 테이블 추출
Nanonet을 사용한 자동 테이블 추출


PDF 변환기의 성능을 측정하는 측정항목

대부분의 PDF 변환기는 송장 처리 또는 관련 작업에 사용되기 때문에 PDF 문서에서 테이블 추출의 정확성과 속도는 PDF 변환기의 성능을 판단하는 중요한 요소입니다.

2. 다국어 기능:

대부분의 대기업은 다양한 언어로 된 송장을 받아야 합니다. PDF 파서는 기본적으로 다국어 파싱을 지원하거나 사용자가 사용자 정의 데이터를 사용하여 모델을 훈련할 수 있는 옵션을 제공해야 합니다.

3. 회계 소프트웨어와의 통합:

이상적인 PDF 변환기는 기존 파일에 쉽게 추가할 수 있는 플러그 앤 플레이 모듈이어야 합니다. 문서 워크플로. QuickBooks, Xero, Wave 등과 같은 널리 사용되는 회계 소프트웨어와의 통합을 지원해야 합니다.

4. 쉽고 직관적:

이 도구는 기술에 익숙하지 않은 사용자가 작동할 가능성이 큽니다. 최소한의 기술 지식으로 운영할 수 있다면 유리할 것입니다.

PDF를 Google 시트로 변환하는 다양한 방법

1. Google 문서를 사용하여 PDF를 Google 스프레드시트로 변환

Google 드라이브에는 간단한 PDF 문서 내에서 표와 텍스트를 인식하는 기능이 내장되어 있습니다. 다음을 수행하기만 하면 됩니다.

  1. Google 드라이브에 PDF 파일 업로드 sample_invoice_pdf뷰어

  2. "Google 문서도구로 열기"를 클릭합니다. Sample_invoice_google시트

  3. 원하는 데이터를 복사하여 Google 스프레드시트에 붙여넣기 Sample_invoice_googlesheets

잘 작동하는 것 같지만 좀 더 실용적인 것을 시도해 봅시다. 이 간단한 송장을 고려하십시오.
Sample_invoice_drive 방법

Google 문서 응용 프로그램을 사용하여 이것을 열면 다음과 같은 결과가 나타납니다.

Sample_invoice_txt_drive 방법
분명히 문서의 복잡성이 증가함에 따라 데이터를 인식하기 위해 보다 정교한 도구에 의존해야 합니다.

2. 온라인 도구 사용:

PDF 테이블 추출기, Online2PDF 등과 같은 여러 온라인 도구는 Google 드라이브와 직접 통합되며 PDF 문서를 Google 스프레드시트로 변환하는 즉시 사용 가능한 기능을 제공합니다.

그러나 위에 표시된 샘플 송장 PDF를 사용하여 이러한 도구를 테스트했을 때 대부분의 경우 테이블이 감지되지 않았습니다.


변환하고 싶어 PDF 에 파일 Google 스프레드 시트 ? 체크 아웃 나노 넷 비어 있는  PDF에서 CSV로 변환기. 아래와 같이 Nanonet을 사용하여 전체 PDF에서 Google 스프레드시트로의 워크플로를 자동화하는 방법을 알아보세요.

Nanonet을 사용한 자동 테이블 추출
Nanonet을 사용한 자동 테이블 추출


PDF를 Google 스프레드시트로 변환 프로세스 자동화

다음 도구를 사용하여 PDF를 구문 분석하고 데이터를 Google 스프레드시트 형식으로 추출하는 프로세스를 완전히 자동화할 수 있습니다.

1. 웹훅 사용:

Webhook은 사용자 정의 HTTP 요청입니다. 일반적으로 이벤트에서 트리거됩니다. 즉, 이벤트가 발생하면 응용 프로그램이 미리 정의된 URL로 정보를 보냅니다.

워크플로 자동화에 이것을 어떻게 사용할 수 있습니까? 송장 처리의 일반적인 사용 사례를 살펴보겠습니다. 공급업체로부터 여러 인보이스를 받아 클라우드에 있는 PDF-Google 스프레드시트 변환기에 입력합니다. 모델이 문서 처리를 완료했는지 어떻게 알 수 있습니까?

변환이 완료되었는지 수동으로 확인하는 대신 PDF의 데이터가 Google 스프레드시트 문서로 추출되었을 때 알려주는 웹훅을 사용하면 됩니다.

2. API 사용

API는 응용 프로그래밍 인터페이스의 약자입니다. 적절한 API 호출을 사용하여 PDF 문서를 Google 스프레드시트로 변환하는 것은 다음 코드 줄을 작성하는 것만큼 쉬울 수 있습니다.

#Feed the PDF documents into the PDF to Google sheets converter
Success_code, unique_id = NanonetsAPI.uploaddata(PDF_documents)

회사에서 Webhook과의 통합을 이미 설정한 경우 PDF 문서가 성공적으로 변환되면 알림을 받게 됩니다. 그런 다음 아래 표시된 API를 사용하여 Google 스프레드시트 양식을 다운로드할 수 있습니다.

#Download Google Sheets forms
Google_sheets_data = NanonetsAPI.downloaddata(unqiue_id)

Nanonet을 사용하여 PDF를 Google 스프레드시트로

Nanonets PDF 파서는 구문 분석 및 변환을 쉽고 정확하게 만듭니다. PDF 파서는 샘플 송장을 구문 분석하는 데 사용되었습니다. 이 섹션에서는 도구의 사용 용이성과 정확성을 보여줍니다. 그것이 얼마나 대단한지 이야기하기보다는 다음 이미지가 그 요점을 적절하게 보여줍니다.

아래 표시된 이미지는 Nanonets PDF 파서에 제공된 샘플 인보이스의 스크린샷입니다.

Nanonets PDF 파서에 제공된 샘플 PDF
Nanonets PDF 파서에 제공된 샘플 PDF

Nanonets 웹사이트로 이동하여 청구서를 업로드하기만 하면 됩니다. 변환은 파싱된 데이터를 다음과 같은 다양한 형식으로 다운로드할 수 있는 몇 초 밖에 걸리지 않습니다. CSV, XLSX 등(Nanonets' 확인 PDF에서 CSV로 변환기)

처리된 PDF의 스크린샷
처리된 PDF의 스크린샷

다음 이미지는 PDF 문서에서 구문 분석된 데이터가 포함된 CSV 파일의 스크린샷을 보여줍니다.

CSV 파일
CSV 파일

마지막으로 CSV 파일을 Google 시트 형식으로 변환하려면 XLSX/CSV 파일을 Google 드라이브에 업로드하기만 하면 됩니다. 이 단계는 Google 드라이브 API를 사용하여 자동화할 수 있습니다.

Google 시트 양식으로 내보낸 CSV 데이터
Google 시트 양식으로 내보낸 CSV 데이터

다음 섹션에서는 Nanonets PDF 파서를 사용하여 간단한 파이프라인을 만드는 방법을 보여줍니다.


PDF 문서에서 정보를 추출하여 Google 스프레드시트 문서로 변환/추가하고 싶으십니까? 나노넷을 확인하세요 PDF 문서의 모든 정보를 Google 스프레드시트로 자동 내보내기!


간단한 파이프라인 생성

1. Nanonets API를 사용하여 PDF 문서를 자동으로 업로드

Nanonets API를 사용하면 구문 분석해야 하는 문서를 자동으로 업로드할 수 있습니다. 다음 코드 스니펫은 Python을 사용하여 이 작업을 수행하는 방법을 보여줍니다.

이 API를 사용하여 PDF를 Nanonets 모델에 업로드하십시오.
이 API를 사용하여 PDF를 Nanonets 모델에 업로드하십시오.

2. 웹훅 통합을 사용하여 구문 분석 완료 시 알림 수신

문서가 구문 분석되면 웹후크를 자동으로 알리도록 구성할 수 있습니다.

3. Google 스프레드시트 검토 및 업로드

CSV 파일을 다운로드 및 검토하여 모든 것이 올바른지 확인하고 Google 드라이브 API를 사용하여 Google 스프레드시트에 데이터를 업로드합니다.

나노넷 에지

다음은 비즈니스에 이상적인 도구가 되는 Nanonets PDF Parser의 몇 가지 기능입니다.

1.외부 통합:

nanonets 모델은 MySql, Quickbooks, Salesforce 등과 쉽게 통합될 수 있습니다. 이는 현재 작업 흐름이 그대로 유지되고 nanonets 변환기를 추가 모듈로 간단히 연결할 수 있음을 의미합니다.

2. 높은 정확도와 낮은 처리 시간:

Nanonets PDF 파서 도구의 정확도는 95% 이상으로 경쟁 제품과 비교할 때 훨씬 높습니다.

3. 멋진 후처리 기능:

데이터베이스가 nanonets 모델과 통합되었다고 가정합니다. 모델은 문서에서 추출한 데이터를 기반으로 일부 필드(데이터베이스의 데이터 포함)를 자동으로 채웁니다. 예를 들어:

나노넷의 일부 후처리 기능
나노넷의 일부 후처리 기능

그림과 같이 Registered_ID 필드는 PDF에서 추출한 Invoice_ID를 기반으로 데이터베이스 조회에 의해 자동으로 채워집니다.

4. 간단하고 직관적인 인터페이스

이 기능은 과소 평가되었지만 UI와 UX가 제자리에 있다는 것을 알았습니다. 가입, 문서 업로드, 데이터 파싱의 전체 과정은 5분도 채 걸리지 않았습니다. 내 노트북이 부팅되는 데 걸리는 시간과 거의 같습니다!

5. 거대한 고객 기반

작업 흐름 자동화를 위해 Nanonets를 사용하는 것에 대해 여전히 의구심이 있는 경우 해당 서비스를 사용하는 일부 회사를 살펴보십시오.

  • 딜로이트
  • 셔윈 윌리엄스
  • 문틀
  • P & G

PDF 문서에서 정보를 추출하여 Google 스프레드시트 문서로 변환/추가하고 싶으십니까? 나노넷을 확인하세요 PDF 문서의 모든 정보를 Google 스프레드시트로 자동 내보내기!


결론

이 게시물에서는 PDF-Google 스프레드시트 변환기를 사용하여 작업 흐름을 자동화하는 방법을 살펴보았습니다. 처음에 우리는 PDF 문서를 Google 스프레드시트로 변환해야 하는 필요성과 이 과정에서 직면한 어려움에 대해 배웠습니다. 그런 다음 PDF 문서를 구문 분석하기 위해 최신 파서가 취하는 접근 방식을 살펴보고 몇 가지 일반적인 접근 방식도 구현했습니다. 또한 웹후크 및 API와 같은 외부 통합을 사용하여 변환을 완전히 자동화하는 방법도 배웠습니다. 마지막으로 Nanonets 도구를 사용하여 샘플 송장을 구문 분석하고 데이터를 Google Sheets 양식으로 추출했으며 멋진 후처리 기능도 살펴보았습니다.

Nanonets 모델에 기회를 주었습니까? 그렇다면 도구 사용 경험에 대해 아래에 의견을 남겨주세요. 그렇지 않은 경우 계속 시도하십시오. 그것은 당신의 하루를 만들 수 있습니다!

타임 스탬프 :

더보기 AI 및 머신 러닝