Pengantar Google Cloud Vision

Diterbitkan Ulang Oleh Plato

Followers: 0

Pengantar

Optical Character Recognition (OCR), metode untuk mengubah teks tulisan tangan / cetak menjadi teks yang dikodekan mesin, selalu menjadi bidang utama penelitian dalam visi komputer karena banyaknya aplikasinya di berbagai domain - Bank menggunakan OCR untuk membandingkan pernyataan; Pemerintah menggunakan OCR untuk pengumpulan umpan balik survei.

Karena keragaman gaya tulisan tangan dan teks cetak, pendekatan terbaru OCR menggabungkan pembelajaran mendalam untuk mendapatkan akurasi yang lebih tinggi. Karena pembelajaran mendalam membutuhkan data dalam jumlah besar untuk pelatihan model, perusahaan seperti Google mengambil keunggulan dalam memberikan hasil yang menjanjikan dengan layanan OCR mereka.

Artikel ini membahas detail Google Cloud Vision OCR, termasuk tutorial sederhana dengan python, berbagai aplikasi, harga, dan alternatif lainnya.

Apa itu Google Cloud Vision?

Hasil Text_Annotation dari Google Cloud Vision OCR

Google Cloud Vision OCR adalah bagian dari Google cloud vision API untuk mengekstrak teks dari gambar. Secara khusus, ada dua anotasi untuk membantu pengenalan karakter:

Teks_Anotasi: Ini mengekstrak dan mengeluarkan teks yang dikodekan mesin dari gambar apa pun (misalnya, foto pemandangan jalan atau pemandangan). Karena pada awalnya dirancang untuk dapat digunakan dalam situasi pencahayaan yang berbeda, model ini dalam arti tertentu lebih kuat dalam membaca kata-kata dari gaya yang berbeda, tetapi hanya pada tingkat yang lebih jarang. File JSON yang dikembalikan menyertakan seluruh string serta setiap kata dan kotak pembatasnya yang sesuai.
Dokumen_Teks_Anotasi: Ini dirancang khusus untuk dokumen teks yang disajikan dengan padat (misalnya, buku yang dipindai). Jadi, meskipun mendukung membaca teks yang lebih kecil dan lebih terkonsentrasi, ia kurang dapat beradaptasi dengan gambar di alam liar. Informasi seperti paragraf, blok, dan jeda disertakan dalam file JSON keluaran.

Mencari solusi OCR yang mengatasi kekurangan Google Cloud Vision? Berikan Nanonets™ putaran untuk akurasi yang lebih tinggi, fleksibilitas yang lebih besar, dan jenis dokumen yang lebih luas!

Tutorial Sederhana

Bagian berikut memperkenalkan tutorial sederhana dalam memulai Google Vision API, terutama tentang cara menggunakannya untuk layanan Google Cloud Vision OCR.

Gambaran Sederhana

Ide di balik ini sangat intuitif dan sederhana.

1) Pada dasarnya Anda mengirim gambar (jarak jauh atau dari penyimpanan lokal Anda) ke Google Cloud Vision API.

2) Gambar diproses dari jarak jauh di Google Cloud dan menghasilkan format JSON yang sesuai sehubungan dengan fungsi yang Anda panggil.

3) File JSON dikembalikan sebagai output setelah fungsi dipanggil.

OCR Google Cloud Vision - Tutorial — Google Cloud Vision OCR - Tutorial

Menyiapkan Google Cloud Vision API

Untuk menggunakan layanan apa pun yang disediakan oleh Google Vision API, seseorang harus mengonfigurasi Google Cloud Console dan melakukan serangkaian langkah untuk autentikasi. Berikut ini adalah ikhtisar langkah demi langkah tentang cara menyiapkan seluruh layanan Vision API.

Buat Proyek di Google Cloud Console - Proyek perlu dibuat untuk mulai menggunakan layanan Vision apa pun. Proyek mengatur sumber daya seperti kolaborator, API, dan informasi harga.
Aktifkan Penagihan - Untuk mengaktifkan API vision, Anda harus mengaktifkan penagihan untuk proyek Anda terlebih dahulu. Detail harga akan dibahas di bagian selanjutnya.
Aktifkan Vision API
Buat Akun Layanan - Buat akun layanan dan tautkan ke proyek yang dibuat, lalu buat kunci akun layanan. Kuncinya akan dikeluarkan dan diunduh sebagai file JSON ke komputer Anda.
Siapkan Variabel Lingkungan GOOGLE_APPLICATION_CREDENTIALS: Untuk menyiapkan variabel lingkungan ini, jalankan di Mac / Linux atau Windows:
Blok kode untuk Mac / Linux
Blok kode untuk Windows

Prosedur yang lebih mendetail dari langkah-langkah yang disebutkan di atas dapat ditemukan dari dokumentasi resmi yang diberikan oleh Google Cloud dari sini:

https://cloud.google.com/vision/docs/quickstart-client-libraries

Fungsi OCR Google Vision Sederhana dengan Python

Google Cloud Vision API berfungsi dengan banyak bahasa populer, mulai dari Java, Node.js, Python, hingga bahasa Google sendiri, Go. Untuk kesederhanaan, kami memperkenalkan metode panggilan sederhana dengan Python.

def detect_text(path):    """Detects text in the file."""    from google.cloud import vision    import io    client = vision.ImageAnnotatorClient()    with io.open(path, 'rb') as image_file:        content = image_file.read()    image = vision.Image(content=content)    response = client.text_detection(image=image)    texts = response.text_annotations    print('Texts:')    for text in texts:        print('n"{}"'.format(text.description))        vertices = (['({},{})'.format(vertex.x, vertex.y)                    for vertex in text.bounding_poly.vertices])        print('bounds: {}'.format(','.join(vertices)))

Google Cloud Vision OCR - Metode Panggilan Python

Dengan kata lain, metode tersebut secara konsekuen memanggil fungsi tersebut teks_anotasi, lalu ekstrak respons lebih lanjut dan cetak informasinya. dokumen_teks_anotasi bisa juga dipanggil menggunakan cara yang sama untuk mengambil teks yang padat. Seseorang juga dapat mendeteksi gambar dari jarak jauh dengan mengatur gambar melalui:

image.source.image_uri = uri

dimana uri adalah uri gambar tersebut.

Rincian kode lebih lanjut dapat dilihat di sini:

https://cloud.google.com/vision

Tingkat Output yang Ditawarkan

Untuk membantu dalam analisis data teks lebih lanjut, dua fungsi Google OCR menyediakan berbagai tingkat keluaran bagi pengguna untuk digunakan: untuk teks_anotasi, baik keseluruhan string (jika dianggap oleh Google sebagai satu kalimat atau frase) dan kata-kata individual di dalamnya; untuk dokumen_teks_anotasi, karena model dioptimalkan untuk teks padat, halaman, blok, paragraf, kata, dan break semuanya ditawarkan sebagai bagian dari output.

Seberapa baik cara kerjanya?

Seberapa kuat modelnya?

Seperti disebutkan sebelumnya, Google menawarkan dua fungsi untuk OCR dalam dua situasi berbeda. Berikut ini penjelasan tentang kemampuan dua fungsi dalam mengambil jenis data yang berbeda.

Data yang Dicetak

Jenis data yang paling mudah untuk diinterpretasikan adalah data teks tercetak, yaitu teks tulisan komputer yang dicetak dan dipindai. OCR diperlukan ketika kami hanya memiliki salinan tercetak dari data ini, bukan teks asli yang dikodekan mesin. Karena sebagian besar teks ini padat dan dikemas dalam halaman, dokumen_teks_anotasi akan menjadi pilihan yang lebih baik.

Data tulisan tangan

Konten mungkin berisi teks tulisan tangan dan gaya data tulisan tangan dapat sangat bervariasi. Meski demikian, Google Vision OCR memberikan akurasi yang layak selama catatan tulisan tangan tidak terlalu berantakan. Bergantung pada bagaimana dikemas media dari data tulisan tangan disajikan, kami menggunakan salah satu dari dua fungsi berdasarkan kasus per kasus.

Data Rotated / In-The-Wild

Ketika gambar atau foto yang dipindai ditampilkan dalam sudut yang tidak ortodoks atau tidak selaras, kami menganggapnya sebagai data di alam liar. Teks berpotensi lebih sulit dideteksi sejak awal, dan karenanya kami biasanya menggunakan teks_anotasi fungsi yang dirancang untuk memproses data in-the-wild di tempat pertama. Berdasarkan beberapa eksperimen melewati teks vertikal dan rambu jalan yang ditangkap pada sudut yang berbeda, kami menunjukkan bahwa Google Vision OCR benar-benar bekerja dengan baik pada data dari berbagai lingkungan.

Mengapa OCR?

Banyak data yang kita miliki saat ini dalam format tidak terstruktur. Misalnya, jika ada gambar, dokumen yang dipindai, atau foto, sementara manusia dapat dengan cepat mengenali teks dan menafsirkan maknanya lebih jauh, semua data teks hanyalah piksel dengan warna, tidak memberikan arti yang sebenarnya bagi mesin.

OCR Google Cloud Vision — Mengapa Google Cloud Vision OCR?

Ketika perusahaan atau perusahaan besar berurusan dengan dokumen dalam jumlah besar, volume data yang besar tidak memungkinkan klasifikasi atau pemrosesan data apa pun dilakukan hanya dengan upaya manusia - ini adalah saat teks yang dikodekan oleh mesin menjadi berguna.

Setelah konversi OCR, informasi kemudian dapat dianalisis dengan beberapa metode berbeda tergantung pada sifat datanya:

Untuk data numerik, metode statistik dapat langsung diterapkan untuk menganalisis korelasi apa pun. Kami juga dapat mengadopsi metode pembelajaran mesin tradisional (misalnya, KNN, K-Means, Regresi Linier) atau pendekatan pembelajaran mendalam untuk membuat model prediktif untuk regresi dan / atau klasifikasi.
Untuk data teks, mungkin diperlukan lebih banyak tahapan pemrosesan. Proses menganalisis dan menginterpretasikan data teks menjadi statistik yang bermakna sering disebut sebagai natural language processing (NLP). Secara khusus, kami dapat mengekstrak angka atau bahkan semantik / atmosfer berdasarkan konten yang diberikan.

Semua analisis ini dapat memungkinkan perusahaan, terutama yang memiliki data baru dalam jumlah besar setiap hari, untuk membuat model yang kuat dan bahkan mengotomatiskan banyak proses dan menggantikan pendekatan padat karya tradisional dan penuh kesalahan. Bagian berikut menggali beberapa contoh rinci tentang bagaimana OCR dapat digunakan.

Contoh Kasus Penggunaan

Pembacaan Plat Nomor

Mungkin salah satu penggunaan OCR yang paling umum saat ini adalah aplikasi dalam pembacaan plat nomor. Di negara maju, tempat parkir sering kali disertai dengan model pembacaan plat nomor untuk menentukan waktu masuk, waktu keluar, dan bahkan lokasi parkir yang tepat per mobil. Beberapa tempat parkir bahkan terhubung ke jaringan pemerintah untuk membebankan biaya parkir langsung kepada keluarga - yang semuanya mengurangi upaya manusia yang berlebihan.

Model plat nomor OCR juga dapat diadopsi untuk mendeteksi pelanggaran lalu lintas, memudahkan polisi untuk memasukkan data mobil yang melanggar secara manual.

Kwitansi dan Pemindaian Faktur

Google Cloud Vision OCR - Tanda Terima dan Faktur

Proyeksi keuangan dan keseimbangan aset dan kewajiban perusahaan adalah aktivitas penting bagi perusahaan mana pun. Karena perusahaan besar melakukan pembelian dalam jumlah besar dari berbagai sektor sepanjang tahun, mereka diharuskan mengumpulkan dan memproses semua faktur dan tanda terima dengan cermat saat membuat laporan keuangan.

Dengan bantuan OCR, kami dapat membuat jalur pipa otomatis yang mengenali sejumlah format faktur dan mengubahnya menjadi angka. Upaya tenaga kerja hanya diperlukan untuk memeriksa, dan data dan angka terstruktur dapat memungkinkan perusahaan untuk dengan cepat menyeimbangkan arus masuk dan arus keluar, membuat proyeksi keuangan, serta mengawasi manipulasi keuangan perusahaan yang berbahaya.

Rekam Medis Kelistrikan

Data pasien sering tersebar di suatu wilayah, negara, atau bahkan lintas negara tergantung pada gaya hidup individu. Karena gaya klinik dan rumah sakit yang berbeda (rumah sakit besar mungkin telah mengatur database sementara dokter di klinik yang lebih kecil mungkin hanya menulis catatan dengan tangan), usia pasien (pasien yang lebih tua dapat dimasukkan ke dalam database tertentu sebelum renovasi dan penggabungan komputer), dan lokasi individu (orang mungkin pindah ke kota lain atau bahkan ke luar negeri), menyimpan medis universal mungkin sebenarnya sangat sulit.

Oleh karena itu, OCR yang terlatih menjadi berguna saat mentransfer EMR dari satu rumah sakit ke rumah sakit lain, atau mengubah data tulisan tangan menjadi teks mesin - keduanya dapat mempercepat proses pemahaman riwayat medis pasien dengan cara yang cepat dan ringkas.

Formulir dan Survei

Google Cloud Vision OCR - Formulir & Survei

Organisasi (baik pemerintah atau non-pemerintah) mungkin sering membutuhkan umpan balik dari pelanggan atau warga negara untuk memperbaiki rencana dan produk promosi mereka saat ini. Karena formulir biasanya ditulis dengan tangan, analisis statistik langsung akan berpotensi sulit dilakukan. Oleh karena itu, proses mengubah data tidak terstruktur dan survei tulisan tangan menjadi angka numerik untuk memfasilitasi penghitungan dapat dibantu dan dipercepat oleh OCR.

Harga Cloud Vision

Menurut Google situs web, baik teks_anotasi dan dokumen_teks_anotasi ditawarkan dengan tingkat harga yang sama sebagai berikut:

Untuk setiap bulan, 1000 unit pertama diberikan gratis, dengan 1000-5000000 dikenai biaya $ 1.5 per 1000 unit. Setelah mencapai angka 5000000, harga turun menjadi $ 0.6 per 1000 unit (Setiap gambar yang dikirim melalui Google Vision API dianggap sebagai satu unit).

Google Cloud Vision OCR - Penetapan Harga — Google Cloud Vision OCR - Harga (dari cloud.google.com)

Harga di atas menunjukkan bahwa layanan OCR relatif terjangkau baik untuk perusahaan kecil dengan penggunaan yang lebih jarang maupun perusahaan besar yang membutuhkan layanan lebih dari 5000000 kali per bulan.

Fitur Penting dari Google Cloud Vision OCR

Google OCR memiliki berbagai manfaat, berikut kami uraikan beberapa manfaat yang paling signifikan:

Kuat - Kedua fungsi tersebut, melayani dua jenis dokumen teks yang bergantung pada keputusan pengguna, membuat Google Vision OCR secara komparatif lebih kuat daripada mesin OCR model tunggal.
Dukungan bahasa - Dengan mungkin basis data bahasa terbesar, Google telah menyarankan bahwa OCR-nya dapat diterapkan ke lebih dari 60 bahasa, bereksperimen pada beberapa lusin bahasa lainnya, dan memetakan banyak bahasa lainnya ke kode bahasa lain atau pengenal bahasa umum.
Kemudahan penggunaan - Model itu sendiri adalah bagian dari pustaka Google Vision bawaan. Setelah proses konfigurasi kunci API yang sedikit lebih menjengkelkan (yang dibutuhkan oleh hampir semua mesin OCR), metode pemanggilan fungsi dapat digunakan dalam banyak bahasa dengan cara yang sangat mudah.
Skalabilitas - Strategi penetapan harga Google mendorong pengguna untuk meningkatkan penggunaan API, karena lebih banyak penggunaan akan menghasilkan harga rata-rata yang lebih murah.
Kecepatan - Platform penyimpanan Google Cloud secara luar biasa menyertai penggunaan API. Dengan mengunggah gambar ke dalam drive, waktu respons API bisa sangat cepat dan dapat diskalakan.

Google Vision OCR telah menjadi salah satu perangkat lunak pengenal karakter yang kuat di industri

Alternatif

Berikut adalah beberapa layanan OCR alternatif selain Google Vision API, beserta kelebihan dan kekurangan masing-masing layanan.

ABBYY

ABBYY FineReader PDF adalah OCR yang dikembangkan oleh ABBYY, yang secara khusus berfokus pada membaca pdf.

Pro: ABBYY jauh lebih ramah biaya untuk pengguna individu karena penetapan harga tersegmentasi ke dalam sektor-sektor yang lebih kecil (1000, 2000 halaman, dll.). Ini juga ditujukan untuk pelanggan non-teknik karena ini adalah aplikasi yang dikomersialkan.
Cons: Perangkat lunak ini hanya berfokus pada format PDF, dan harganya menjadi sangat mahal saat melakukan OCR skala besar.
Kapan harus menggunakan: Untuk pengguna individu yang hanya ingin menangani PDF dengan cepat, ABBYY mungkin merupakan opsi yang lebih layak daripada Google Vision API yang memberikan lebih banyak fleksibilitas tetapi memerlukan kode tambahan.

Microsoft

Microsoft Azure juga menawarkan Read API untuk OCR.

Pro: Microsoft memberikan harga yang lebih murah untuk lebih banyak data yang akan digunakan. Penyimpanan cloud Azure menawarkan layanan serupa dengan Google Cloud.
Cons: Tidak ada tingkat gratis, sedangkan opsi lain menyediakan panggilan API gratis untuk penggunaan rendah.
Kapan harus menggunakan: Pipa produksi OCR berskala sangat besar dapat memanfaatkan harga Microsoft.

cofax

Mirip dengan ABBYY, Kofax juga menawarkan pembacaan PDF OCR

Pro: Harga ditetapkan untuk penggunaan individu, dan diskon ditawarkan untuk perusahaan. Dukungan pelanggan 24/7 juga disediakan.
Cons: Kualitasnya diklaim tidak setinggi ABBYY.
Kapan harus menggunakan: Perusahaan kecil dengan persyaratan penggunaan rendah.

AWS Textract memiliki peran yang sangat mirip dibandingkan dengan Google Vision API. Layanan dan harga mereka sangat mirip, dan mana yang akan diadopsi sepenuhnya berdasarkan preferensi pelanggan.

Nanonet

Tidak seperti layanan yang telah dibahas sebelumnya, OCR Nanonets dikategorikan lebih lanjut ke dalam kategori tertentu, dengan model tangguh yang dilatih pada setiap jenis data (misalnya, tanda terima, faktur, surat izin mengemudi).

Pro: OCR khusus kategori, sehingga memberikan hasil yang lebih baik dalam hal akurasi ketika perusahaan memerlukan OCR untuk aplikasi khusus target.
Cons: Nanonets OCR mungkin kurang berlaku untuk pengaturan di alam liar karena model yang sangat spesifik dan disesuaikan
Kapan harus menggunakan: Jika perusahaan memerlukan OCR untuk jenis data tertentu seperti faktur, Nanonets mungkin merupakan pilihan yang ramah biaya dan sangat akurat.

Masalah Umum terkait Cloud Vision

Pada bagian terakhir ini, kami bertujuan untuk menjawab beberapa pertanyaan dari Stackoverflow tentang pemindaian dokumen dan OCR

Mengenali dokumen menggunakan jaringan saraf

link: https://stackoverflow.com/questions/63844251/how-to-detect-and-recognize-information-on-documents-using-neural-networks/63844363#63844363

Ini adalah penggunaan yang tepat dari Google OCR! Ikuti langkah-langkah di atas untuk memindai dokumen dan melakukan pengambilan teks.

Meraih Detail Paling Penting setelah OCR

link: https://stackoverflow.com/questions/64621684/how-to-parse-name-phone-number-email-from-name-card-after-using-google-cloud-vi

Ide untuk mengurai konten yang paling berarti di dalam dokumen apa pun disebut pemrosesan bahasa alami. Karena setiap dokumen berisi informasi semacam itu dalam format yang berbeda, sebaiknya gunakan beberapa pendekatan ML untuk melakukannya. Tentu saja, jika semua kartu dalam format yang sama, metode berbasis aturan untuk mengambil teks dengan karakter kunci tertentu (misalnya, jika berisi @ itu adalah email) harus bekerja juga.

Bisakah itu berjalan offline?

link: https://stackoverflow.com/questions/63315520/google-cloud-vision-api-can-it-run-offline

Sayangnya tidak ada. API memanggil Google Cloud OCR dari jarak jauh, dan Anda tidak dapat bekerja secara offline karena API memerlukan biaya.

Bisakah itu mendeteksi jika teks dicetak tebal atau miring?

link: https://stackoverflow.com/questions/62947592/does-google-cloud-vision-api-detect-formatting-in-ocred-text-like-bold-italics/63098644#63098644

Tidak. Google OCR kemungkinan besar akan mendeteksi konten teks meskipun dicetak tebal atau miring, tetapi model OCR tidak dirancang untuk memahami jenis font.

Mulai gunakan Nanonet untuk Otomatisasi

Coba modelnya atau minta demo hari ini!

COBA SEKARANG

Sumber: https://nanonets.com/blog/google-cloud-vision/

Stempel Waktu: 16 April, 2021

Stempel Waktu: Mar 8, 2021