คู่มือที่ครอบคลุมเกี่ยวกับ OCR ด้วย RPA และความเข้าใจในเอกสาร

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ปรับปรุงล่าสุด: ม.ค. 2021

บล็อกนี้เป็นภาพรวมที่ครอบคลุมของการใช้ OCR กับเครื่องมือ RPA ใดๆ เพื่อทำให้เวิร์กโฟลว์เอกสารของคุณเป็นแบบอัตโนมัติ เราสำรวจว่าเทคโนโลยี OCR ที่ใช้การเรียนรู้ของเครื่องล่าสุดนั้นไม่ต้องการกฎหรือการตั้งค่าเทมเพลตได้อย่างไร

RPAs หรือ Robotic Process Automation เป็นเครื่องมือซอฟต์แวร์ที่มุ่งกำจัดงานทางธุรกิจที่ซ้ำซากจำเจ CIO จำนวนมากขึ้นหันไปหาพวกเขาเพื่อลดต้นทุนและช่วยให้พนักงานมีสมาธิกับงานธุรกิจที่มีมูลค่าสูงขึ้น ตัวอย่างรวมถึงการตอบกลับความคิดเห็นบนเว็บไซต์หรือการประมวลผลคำสั่งซื้อของลูกค้า งานที่ซับซ้อนขึ้นเล็กน้อยรวมถึงการจัดการเอกสารเช่น แบบฟอร์มที่เขียนด้วยลายมือ และ ใบแจ้งหนี้ – โดยทั่วไปจะต้องย้ายจากระบบเดิมหนึ่งไปยังอีกระบบหนึ่ง – สมมติว่าไคลเอนต์อีเมลของคุณไปยังระบบ SAP ERP ที่คุณต้องการดึงข้อมูล นี่คือส่วนที่เป็นปัญหา

เครื่องมือ OCR ส่วนใหญ่ที่เก็บข้อมูลจากเอกสารเหล่านี้เป็นเทมเพลต (พูด ABBYY Flexicapture) และปรับขนาดได้ไม่ดีในเอกสารกึ่งโครงสร้าง มีโซลูชันที่ใช้การเรียนรู้ของเครื่องรุ่นใหม่กว่าซึ่งโดยทั่วไปจะมี API
การผสานรวมที่สามารถดักจับคู่คีย์-ค่าจากเอกสาร – โดยทั่วไปแล้วระบบขององค์กรจะเป็นแบบเดิมและไม่เปิดให้รวมเข้ากับ API ภายนอก ในอีกด้านหนึ่ง RPA ถูกสร้างขึ้นเพื่อจัดการกับเวิร์กโฟลว์ของระบบเดิมเหล่านี้ เช่น การนำเข้าเอกสารจากโฟลเดอร์และการป้อนผลลัพธ์ลงใน ERP หรือ CRM

เนื่องจาก Robotic Process Automation (RPA) และ ML กำลังพัฒนาไปสู่การทำงานอัตโนมัติแบบไฮเปอร์ เราจึงสามารถใช้ซอฟต์แวร์บอทร่วมกับ ML เพื่อจัดการกับงานที่ซับซ้อน เช่น การจัดประเภทเอกสาร การดึงข้อมูล และการรู้จำอักขระด้วยแสง ในการศึกษาเมื่อเร็วๆ นี้ ว่ากันว่าด้วยการทำงานอัตโนมัติเพียง 29% ของฟังก์ชันสำหรับงานที่ใช้ RPA แผนกการเงินเพียงอย่างเดียวสามารถประหยัดเวลาในการทำงานซ้ำได้มากกว่า 25,000 ชั่วโมงที่เกิดจากความผิดพลาดของมนุษย์ โดยมีค่าใช้จ่าย 878,000 ดอลลาร์ต่อปีสำหรับองค์กรที่มี 40 พนักงานบัญชีเวลา [1]. ในบล็อกนี้ เราจะเรียนรู้เกี่ยวกับการใช้ OCR กับ RPA และเจาะลึกขั้นตอนการทำงานเพื่อทำความเข้าใจเอกสาร ด้านล่างเป็นสารบัญ

คำจำกัดความและภาพรวม

โดยทั่วไป RPA เป็นเทคโนโลยีที่ช่วยให้งานการดูแลระบบอัตโนมัติผ่านบอทซอฟต์แวร์-ฮาร์ดแวร์ บอทเหล่านี้ใช้ประโยชน์จากอินเทอร์เฟซผู้ใช้ เพื่อเก็บข้อมูลและจัดการแอปพลิเคชันเหมือนที่มนุษย์ทำ ตัวอย่างเช่น RPA สามารถดูชุดของงานที่ดำเนินการใน GUI เช่น เลื่อนเคอร์เซอร์ เชื่อมต่อกับ API คัดลอกและวางข้อมูล และกำหนดลำดับการดำเนินการเดียวกันในโครงร่าง RPA ที่แปลเป็นโค้ด นอกจากนี้ งานเหล่านี้สามารถทำได้โดยปราศจากการแทรกแซงของมนุษย์ในอนาคต การรู้จำอักขระด้วยแสง (OCR) เป็นคุณลักษณะที่สำคัญของโซลูชันการทำงานอัตโนมัติของกระบวนการหุ่นยนต์ (RPA) ที่ใช้งานได้ เทคโนโลยีนี้ใช้ในการอ่านและดึงข้อความจากแหล่งต่างๆ เช่น รูปภาพหรือ ไฟล์ PDF ในรูปแบบดิจิทัลโดยไม่ต้องจับภาพด้วยตนเอง

ในทางกลับกัน ความเข้าใจในเอกสารเป็นคำที่ใช้อธิบายการอ่าน ตีความ และดำเนินการกับข้อมูลเอกสารโดยอัตโนมัติ สิ่งสำคัญที่สุดในกระบวนการนี้คือซอฟต์แวร์บอททำหน้าที่ทั้งหมด บอทเหล่านี้ใช้ประโยชน์จากพลังของปัญญาประดิษฐ์และการเรียนรู้ของเครื่องเพื่อทำความเข้าใจเอกสารในฐานะผู้ช่วยดิจิทัล ด้วยวิธีนี้ เราสามารถพูดได้ว่าความเข้าใจในเอกสารเกิดขึ้นที่จุดตัดของการประมวลผลเอกสาร, AI และ RPA

ความเข้าใจในเอกสารเกิดขึ้นที่จุดตัดของการประมวลผลเอกสาร, AI และ RPA [ที่มาของภาพ: การทำความเข้าใจเอกสารเส้นทาง Ui [2] ]

หุ่นยนต์สามารถเรียนรู้ที่จะเข้าใจเอกสารด้วย OCR และ ML . ได้อย่างไร

ก่อนที่เราจะลงลึกใน Document Understanding อันดับแรก เรามาพูดถึงบทบาทของ Robots สำหรับการทำความเข้าใจเอกสารกันก่อน ผู้ช่วยที่มองไม่เห็นอย่างเต็มที่เหล่านี้ทำให้ชีวิตของเราสะดวกสบายมากขึ้น หุ่นยนต์เหล่านี้ไม่ใช่อุปกรณ์ทางกายภาพหรือโปรแกรมปัญญาประดิษฐ์ซึ่งแตกต่างจากภาพยนตร์และซีรีส์ซึ่งนั่งอยู่ที่เดสก์ท็อปและกดปุ่มเพื่อทำงาน เราคิดว่าสิ่งเหล่านี้เป็นผู้ช่วยดิจิทัลที่ได้รับการฝึกอบรมให้ประมวลผลเอกสารโดยการอ่านและการใช้แอปพลิเคชันเช่นเดียวกับที่เราทำ ในด้านการทำงาน หุ่นยนต์สามารถปรับปรุงประสิทธิภาพและประสิทธิภาพของกระบวนการได้ดี ยังคงเป็นซอฟต์แวร์แบบสแตนด์อโลนไม่สามารถประเมินกระบวนการและตัดสินใจเกี่ยวกับความรู้ความเข้าใจได้ อย่างไรก็ตาม หากแมชชีนเลิร์นนิงประสบความสำเร็จในการบูรณาการ วิทยาการหุ่นยนต์จะมีพลวัตและปรับตัวได้มากขึ้น ตัวอย่างเช่น หุ่นยนต์ที่ใช้ในการประมวลผลเอกสาร การจัดการข้อมูล และฟังก์ชันอื่นๆ ทั่วทั้งสำนักงานส่วนหน้าและส่วนกลางจะดำเนินการอย่างชาญฉลาดมากขึ้น เช่น กำจัดรายการที่ซ้ำกันหรือแก้ไขข้อยกเว้นของระบบที่ไม่รู้จักในกระบวนการ นอกจากนี้ หุ่นยนต์ยังได้รับการฝึกอบรมให้อ่าน ดึงข้อมูล ตีความ และดำเนินการกับข้อมูลจากเอกสารโดยใช้ปัญญาประดิษฐ์ (AI)

บริษัทต่างๆ จะผสานรวม OCR อัจฉริยะกับ RPA เพื่อปรับปรุงเวิร์กโฟลว์ได้อย่างไร

การดึงข้อมูลเอกสารเป็นองค์ประกอบสำคัญสำหรับการทำความเข้าใจเอกสาร ในส่วนนี้ เราจะพูดถึงวิธีที่เราสามารถรวม OCR กับ RPA หรือในทางกลับกัน ประการแรก เราทุกคนทราบดีว่ามีเอกสารประเภทต่างๆ ในแง่ของเทมเพลต สไตล์ การจัดรูปแบบ และบางครั้งภาษา ดังนั้นเราจึงไม่สามารถพึ่งพาเทคนิค OCR ง่ายๆ ในการดึงข้อมูลจากเอกสารเหล่านี้ได้ เพื่อแก้ไขปัญหานี้ เราจะใช้ทั้งแนวทางตามกฎและแนวทางตามแบบจำลองภายใน OCR เพื่อจัดการข้อมูลจากโครงสร้างเอกสารต่างๆ ตอนนี้เราจะมาดูกันว่าบริษัทต่างๆ ที่ทำ OCR สามารถรวม RPA เข้ากับระบบที่มีอยู่ได้อย่างไร โดยพิจารณาจากประเภทของเอกสาร

เอกสารที่มีโครงสร้าง: ในเอกสารประเภทนี้ เลย์เอาต์และเทมเพลตมักจะได้รับการแก้ไขและเกือบจะสอดคล้องกัน ตัวอย่างเช่น พิจารณาองค์กรที่ดำเนินการ KYC ด้วยบัตรประจำตัวที่ออกโดยหน่วยงานราชการ เช่น หนังสือเดินทางหรือใบขับขี่ เอกสารทั้งหมดเหล่านี้จะเหมือนกันและมีฟิลด์เดียวกับหมายเลขประจำตัวประชาชน ชื่อบุคคล อายุ และอื่นๆ อีกสองสามรายการในตำแหน่งเดียวกัน แต่รายละเอียดแตกต่างกันเท่านั้น อาจมีข้อจำกัดบางประการ เช่น ข้อมูลล้นตารางหรือข้อมูลที่ไม่ได้จัดเก็บ

โดยปกติ แนวทางที่แนะนำจะใช้เทมเพลตหรือกลไกที่อิงตามกฎเพื่อดึงข้อมูลสำหรับเอกสารที่มีโครงสร้าง ซึ่งอาจรวมถึงนิพจน์ทั่วไปหรือการแมปตำแหน่งอย่างง่าย และ OCR ดังนั้นในการผสานรวมซอฟต์แวร์โรบ็อตเพื่อทำให้การดึงข้อมูลเป็นอัตโนมัติ เราจึงสามารถใช้เทมเพลตที่มีอยู่แล้วหรือสร้างกฎสำหรับข้อมูลที่มีโครงสร้างของเราก็ได้ มีข้อเสียอยู่อย่างหนึ่งเมื่อใช้แนวทางตามกฎ เนื่องจากต้องอาศัยชิ้นส่วนที่ตายตัว แม้แต่การเปลี่ยนแปลงเล็กน้อยในโครงสร้างแบบฟอร์มก็อาจทำให้กฎพังได้

เอกสารกึ่งโครงสร้าง: เอกสารเหล่านี้มีข้อมูลเหมือนกันแต่จัดเรียงในตำแหน่งที่แตกต่างกัน ตัวอย่างเช่น พิจารณา ใบแจ้งหนี้ มี 8-12 ช่องที่เหมือนกัน ในอีกไม่กี่อึดใจ ใบแจ้งหนี้ที่อยู่ของผู้ขายจะอยู่ที่ด้านบน และที่อยู่อื่นๆ จะอยู่ที่ด้านล่าง โดยปกติวิธีการที่อิงตามกฎเหล่านี้ไม่ได้ให้ความแม่นยำสูง ดังนั้นเราจึงนำโมเดลการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกมาไว้ในภาพเพื่อดึงข้อมูลโดยใช้ OCR หรือในบางกรณี เราสามารถใช้โมเดลไฮบริดที่เกี่ยวข้องกับทั้งกฎและโมเดล ML โมเดลพรีเทรนนิ่งยอดนิยมบางรุ่น ได้แก่ FastRCNN, Attention OCR, Graph Convolutions สำหรับการดึงข้อมูลในเอกสาร อย่างไรก็ตาม โมเดลเหล่านี้มีข้อบกพร่องเล็กน้อย ดังนั้นเราจึงวัดประสิทธิภาพของอัลกอริธึมโดยใช้เมตริก เช่น ความแม่นยำหรือคะแนนความมั่นใจ เนื่องจากโมเดลคือรูปแบบการเรียนรู้ แทนที่จะใช้กฎที่เป็นรูปธรรม อาจทำให้ผิดพลาดได้ในตอนแรกหลังจากการแก้ไข อย่างไรก็ตาม วิธีแก้ปัญหาสำหรับข้อเสียเหล่านี้ - ยิ่งโมเดล ML ประมวลผลตัวอย่างมากเท่าไร ก็ยิ่งเรียนรู้รูปแบบมากขึ้นเท่านั้นเพื่อรับรองความถูกต้อง

เอกสารที่ไม่มีโครงสร้าง: RPA ในปัจจุบันไม่สามารถจัดการข้อมูลที่ไม่มีโครงสร้างได้โดยตรง จึงต้องให้หุ่นยนต์แยกและสร้างข้อมูลที่มีโครงสร้างโดยใช้ OCR ก่อน ข้อมูลที่ไม่มีโครงสร้างไม่มีคู่คีย์-ค่าสองสามคู่ ต่างจากเอกสารที่มีโครงสร้างและกึ่งโครงสร้าง ตัวอย่างเช่นในไม่กี่ ใบแจ้งหนี้เราเห็นที่อยู่ของผู้ขายที่ไหนสักแห่งที่ไม่มีชื่อคีย์ ในทำนองเดียวกัน เราสังเกตเช่นเดียวกันสำหรับฟิลด์อื่นๆ เช่น วันที่ รหัสใบแจ้งหนี้ เพื่อให้โมเดล ML ประมวลผลได้อย่างถูกต้อง หุ่นยนต์จำเป็นต้องเรียนรู้วิธีแปลข้อความที่เขียนเป็นข้อมูลที่สามารถดำเนินการได้ เช่น อีเมล หมายเลขโทรศัพท์ ที่อยู่ ฯลฯ จากนั้นโมเดลจะเรียนรู้ว่าควรแยกรูปแบบตัวเลข 7 หรือ 10 หลัก เป็นหมายเลขโทรศัพท์และข้อความขนาดใหญ่ที่มีรหัสห้าหลักและคำนามต่างกันเป็นข้อความ เพื่อทำให้โมเดลเหล่านี้แม่นยำยิ่งขึ้น เรายังสามารถใช้เทคนิคจาก Natural Language Processing (NLP) เช่น Named Entity Recognition และ Word Embedding

โดยรวมแล้วเพื่อความเข้าใจในเอกสาร จำเป็นอย่างยิ่งที่จะต้องเข้าใจข้อมูลก่อนแล้วจึงนำ OCR ไปใช้กับ RPA ต่อไป แทนที่จะทำแผนที่กระบวนการทีละขั้นตอน เราสามารถสอนหุ่นยนต์ให้ "ทำตามที่ฉันทำ" โดยการบันทึกกระบวนการที่เกิดขึ้นด้วยความสามารถ OCR อันทรงพลังตามที่กล่าวไว้ข้างต้น โดยการผสานรวมกฎและอัลกอริทึมการเรียนรู้ของเครื่อง หุ่นยนต์ซอฟต์แวร์จะติดตามการคลิกและการกระทำของคุณบนหน้าจอ แล้วเปลี่ยนให้เป็นเวิร์กโฟลว์ที่แก้ไขได้ หากคุณกำลังทำงานในโปรแกรมท้องถิ่นทั้งหมด นั่นก็เพียงพอแล้วที่คุณจำเป็นต้องรู้

ความท้าทาย OCR ที่นักพัฒนา RPA เผชิญ

เราได้เห็นแล้วว่าเราสามารถรวม OCRR กับ RPA สำหรับเอกสารต่างๆ ได้อย่างไร แต่มีบางกรณีของความท้าทายที่หุ่นยนต์จำเป็นต้องจัดการอย่างดี มาพูดคุยกันตอนนี้เลย!

ข้อมูลที่อ่อนแอหรือไม่สอดคล้องกัน: ข้อมูลมีบทบาทสำคัญในการทำความเข้าใจเอกสาร ในกรณีส่วนใหญ่ เอกสารจะถูกสแกนโดยใช้กล้องซึ่งมีโอกาสสูญเสียรูปแบบเอกสารระหว่างการสแกนข้อความ (เช่น ตัวหนา ตัวเอียง & ขีดเส้นใต้ไม่เป็นที่รู้จักเสมอไป) บางครั้ง OCR อาจดึงข้อความในทางที่ผิดซึ่งนำไปสู่ข้อผิดพลาดในการสะกดคำ การแบ่งย่อหน้าไม่สม่ำเสมอ ซึ่งลดประสิทธิภาพโดยรวมของโรบ็อต ดังนั้นการจัดการค่าที่หายไปทั้งหมดและการเก็บข้อมูลด้วยความแม่นยำสูงขึ้นจึงมีความสำคัญต่อการบรรลุความแม่นยำที่สูงขึ้นสำหรับ OCR
การวางแนวหน้าไม่ถูกต้องในเอกสาร: การวางแนวหน้าและความเบ้เป็นหนึ่งในปัญหาทั่วไปที่นำไปสู่การแก้ไขข้อความ OCR ที่ไม่ถูกต้อง ซึ่งมักเกิดขึ้นเมื่อสแกนเอกสารอย่างไม่ถูกต้องระหว่างขั้นตอนการรวบรวมข้อมูล เพื่อแก้ปัญหานี้ เราจะต้องประกาศฟังก์ชันสองสามอย่างให้กับโรบ็อต เช่น ปรับให้พอดีกับหน้าอัตโนมัติ กรองอัตโนมัติ เพื่อให้สามารถเพิ่มคุณภาพของเอกสารที่สแกนและรับข้อมูลที่ถูกต้องจากผลลัพธ์
ปัญหาการรวม: ไม่ใช่เครื่องมือ RPA ทั้งหมดที่จะทำงานได้ดีในสภาพแวดล้อมเดสก์ท็อประยะไกล – เครื่องมือเหล่านี้ทำให้เกิดการขัดข้องและปัญหาร้ายแรงในระบบอัตโนมัติ ยิ่งไปกว่านั้น นักพัฒนา RPA จำเป็นต้องรู้ว่าโซลูชัน OCR ใดจะดีที่สุดสำหรับกรณีเฉพาะ นอกจากนี้ ในการทำงานร่วมกับเครื่องมืออัตโนมัติที่เฉพาะเจาะจง นักพัฒนา RPA จำเป็นต้องเลือกเฉพาะเทคโนโลยี OCR ที่จำกัดซึ่งสร้างโดย Microsoft, Google ดังนั้นการบูรณาการอัลกอริธึมและโมเดลที่กำหนดเองจึงเป็นสิ่งที่ท้าทายในบางครั้ง
ข้อความทั้งหมดเป็นข้อความที่มีสัญญาณรบกวน: สำหรับกรณีการใช้งานจริง ข้อความที่จับโดย OCR ทั่วไปจะถูกรบกวนทั้งหมดและไม่มีข้อมูลที่มีความหมายที่บอทสามารถใช้เพื่อดำเนินการที่สำคัญได้ นักพัฒนา RPA ต้องการการสนับสนุน ML ที่แข็งแกร่งจึงจะสามารถสร้างแอปพลิเคชันที่มีประโยชน์ได้

ไปป์ไลน์สำหรับเวิร์กโฟลว์การทำความเข้าใจเอกสาร

ในส่วนก่อนหน้านี้ เราได้เห็นว่าบอทช่วยดำเนินการ OCR สำหรับเอกสารประเภทต่างๆ ได้อย่างไร แต่ OCR เป็นเพียงเทคนิคที่แปลงรูปภาพหรือไฟล์อื่นๆ ให้เป็นข้อความ ตอนนี้ ในส่วนนี้ เราจะดูเวิร์กโฟลว์การทำความเข้าใจเอกสารตั้งแต่เริ่มต้นการรวบรวมเอกสาร จนถึงการบันทึกข้อมูลที่มีความหมายลงในรูปแบบที่ต้องการในที่สุด

นำเข้าเอกสารจากโฟลเดอร์โดยใช้บอทของคุณ: นี่เป็นขั้นตอนแรกในการบรรลุความเข้าใจในเอกสารผ่านบอท ที่นี่ เราจะดึงเอกสารที่อยู่บนแพลตฟอร์มคลาวด์ (โดยใช้ API) หรือจากเครื่องในเครื่อง ในบางกรณี หากเอกสารของเราอยู่บนหน้าเว็บ เราสามารถทำให้สคริปต์การดึงข้อมูลอัตโนมัติผ่านบอทซึ่งพวกเขาสามารถดึงเอกสารได้ทันท่วงที
ประเภทเอกสาร: หลังจากที่เราดึงข้อมูลแล้ว จำเป็นต้องเข้าใจประเภทของเอกสารและรูปแบบที่บันทึกในระบบของเรา เนื่องจากบางครั้ง เราได้รับข้อมูลจากแหล่งต่างๆ ในรูปแบบไฟล์ต่างๆ เช่น รูปแบบไฟล์ PDF, PNG และ JPG ไม่เพียงแค่ประเภทไฟล์เท่านั้น บางครั้งเมื่อสแกนเอกสารด้วยกล้องโทรศัพท์ ปัญหาที่ท้าทายบางอย่าง เช่น ความเบี้ยวของภาพ การหมุน ความสว่าง หรือความละเอียดต่ำก็ควรได้รับการจัดการด้วย ด้วยเหตุนี้ เราจะต้องตรวจสอบให้แน่ใจว่าบอทจัดประเภทเอกสารเหล่านี้เป็นหมวดหมู่แบบมีโครงสร้าง กึ่งมีโครงสร้าง หรือไม่มีโครงสร้าง ดังนั้นให้บันทึกในรูปแบบทั่วไป งานการจัดประเภททำได้โดยการเปรียบเทียบเอกสารกับเทมเพลตและคุณสมบัติการวิเคราะห์ เช่น ฟอนต์ ภาษา การมีอยู่ของคู่คีย์-ค่า ตาราง ฯลฯ
การดึงข้อมูลด้วย OCR: เอาล่ะ เมื่อบอทจัดเรียงเอกสารของเราให้อยู่ในรูปแบบทั่วไปและจัดประเภทแล้ว ก็ถึงเวลาที่เราจะแปลงเอกสารให้เป็นดิจิทัลโดยใช้เทคนิค OCR ด้วยสิ่งนี้ เราจะมีข้อความ ตำแหน่งของมันในพิกัดจากรูปภาพ ซึ่งจะช่วยกำหนดมาตรฐานเอกสารและข้อมูลสำหรับขั้นตอนต่อไป นอกจากนี้เรายังพบว่าซอฟต์แวร์ OCR ไม่สามารถแยกแยะระหว่างอักขระได้อย่างถูกต้อง เช่น 't' กับ 'i' หรือ '0' กับ 'O' ข้อผิดพลาดที่คุณต้องการหลีกเลี่ยงโดยใช้ซอฟต์แวร์ OCR อาจกลายเป็นเรื่องใหม่ที่น่าปวดหัวเมื่อเทคโนโลยี OCR ไม่สามารถวิเคราะห์ความแตกต่างของเอกสารตามคุณภาพหรือรูปแบบเดิมได้ นี่คือที่มาของ Machine Learning ซึ่งเราจะพูดถึงในขั้นตอนต่อไป
ใช้ประโยชน์จาก ML/DL สำหรับ OCR อัจฉริยะโดยใช้บอท: หลังจากที่ข้อมูลถูกแปลงเป็นดิจิทัลแล้ว ซอฟต์แวร์ OCR ควรเข้าใจประเภทของเอกสารที่ใช้และสิ่งที่เกี่ยวข้อง แต่ซอฟต์แวร์ OCR แบบเดิมอาจมีปัญหาในการปรับขนาดเอกสาร ดังนั้นซอฟต์แวร์บอทควรได้รับการฝึกฝนด้วยความสามารถทางปัญญาโดยใช้ประโยชน์จากการเรียนรู้ของเครื่องและเทคนิคการเรียนรู้เชิงลึกเพื่อทำให้ OCR มีความชาญฉลาดมากขึ้น โซลูชัน OCR ที่ใช้ ML สามารถระบุประเภทเอกสารและจับคู่กับประเภทเอกสารที่รู้จักซึ่งธุรกิจของคุณใช้ พวกเขายังสามารถแยกวิเคราะห์และทำความเข้าใจกลุ่มข้อความในเอกสารที่ไม่มีโครงสร้าง เมื่อโซลูชันทราบข้อมูลเพิ่มเติมเกี่ยวกับตัวเอกสารแล้ว ก็สามารถเริ่มดึงข้อมูลที่เกี่ยวข้องตามเจตนาและความหมายได้
การแยกและจำแนกข้อมูลที่ดีขึ้น: การดึงข้อมูลเป็นแกนหลักของการทำความเข้าใจเอกสาร ตามที่กล่าวไว้ในหัวข้อก่อนหน้านี้เกี่ยวกับการบูรณาการ RPA กับ OCR ในขั้นตอนนี้ ให้เลือกเทคนิคการดึงข้อมูลตามประเภทของเอกสาร ผ่าน RPA เราสามารถกำหนดค่าตัวแยกข้อมูลที่จะใช้ได้อย่างง่ายดาย ไม่ว่าจะเป็นเทคนิค OCR แบบอิงตามกฎหรือแบบ ML หรือแบบไฮบริด ตามตัวชี้วัดความเชื่อมั่นและประสิทธิภาพที่ส่งคืนหลังจากการดึงข้อมูล หุ่นยนต์ซอฟต์แวร์จะบันทึกในรูปแบบที่ต้องการสำหรับการวิเคราะห์เพิ่มเติม ด้านล่างนี้คือรูปภาพของวิธีที่เราสามารถกำหนดค่าตัวแยกและตั้งค่าระดับความมั่นใจในเครื่องมือ RPA โดย UIPath

*การเลือก Extractors ที่จำเป็นสำหรับการทำความเข้าใจเอกสารใน UI Path*

6. การตรวจสอบและเสริมพลังข้อมูลเชิงลึก: โมเดล OCR และ Machine Learning นั้นไม่ถูกต้องร้อยเปอร์เซ็นต์ในแง่ของการดึงข้อมูล ดังนั้นการเพิ่มชั้นของการแทรกแซงของมนุษย์ด้วยความช่วยเหลือของหุ่นยนต์สามารถแก้ปัญหาได้ วิธีตรวจสอบความถูกต้องนี้คือเมื่อใดก็ตามที่หุ่นยนต์จัดการกับความแม่นยำและข้อยกเว้นต่ำ หุ่นยนต์จะส่งการแจ้งเตือนไปยังศูนย์ปฏิบัติการทันที ซึ่งพนักงานสามารถรับคำขอให้ตรวจสอบข้อมูลหรือจัดการข้อยกเว้น และสามารถแก้ไขความไม่แน่นอนต่างๆ ได้ด้วยการคลิก นอกจากนี้ เราสามารถปลดล็อกศักยภาพของปัญญาประดิษฐ์ในการบันทึกข้อมูลในช่วงเวลาหนึ่งเพื่อคาดการณ์ และระบุความผิดปกติที่อาจบ่งบอกถึงการฉ้อโกง การทำซ้ำ และข้อผิดพลาดอื่นๆ

ประโยชน์ของการรวมหุ่นยนต์เข้ากับการทำความเข้าใจเอกสาร

กระบวนการอัตโนมัติ: เหตุผลหลักในการรวมบอทเพื่อความเข้าใจในเอกสารคือทำให้กระบวนการทั้งหมดเป็นไปโดยอัตโนมัติตั้งแต่ต้นจนจบ สิ่งที่เราต้องทำคือสร้างเวิร์กโฟลว์สำหรับบอทเพื่อเรียนรู้ นั่งลง และผ่อนคลาย ในระหว่างกระบวนการตรวจสอบ เราอาจต้องแก้ไขปัญหาที่ได้รับแจ้งจากบอทเมื่อมีการระบุข้อผิดพลาดหรือการฉ้อโกง
บอทพร้อมการเรียนรู้ของเครื่อง: ในระหว่างกระบวนการอัตโนมัติ เราสามารถทำให้บอทมีความยืดหยุ่นต่อการเรียนรู้ของเครื่อง หมายความว่าหุ่นยนต์ยังสามารถเรียนรู้ว่าโมเดล Machine Learning ทำงานอย่างไร และด้วยเหตุนี้จึงปรับปรุงโมเดลเพื่อให้ได้รับความแม่นยำและประสิทธิภาพที่สูงขึ้นสำหรับการดึงข้อความและข้อมูลของเอกสาร
ประมวลผลการประมวลผลเอกสารที่หลากหลาย: สำหรับงานทั่วไป เช่น การดึงตารางและข้อมูล เราจะต้องสร้างไปป์ไลน์การเรียนรู้เชิงลึกที่แตกต่างกันสำหรับเอกสารประเภทต่างๆ สิ่งนี้นำไปสู่การสร้างแอปพลิเคชั่นหลายตัวและปรับใช้โมเดลต่างๆ บนเซิร์ฟเวอร์ที่แตกต่างกัน ซึ่งต้องใช้ความพยายามและเวลาอย่างมาก เมื่อบ็อตอยู่ในรูปภาพสำหรับเอกสารที่หลากหลาย เราสามารถมีไปป์ไลน์เดียวเท่านั้นที่บอทสามารถจำแนกประเภทได้ จากนั้นจึงใช้แบบจำลองที่เหมาะสมสำหรับงานต่างๆ นอกจากนี้เรายังสามารถรวมบริการต่างๆ ผ่าน API และสื่อสารกับองค์กรอื่น ๆ ในแง่ของการดึงข้อมูล
ง่ายต่อการปรับใช้: เพื่อความเข้าใจในเอกสารหลังจากสร้างไปป์ไลน์แล้ว กระบวนการปรับใช้จะใช้เวลาเพียงไม่กี่นาที เราสามารถส่งออก API โดยบอทหลังจากการฝึกอบรม หรือเราสามารถสร้างโซลูชัน RPA แบบกำหนดเองที่สามารถใช้ในระบบในพื้นที่ของเรา การปรับใช้ประเภทนี้ยังสามารถเพิ่มประสิทธิภาพองค์กรและสามารถลดค่าใช้จ่ายโดยมีความเสี่ยงน้อยที่สุด

ป้อน Nanonets

NanoNets เป็นแพลตฟอร์ม Machine Learning ที่ช่วยให้ผู้ใช้สามารถเก็บข้อมูลจาก ใบแจ้งหนี้, ใบเสร็จ และเอกสารอื่นๆ โดยไม่ต้องตั้งค่าเทมเพลต เรามีอัลกอริธึมการเรียนรู้เชิงลึกล้ำสมัยและคอมพิวเตอร์วิชันซิสเต็มที่ทำงานอยู่ที่ด้านหลัง ซึ่งสามารถจัดการงานการทำความเข้าใจเอกสารทุกประเภท เช่น OCR การดึงตาราง โดยปกติแล้วจะส่งออกเป็น API หรือปรับใช้ในองค์กรตามกรณีการใช้งานที่แตกต่างกัน นี่คือตัวอย่างบางส่วน

รูปแบบใบแจ้งหนี้: ระบุช่องสำคัญจาก ใบแจ้งหนี้ เช่น ชื่อผู้ซื้อ รหัสใบแจ้งหนี้ วันที่ จำนวนเงิน เป็นต้น
โมเดลใบเสร็จรับเงิน: ระบุฟิลด์คีย์จากใบเสร็จรับเงิน เช่น ชื่อผู้ขาย หมายเลข วันที่ จำนวนเงิน เป็นต้น
ใบขับขี่ (USA): ระบุฟิลด์สำคัญเช่น License No, DOB, Expiry Date, Issue Date เป็นต้น
ประวัติย่อ: ดึงประสบการณ์ การศึกษา ชุดทักษะ ข้อมูลผู้สมัคร ฯลฯ

เพื่อให้เวิร์กโฟลว์เหล่านี้รวดเร็วและมีประสิทธิภาพ เราใช้ UiPath ซึ่งเป็นเครื่องมือ RPA สำหรับการทำงานอัตโนมัติของเอกสารของคุณอย่างราบรื่นโดยไม่มีเทมเพลตใดๆ ในส่วนถัดไป เราจะพูดถึงวิธีการใช้ UiPath Connect กับ Nanonets เพื่อทำความเข้าใจเอกสาร ผู้เล่นรายใหญ่ที่สุด 3 รายในตลาด RPA ได้แก่ UiPath, Automation Anywhere และ ปริซึมสีน้ำเงิน. บล็อกนี้เน้นที่ Uipath

NanoNets พร้อม UiPath

เราได้เรียนรู้การสร้างไปป์ไลน์การทำความเข้าใจเอกสารในส่วนก่อนหน้าของเรา ต้องใช้ความรู้พื้นฐานเกี่ยวกับ OCR, RPA และการเรียนรู้ของเครื่อง เนื่องจากมีวิธีการและอัลกอริธึมที่แตกต่างกันสำหรับงานต่างๆ ในจุดต่างๆ นอกจากนี้ เรายังต้องใช้ความพยายามอย่างมากในการสร้าง Neural Networks ที่เข้าใจเทมเพลต การฝึกอบรม และการปรับใช้ของเรา ดังนั้น เพื่อให้ทุกอย่างสะดวกสบายและเป็นอัตโนมัติตั้งแต่อัปโหลดเอกสาร จัดประเภท สร้าง OCR ผสานรวมโมเดล ML พวกเราที่ Nanonets กำลังทำงานบน Ui Path เพื่อสร้างไปป์ไลน์ที่ไร้รอยต่อสำหรับการทำความเข้าใจเอกสาร ด้านล่างนี้เป็นภาพวิธีการทำงาน

ตอนนี้ มาทบทวนแต่ละรายการและเรียนรู้วิธีที่เราสามารถรวม Nanonets กับ UiPath ได้

ขั้นตอนที่ 1: ลงทะเบียนที่ UiPath และดาวน์โหลด UiPath Studio

ในการสร้างเวิร์กโฟลว์ ขั้นแรก เราจะต้องสร้างบัญชีใน UiPath หากคุณเป็นผู้ใช้อยู่แล้ว คุณสามารถเข้าสู่ระบบบัญชีของคุณได้โดยตรง โดยเปลี่ยนเส้นทางแดชบอร์ด UiPath ของคุณ ถัดไป คุณจะต้องดาวน์โหลดและติดตั้ง UiPath Studio (รุ่นชุมชน) ซึ่งให้บริการฟรี

ขั้นตอนที่ 2: ดาวน์โหลดส่วนประกอบนาโนเน็ต

ถัดไป เพื่อตั้งค่า .ของคุณ ไปป์ไลน์การประมวลผลใบแจ้งหนี้คุณจะต้องดาวน์โหลด Nanonets Connector จากลิงค์ด้านล่าง

-> NanoNets OCR – ส่วนประกอบ RPA

ด้านล่างนี้เป็นภาพหน้าจอของ UiPath Marketplace และ Nanonets Component นอกจากนี้ หากต้องการดาวน์โหลดสิ่งนี้ อย่าลืมลงชื่อเข้าใช้ UiPath จากระบบปฏิบัติการ Windows

ไฟล์ที่คุณดาวน์โหลดควรมีไฟล์ตามรายการด้านล่าง

UiPath OCR Predict ├── Main.xaml
└── project.json

ขั้นตอนที่ 3: เปิดไฟล์ Main.xaml Nanonets Component

หากต้องการตรวจสอบว่า Nanonets UiPath ทำงานหรือไม่ คุณสามารถเปิดไฟล์ Main.xml จากคอมโพเนนต์ Nanonets ที่ดาวน์โหลดมาโดยใช้ Ui Path Studio จากนั้น คุณจะเห็นไปป์ไลน์ของคุณที่สร้างไว้แล้วสำหรับคุณสำหรับการประมวลผลเอกสาร

ขั้นตอนที่ 4: รวบรวม Model ID, API Key และ API Endpoint จาก Nanonets APP

ถัดไป คุณสามารถใช้โมเดล OCR ที่ผ่านการฝึกอบรมจาก Nanonets APP และรวบรวม Model ID, API Key และ endpoint ด้านล่างนี้คือรายละเอียดเพิ่มเติมเพื่อให้คุณค้นหาได้อย่างรวดเร็ว

รหัสรุ่น: เข้าสู่ระบบบัญชี Nanonets ของคุณและไปที่ "โมเดลของฉัน" คุณสามารถฝึกโมเดลใหม่หรือคัดลอก ID แอปพลิเคชันของโมเดลที่มีอยู่

ปลายทาง API: คุณสามารถเลือกโมเดลที่มีอยู่แล้วคลิก Integrate เพื่อค้นหาตำแหน่งข้อมูล API ของคุณ ด้านล่างนี้คือตัวอย่างลักษณะปลายทางของคุณ

https://app.nanonets.com/api/v2/OCR/Model/XXXXXXX-4840-4c27-8940-d3add200779e/LabelUrls/

3. คีย์ API: ไปที่แท็บคีย์ API และคุณสามารถคัดลอกคีย์ API ที่มีอยู่หรือสร้างใหม่ได้

ขั้นตอนที่ 5: เพิ่มคำขอ HTTP เพื่อรับวิธีการและตัวแปรของคุณไปยัง UI Path

ในการผสานรวม Model ของคุณจาก Nanonets เข้ากับ UI Path คุณจะต้องคลิกแรกบน HTTP Request และเพิ่ม EndPoint ซึ่งสามารถพบได้ที่การนำทางด้านซ้ายภายใต้ส่วน Input ด้านล่างเป็นภาพหน้าจอ

ต่อมา เพิ่มตัวแปรทั้งหมดของคุณเพื่อสร้างการเชื่อมต่อจากสตูดิโอ UiPath ของคุณไปยัง Nanonets API คุณจะพบส่วนนี้ที่บานหน้าต่างด้านล่างที่ "แท็บตัวแปร" ด้านล่างนี้คือภาพหน้าจอ คุณจะต้องอัปเดต/คัดลอกคีย์ API, End Point และ Model-ID ของโมเดลของคุณที่นี่

ขั้นตอนที่ 6: เพิ่มตำแหน่งไฟล์สำหรับการคาดการณ์

สุดท้าย คุณสามารถเพิ่มตำแหน่งไฟล์ของคุณภายใต้แท็บแอตทริบิวต์ ดังที่แสดงในภาพหน้าจอด้านล่าง และกดปุ่มเล่นบนการนำทางด้านบนเพื่อคาดการณ์ผลลัพธ์ของคุณ

โว้ว! นี่คือผลลัพธ์ของเราสำหรับเอกสารที่เราร้องขอในภาพหน้าจอด้านล่าง หากต้องการดำเนินการเพิ่มเติม คุณสามารถเพิ่มตำแหน่งไฟล์และกดปุ่มเรียกใช้

ขั้นตอนที่ 7 – พุชเอาต์พุตเป็น CSV / ERP

สุดท้ายนี้ เพื่อปรับแต่งเอาต์พุตของเราให้อยู่ในรูปแบบที่คุณต้องการ เราสามารถเพิ่มบล็อคใหม่ให้กับไปป์ไลน์ของคุณในไฟล์ Main.XML นอกจากนี้เรายังสามารถผลักดันสิ่งนี้ไปยังระบบ ERP ที่มีอยู่ผ่านไฟล์ออฟไลน์หรือการเรียก API

สำหรับความช่วยเหลือใด ๆ ติดต่อเราได้ที่ support@nanonets.com

เว็บบินาร์

เข้าร่วม Webinar กับเราในวันอังคารหน้าเกี่ยวกับ OCR กับ RPA ลงทะเบียนที่นี่.

อ้างอิง

[1] Gartner กล่าวว่าระบบอัตโนมัติของกระบวนการด้วยหุ่นยนต์สามารถช่วยแผนกการเงิน 25,000 ชั่วโมงในการทำงานที่หลีกเลี่ยงไม่ได้ต่อปี

[2] การทำความเข้าใจเอกสาร – การประมวลผลเอกสาร AI

[3] RPA OCR – ยกระดับการทำงานอัตโนมัติ | นีซ

[4] วิธีใช้ AI เพื่อเพิ่มประสิทธิภาพการทำความเข้าใจเอกสาร

[5] https://www.uipath.com/product/document-understanding

[6] การใช้ NanoNets ในเวิร์กโฟลว์ UiPath สำหรับใบแจ้งหนี้ OCR

อ่านเพิ่มเติม

คุณอาจสนใจโพสต์ล่าสุดของเราที่:

ปรับปรุง:‌
เพิ่มเนื้อหาการอ่านเพิ่มเติมเกี่ยวกับการใช้และผลกระทบของ OCR, RPA ในการทำความเข้าใจเอกสาร

ที่มา: https://nanonets.com/blog/ocr-with-rpa-and-document-understanding-uipath/

ประทับเวลา: May 19, 2021

ประทับเวลา: Mar 20, 2023

คำแนะนำที่ครอบคลุมเกี่ยวกับ OCR พร้อม RPA และการทำความเข้าใจเกี่ยวกับเอกสาร

เผยแพร่ซ้ำโดยเพลโต

คำจำกัดความและภาพรวม

หุ่นยนต์สามารถเรียนรู้ที่จะเข้าใจเอกสารด้วย OCR และ ML . ได้อย่างไร

บริษัทต่างๆ จะผสานรวม OCR อัจฉริยะกับ RPA เพื่อปรับปรุงเวิร์กโฟลว์ได้อย่างไร

ความท้าทาย OCR ที่นักพัฒนา RPA เผชิญ

ไปป์ไลน์สำหรับเวิร์กโฟลว์การทำความเข้าใจเอกสาร

ประโยชน์ของการรวมหุ่นยนต์เข้ากับการทำความเข้าใจเอกสาร

ป้อน Nanonets

NanoNets พร้อม UiPath

เว็บบินาร์

อ้างอิง

อ่านเพิ่มเติม

คุณอาจสนใจโพสต์ล่าสุดของเราที่:

เพิ่มเติมจาก AI และการเรียนรู้ของเครื่อง

อธิบายขั้นตอนการสั่งซื้อ: คู่มือฉบับสมบูรณ์

สุดยอดคู่มือระบบอัตโนมัติของศูนย์ติดต่อ

การประมวลผลใบแจ้งหนี้ AI: วิธีใช้ประโยชน์จาก AI ใน AP Automation

การเพิ่มปริมาณตะกั่วคืออะไร? จะทำให้มันเป็นอัตโนมัติได้อย่างไร?

Web Scraping ด้วย Node JS ในปี 2023

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้