ปรับปรุงล่าสุด: ม.ค. 2021
บล็อกนี้เป็นภาพรวมที่ครอบคลุมของการใช้ OCR กับเครื่องมือ RPA ใดๆ เพื่อทำให้เวิร์กโฟลว์เอกสารของคุณเป็นแบบอัตโนมัติ เราสำรวจว่าเทคโนโลยี OCR ที่ใช้การเรียนรู้ของเครื่องล่าสุดนั้นไม่ต้องการกฎหรือการตั้งค่าเทมเพลตได้อย่างไร
RPAs หรือ Robotic Process Automation เป็นเครื่องมือซอฟต์แวร์ที่มุ่งกำจัดงานทางธุรกิจที่ซ้ำซากจำเจ CIO จำนวนมากขึ้นหันไปหาพวกเขาเพื่อลดต้นทุนและช่วยให้พนักงานมีสมาธิกับงานธุรกิจที่มีมูลค่าสูงขึ้น ตัวอย่างรวมถึงการตอบกลับความคิดเห็นบนเว็บไซต์หรือการประมวลผลคำสั่งซื้อของลูกค้า งานที่ซับซ้อนขึ้นเล็กน้อยรวมถึงการจัดการเอกสารเช่น แบบฟอร์มที่เขียนด้วยลายมือ และ ใบแจ้งหนี้ – โดยทั่วไปจะต้องย้ายจากระบบเดิมหนึ่งไปยังอีกระบบหนึ่ง – สมมติว่าไคลเอนต์อีเมลของคุณไปยังระบบ SAP ERP ที่คุณต้องการดึงข้อมูล นี่คือส่วนที่เป็นปัญหา
เครื่องมือ OCR ส่วนใหญ่ที่เก็บข้อมูลจากเอกสารเหล่านี้เป็นเทมเพลต (พูด ABBYY Flexicapture) และปรับขนาดได้ไม่ดีในเอกสารกึ่งโครงสร้าง มีโซลูชันที่ใช้การเรียนรู้ของเครื่องรุ่นใหม่กว่าซึ่งโดยทั่วไปจะมี API
การผสานรวมที่สามารถดักจับคู่คีย์-ค่าจากเอกสาร – โดยทั่วไปแล้วระบบขององค์กรจะเป็นแบบเดิมและไม่เปิดให้รวมเข้ากับ API ภายนอก ในอีกด้านหนึ่ง RPA ถูกสร้างขึ้นเพื่อจัดการกับเวิร์กโฟลว์ของระบบเดิมเหล่านี้ เช่น การนำเข้าเอกสารจากโฟลเดอร์และการป้อนผลลัพธ์ลงใน ERP หรือ CRM
เนื่องจาก Robotic Process Automation (RPA) และ ML กำลังพัฒนาไปสู่การทำงานอัตโนมัติแบบไฮเปอร์ เราจึงสามารถใช้ซอฟต์แวร์บอทร่วมกับ ML เพื่อจัดการกับงานที่ซับซ้อน เช่น การจัดประเภทเอกสาร การดึงข้อมูล และการรู้จำอักขระด้วยแสง ในการศึกษาเมื่อเร็วๆ นี้ ว่ากันว่าด้วยการทำงานอัตโนมัติเพียง 29% ของฟังก์ชันสำหรับงานที่ใช้ RPA แผนกการเงินเพียงอย่างเดียวสามารถประหยัดเวลาในการทำงานซ้ำได้มากกว่า 25,000 ชั่วโมงที่เกิดจากความผิดพลาดของมนุษย์ โดยมีค่าใช้จ่าย 878,000 ดอลลาร์ต่อปีสำหรับองค์กรที่มี 40 พนักงานบัญชีเวลา [1]. ในบล็อกนี้ เราจะเรียนรู้เกี่ยวกับการใช้ OCR กับ RPA และเจาะลึกขั้นตอนการทำงานเพื่อทำความเข้าใจเอกสาร ด้านล่างเป็นสารบัญ
คำจำกัดความและภาพรวม
โดยทั่วไป RPA เป็นเทคโนโลยีที่ช่วยให้งานการดูแลระบบอัตโนมัติผ่านบอทซอฟต์แวร์-ฮาร์ดแวร์ บอทเหล่านี้ใช้ประโยชน์จากอินเทอร์เฟซผู้ใช้ เพื่อเก็บข้อมูลและจัดการแอปพลิเคชันเหมือนที่มนุษย์ทำ ตัวอย่างเช่น RPA สามารถดูชุดของงานที่ดำเนินการใน GUI เช่น เลื่อนเคอร์เซอร์ เชื่อมต่อกับ API คัดลอกและวางข้อมูล และกำหนดลำดับการดำเนินการเดียวกันในโครงร่าง RPA ที่แปลเป็นโค้ด นอกจากนี้ งานเหล่านี้สามารถทำได้โดยปราศจากการแทรกแซงของมนุษย์ในอนาคต การรู้จำอักขระด้วยแสง (OCR) เป็นคุณลักษณะที่สำคัญของโซลูชันการทำงานอัตโนมัติของกระบวนการหุ่นยนต์ (RPA) ที่ใช้งานได้ เทคโนโลยีนี้ใช้ในการอ่านและดึงข้อความจากแหล่งต่างๆ เช่น รูปภาพหรือ ไฟล์ PDF ในรูปแบบดิจิทัลโดยไม่ต้องจับภาพด้วยตนเอง
ในทางกลับกัน ความเข้าใจในเอกสารเป็นคำที่ใช้อธิบายการอ่าน ตีความ และดำเนินการกับข้อมูลเอกสารโดยอัตโนมัติ สิ่งสำคัญที่สุดในกระบวนการนี้คือซอฟต์แวร์บอททำหน้าที่ทั้งหมด บอทเหล่านี้ใช้ประโยชน์จากพลังของปัญญาประดิษฐ์และการเรียนรู้ของเครื่องเพื่อทำความเข้าใจเอกสารในฐานะผู้ช่วยดิจิทัล ด้วยวิธีนี้ เราสามารถพูดได้ว่าความเข้าใจในเอกสารเกิดขึ้นที่จุดตัดของการประมวลผลเอกสาร, AI และ RPA
หุ่นยนต์สามารถเรียนรู้ที่จะเข้าใจเอกสารด้วย OCR และ ML . ได้อย่างไร
ก่อนที่เราจะลงลึกใน Document Understanding อันดับแรก เรามาพูดถึงบทบาทของ Robots สำหรับการทำความเข้าใจเอกสารกันก่อน ผู้ช่วยที่มองไม่เห็นอย่างเต็มที่เหล่านี้ทำให้ชีวิตของเราสะดวกสบายมากขึ้น หุ่นยนต์เหล่านี้ไม่ใช่อุปกรณ์ทางกายภาพหรือโปรแกรมปัญญาประดิษฐ์ซึ่งแตกต่างจากภาพยนตร์และซีรีส์ซึ่งนั่งอยู่ที่เดสก์ท็อปและกดปุ่มเพื่อทำงาน เราคิดว่าสิ่งเหล่านี้เป็นผู้ช่วยดิจิทัลที่ได้รับการฝึกอบรมให้ประมวลผลเอกสารโดยการอ่านและการใช้แอปพลิเคชันเช่นเดียวกับที่เราทำ ในด้านการทำงาน หุ่นยนต์สามารถปรับปรุงประสิทธิภาพและประสิทธิภาพของกระบวนการได้ดี ยังคงเป็นซอฟต์แวร์แบบสแตนด์อโลนไม่สามารถประเมินกระบวนการและตัดสินใจเกี่ยวกับความรู้ความเข้าใจได้ อย่างไรก็ตาม หากแมชชีนเลิร์นนิงประสบความสำเร็จในการบูรณาการ วิทยาการหุ่นยนต์จะมีพลวัตและปรับตัวได้มากขึ้น ตัวอย่างเช่น หุ่นยนต์ที่ใช้ในการประมวลผลเอกสาร การจัดการข้อมูล และฟังก์ชันอื่นๆ ทั่วทั้งสำนักงานส่วนหน้าและส่วนกลางจะดำเนินการอย่างชาญฉลาดมากขึ้น เช่น กำจัดรายการที่ซ้ำกันหรือแก้ไขข้อยกเว้นของระบบที่ไม่รู้จักในกระบวนการ นอกจากนี้ หุ่นยนต์ยังได้รับการฝึกอบรมให้อ่าน ดึงข้อมูล ตีความ และดำเนินการกับข้อมูลจากเอกสารโดยใช้ปัญญาประดิษฐ์ (AI)
บริษัทต่างๆ จะผสานรวม OCR อัจฉริยะกับ RPA เพื่อปรับปรุงเวิร์กโฟลว์ได้อย่างไร
การดึงข้อมูลเอกสารเป็นองค์ประกอบสำคัญสำหรับการทำความเข้าใจเอกสาร ในส่วนนี้ เราจะพูดถึงวิธีที่เราสามารถรวม OCR กับ RPA หรือในทางกลับกัน ประการแรก เราทุกคนทราบดีว่ามีเอกสารประเภทต่างๆ ในแง่ของเทมเพลต สไตล์ การจัดรูปแบบ และบางครั้งภาษา ดังนั้นเราจึงไม่สามารถพึ่งพาเทคนิค OCR ง่ายๆ ในการดึงข้อมูลจากเอกสารเหล่านี้ได้ เพื่อแก้ไขปัญหานี้ เราจะใช้ทั้งแนวทางตามกฎและแนวทางตามแบบจำลองภายใน OCR เพื่อจัดการข้อมูลจากโครงสร้างเอกสารต่างๆ ตอนนี้เราจะมาดูกันว่าบริษัทต่างๆ ที่ทำ OCR สามารถรวม RPA เข้ากับระบบที่มีอยู่ได้อย่างไร โดยพิจารณาจากประเภทของเอกสาร
เอกสารที่มีโครงสร้าง: ในเอกสารประเภทนี้ เลย์เอาต์และเทมเพลตมักจะได้รับการแก้ไขและเกือบจะสอดคล้องกัน ตัวอย่างเช่น พิจารณาองค์กรที่ดำเนินการ KYC ด้วยบัตรประจำตัวที่ออกโดยหน่วยงานราชการ เช่น หนังสือเดินทางหรือใบขับขี่ เอกสารทั้งหมดเหล่านี้จะเหมือนกันและมีฟิลด์เดียวกับหมายเลขประจำตัวประชาชน ชื่อบุคคล อายุ และอื่นๆ อีกสองสามรายการในตำแหน่งเดียวกัน แต่รายละเอียดแตกต่างกันเท่านั้น อาจมีข้อจำกัดบางประการ เช่น ข้อมูลล้นตารางหรือข้อมูลที่ไม่ได้จัดเก็บ
โดยปกติ แนวทางที่แนะนำจะใช้เทมเพลตหรือกลไกที่อิงตามกฎเพื่อดึงข้อมูลสำหรับเอกสารที่มีโครงสร้าง ซึ่งอาจรวมถึงนิพจน์ทั่วไปหรือการแมปตำแหน่งอย่างง่าย และ OCR ดังนั้นในการผสานรวมซอฟต์แวร์โรบ็อตเพื่อทำให้การดึงข้อมูลเป็นอัตโนมัติ เราจึงสามารถใช้เทมเพลตที่มีอยู่แล้วหรือสร้างกฎสำหรับข้อมูลที่มีโครงสร้างของเราก็ได้ มีข้อเสียอยู่อย่างหนึ่งเมื่อใช้แนวทางตามกฎ เนื่องจากต้องอาศัยชิ้นส่วนที่ตายตัว แม้แต่การเปลี่ยนแปลงเล็กน้อยในโครงสร้างแบบฟอร์มก็อาจทำให้กฎพังได้
เอกสารกึ่งโครงสร้าง: เอกสารเหล่านี้มีข้อมูลเหมือนกันแต่จัดเรียงในตำแหน่งที่แตกต่างกัน ตัวอย่างเช่น พิจารณา ใบแจ้งหนี้ มี 8-12 ช่องที่เหมือนกัน ในอีกไม่กี่อึดใจ ใบแจ้งหนี้ที่อยู่ของผู้ขายจะอยู่ที่ด้านบน และที่อยู่อื่นๆ จะอยู่ที่ด้านล่าง โดยปกติวิธีการที่อิงตามกฎเหล่านี้ไม่ได้ให้ความแม่นยำสูง ดังนั้นเราจึงนำโมเดลการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกมาไว้ในภาพเพื่อดึงข้อมูลโดยใช้ OCR หรือในบางกรณี เราสามารถใช้โมเดลไฮบริดที่เกี่ยวข้องกับทั้งกฎและโมเดล ML โมเดลพรีเทรนนิ่งยอดนิยมบางรุ่น ได้แก่ FastRCNN, Attention OCR, Graph Convolutions สำหรับการดึงข้อมูลในเอกสาร อย่างไรก็ตาม โมเดลเหล่านี้มีข้อบกพร่องเล็กน้อย ดังนั้นเราจึงวัดประสิทธิภาพของอัลกอริธึมโดยใช้เมตริก เช่น ความแม่นยำหรือคะแนนความมั่นใจ เนื่องจากโมเดลคือรูปแบบการเรียนรู้ แทนที่จะใช้กฎที่เป็นรูปธรรม อาจทำให้ผิดพลาดได้ในตอนแรกหลังจากการแก้ไข อย่างไรก็ตาม วิธีแก้ปัญหาสำหรับข้อเสียเหล่านี้ - ยิ่งโมเดล ML ประมวลผลตัวอย่างมากเท่าไร ก็ยิ่งเรียนรู้รูปแบบมากขึ้นเท่านั้นเพื่อรับรองความถูกต้อง
เอกสารที่ไม่มีโครงสร้าง: RPA ในปัจจุบันไม่สามารถจัดการข้อมูลที่ไม่มีโครงสร้างได้โดยตรง จึงต้องให้หุ่นยนต์แยกและสร้างข้อมูลที่มีโครงสร้างโดยใช้ OCR ก่อน ข้อมูลที่ไม่มีโครงสร้างไม่มีคู่คีย์-ค่าสองสามคู่ ต่างจากเอกสารที่มีโครงสร้างและกึ่งโครงสร้าง ตัวอย่างเช่นในไม่กี่ ใบแจ้งหนี้เราเห็นที่อยู่ของผู้ขายที่ไหนสักแห่งที่ไม่มีชื่อคีย์ ในทำนองเดียวกัน เราสังเกตเช่นเดียวกันสำหรับฟิลด์อื่นๆ เช่น วันที่ รหัสใบแจ้งหนี้ เพื่อให้โมเดล ML ประมวลผลได้อย่างถูกต้อง หุ่นยนต์จำเป็นต้องเรียนรู้วิธีแปลข้อความที่เขียนเป็นข้อมูลที่สามารถดำเนินการได้ เช่น อีเมล หมายเลขโทรศัพท์ ที่อยู่ ฯลฯ จากนั้นโมเดลจะเรียนรู้ว่าควรแยกรูปแบบตัวเลข 7 หรือ 10 หลัก เป็นหมายเลขโทรศัพท์และข้อความขนาดใหญ่ที่มีรหัสห้าหลักและคำนามต่างกันเป็นข้อความ เพื่อทำให้โมเดลเหล่านี้แม่นยำยิ่งขึ้น เรายังสามารถใช้เทคนิคจาก Natural Language Processing (NLP) เช่น Named Entity Recognition และ Word Embedding
โดยรวมแล้วเพื่อความเข้าใจในเอกสาร จำเป็นอย่างยิ่งที่จะต้องเข้าใจข้อมูลก่อนแล้วจึงนำ OCR ไปใช้กับ RPA ต่อไป แทนที่จะทำแผนที่กระบวนการทีละขั้นตอน เราสามารถสอนหุ่นยนต์ให้ "ทำตามที่ฉันทำ" โดยการบันทึกกระบวนการที่เกิดขึ้นด้วยความสามารถ OCR อันทรงพลังตามที่กล่าวไว้ข้างต้น โดยการผสานรวมกฎและอัลกอริทึมการเรียนรู้ของเครื่อง หุ่นยนต์ซอฟต์แวร์จะติดตามการคลิกและการกระทำของคุณบนหน้าจอ แล้วเปลี่ยนให้เป็นเวิร์กโฟลว์ที่แก้ไขได้ หากคุณกำลังทำงานในโปรแกรมท้องถิ่นทั้งหมด นั่นก็เพียงพอแล้วที่คุณจำเป็นต้องรู้
ความท้าทาย OCR ที่นักพัฒนา RPA เผชิญ
เราได้เห็นแล้วว่าเราสามารถรวม OCRR กับ RPA สำหรับเอกสารต่างๆ ได้อย่างไร แต่มีบางกรณีของความท้าทายที่หุ่นยนต์จำเป็นต้องจัดการอย่างดี มาพูดคุยกันตอนนี้เลย!
- ข้อมูลที่อ่อนแอหรือไม่สอดคล้องกัน: ข้อมูลมีบทบาทสำคัญในการทำความเข้าใจเอกสาร ในกรณีส่วนใหญ่ เอกสารจะถูกสแกนโดยใช้กล้องซึ่งมีโอกาสสูญเสียรูปแบบเอกสารระหว่างการสแกนข้อความ (เช่น ตัวหนา ตัวเอียง & ขีดเส้นใต้ไม่เป็นที่รู้จักเสมอไป) บางครั้ง OCR อาจดึงข้อความในทางที่ผิดซึ่งนำไปสู่ข้อผิดพลาดในการสะกดคำ การแบ่งย่อหน้าไม่สม่ำเสมอ ซึ่งลดประสิทธิภาพโดยรวมของโรบ็อต ดังนั้นการจัดการค่าที่หายไปทั้งหมดและการเก็บข้อมูลด้วยความแม่นยำสูงขึ้นจึงมีความสำคัญต่อการบรรลุความแม่นยำที่สูงขึ้นสำหรับ OCR
- การวางแนวหน้าไม่ถูกต้องในเอกสาร: การวางแนวหน้าและความเบ้เป็นหนึ่งในปัญหาทั่วไปที่นำไปสู่การแก้ไขข้อความ OCR ที่ไม่ถูกต้อง ซึ่งมักเกิดขึ้นเมื่อสแกนเอกสารอย่างไม่ถูกต้องระหว่างขั้นตอนการรวบรวมข้อมูล เพื่อแก้ปัญหานี้ เราจะต้องประกาศฟังก์ชันสองสามอย่างให้กับโรบ็อต เช่น ปรับให้พอดีกับหน้าอัตโนมัติ กรองอัตโนมัติ เพื่อให้สามารถเพิ่มคุณภาพของเอกสารที่สแกนและรับข้อมูลที่ถูกต้องจากผลลัพธ์
- ปัญหาการรวม: ไม่ใช่เครื่องมือ RPA ทั้งหมดที่จะทำงานได้ดีในสภาพแวดล้อมเดสก์ท็อประยะไกล – เครื่องมือเหล่านี้ทำให้เกิดการขัดข้องและปัญหาร้ายแรงในระบบอัตโนมัติ ยิ่งไปกว่านั้น นักพัฒนา RPA จำเป็นต้องรู้ว่าโซลูชัน OCR ใดจะดีที่สุดสำหรับกรณีเฉพาะ นอกจากนี้ ในการทำงานร่วมกับเครื่องมืออัตโนมัติที่เฉพาะเจาะจง นักพัฒนา RPA จำเป็นต้องเลือกเฉพาะเทคโนโลยี OCR ที่จำกัดซึ่งสร้างโดย Microsoft, Google ดังนั้นการบูรณาการอัลกอริธึมและโมเดลที่กำหนดเองจึงเป็นสิ่งที่ท้าทายในบางครั้ง
- ข้อความทั้งหมดเป็นข้อความที่มีสัญญาณรบกวน: สำหรับกรณีการใช้งานจริง ข้อความที่จับโดย OCR ทั่วไปจะถูกรบกวนทั้งหมดและไม่มีข้อมูลที่มีความหมายที่บอทสามารถใช้เพื่อดำเนินการที่สำคัญได้ นักพัฒนา RPA ต้องการการสนับสนุน ML ที่แข็งแกร่งจึงจะสามารถสร้างแอปพลิเคชันที่มีประโยชน์ได้
ไปป์ไลน์สำหรับเวิร์กโฟลว์การทำความเข้าใจเอกสาร
ในส่วนก่อนหน้านี้ เราได้เห็นว่าบอทช่วยดำเนินการ OCR สำหรับเอกสารประเภทต่างๆ ได้อย่างไร แต่ OCR เป็นเพียงเทคนิคที่แปลงรูปภาพหรือไฟล์อื่นๆ ให้เป็นข้อความ ตอนนี้ ในส่วนนี้ เราจะดูเวิร์กโฟลว์การทำความเข้าใจเอกสารตั้งแต่เริ่มต้นการรวบรวมเอกสาร จนถึงการบันทึกข้อมูลที่มีความหมายลงในรูปแบบที่ต้องการในที่สุด
- นำเข้าเอกสารจากโฟลเดอร์โดยใช้บอทของคุณ: นี่เป็นขั้นตอนแรกในการบรรลุความเข้าใจในเอกสารผ่านบอท ที่นี่ เราจะดึงเอกสารที่อยู่บนแพลตฟอร์มคลาวด์ (โดยใช้ API) หรือจากเครื่องในเครื่อง ในบางกรณี หากเอกสารของเราอยู่บนหน้าเว็บ เราสามารถทำให้สคริปต์การดึงข้อมูลอัตโนมัติผ่านบอทซึ่งพวกเขาสามารถดึงเอกสารได้ทันท่วงที
- ประเภทเอกสาร: หลังจากที่เราดึงข้อมูลแล้ว จำเป็นต้องเข้าใจประเภทของเอกสารและรูปแบบที่บันทึกในระบบของเรา เนื่องจากบางครั้ง เราได้รับข้อมูลจากแหล่งต่างๆ ในรูปแบบไฟล์ต่างๆ เช่น รูปแบบไฟล์ PDF, PNG และ JPG ไม่เพียงแค่ประเภทไฟล์เท่านั้น บางครั้งเมื่อสแกนเอกสารด้วยกล้องโทรศัพท์ ปัญหาที่ท้าทายบางอย่าง เช่น ความเบี้ยวของภาพ การหมุน ความสว่าง หรือความละเอียดต่ำก็ควรได้รับการจัดการด้วย ด้วยเหตุนี้ เราจะต้องตรวจสอบให้แน่ใจว่าบอทจัดประเภทเอกสารเหล่านี้เป็นหมวดหมู่แบบมีโครงสร้าง กึ่งมีโครงสร้าง หรือไม่มีโครงสร้าง ดังนั้นให้บันทึกในรูปแบบทั่วไป งานการจัดประเภททำได้โดยการเปรียบเทียบเอกสารกับเทมเพลตและคุณสมบัติการวิเคราะห์ เช่น ฟอนต์ ภาษา การมีอยู่ของคู่คีย์-ค่า ตาราง ฯลฯ
- การดึงข้อมูลด้วย OCR: เอาล่ะ เมื่อบอทจัดเรียงเอกสารของเราให้อยู่ในรูปแบบทั่วไปและจัดประเภทแล้ว ก็ถึงเวลาที่เราจะแปลงเอกสารให้เป็นดิจิทัลโดยใช้เทคนิค OCR ด้วยสิ่งนี้ เราจะมีข้อความ ตำแหน่งของมันในพิกัดจากรูปภาพ ซึ่งจะช่วยกำหนดมาตรฐานเอกสารและข้อมูลสำหรับขั้นตอนต่อไป นอกจากนี้เรายังพบว่าซอฟต์แวร์ OCR ไม่สามารถแยกแยะระหว่างอักขระได้อย่างถูกต้อง เช่น 't' กับ 'i' หรือ '0' กับ 'O' ข้อผิดพลาดที่คุณต้องการหลีกเลี่ยงโดยใช้ซอฟต์แวร์ OCR อาจกลายเป็นเรื่องใหม่ที่น่าปวดหัวเมื่อเทคโนโลยี OCR ไม่สามารถวิเคราะห์ความแตกต่างของเอกสารตามคุณภาพหรือรูปแบบเดิมได้ นี่คือที่มาของ Machine Learning ซึ่งเราจะพูดถึงในขั้นตอนต่อไป
- ใช้ประโยชน์จาก ML/DL สำหรับ OCR อัจฉริยะโดยใช้บอท: หลังจากที่ข้อมูลถูกแปลงเป็นดิจิทัลแล้ว ซอฟต์แวร์ OCR ควรเข้าใจประเภทของเอกสารที่ใช้และสิ่งที่เกี่ยวข้อง แต่ซอฟต์แวร์ OCR แบบเดิมอาจมีปัญหาในการปรับขนาดเอกสาร ดังนั้นซอฟต์แวร์บอทควรได้รับการฝึกฝนด้วยความสามารถทางปัญญาโดยใช้ประโยชน์จากการเรียนรู้ของเครื่องและเทคนิคการเรียนรู้เชิงลึกเพื่อทำให้ OCR มีความชาญฉลาดมากขึ้น โซลูชัน OCR ที่ใช้ ML สามารถระบุประเภทเอกสารและจับคู่กับประเภทเอกสารที่รู้จักซึ่งธุรกิจของคุณใช้ พวกเขายังสามารถแยกวิเคราะห์และทำความเข้าใจกลุ่มข้อความในเอกสารที่ไม่มีโครงสร้าง เมื่อโซลูชันทราบข้อมูลเพิ่มเติมเกี่ยวกับตัวเอกสารแล้ว ก็สามารถเริ่มดึงข้อมูลที่เกี่ยวข้องตามเจตนาและความหมายได้
- การแยกและจำแนกข้อมูลที่ดีขึ้น: การดึงข้อมูลเป็นแกนหลักของการทำความเข้าใจเอกสาร ตามที่กล่าวไว้ในหัวข้อก่อนหน้านี้เกี่ยวกับการบูรณาการ RPA กับ OCR ในขั้นตอนนี้ ให้เลือกเทคนิคการดึงข้อมูลตามประเภทของเอกสาร ผ่าน RPA เราสามารถกำหนดค่าตัวแยกข้อมูลที่จะใช้ได้อย่างง่ายดาย ไม่ว่าจะเป็นเทคนิค OCR แบบอิงตามกฎหรือแบบ ML หรือแบบไฮบริด ตามตัวชี้วัดความเชื่อมั่นและประสิทธิภาพที่ส่งคืนหลังจากการดึงข้อมูล หุ่นยนต์ซอฟต์แวร์จะบันทึกในรูปแบบที่ต้องการสำหรับการวิเคราะห์เพิ่มเติม ด้านล่างนี้คือรูปภาพของวิธีที่เราสามารถกำหนดค่าตัวแยกและตั้งค่าระดับความมั่นใจในเครื่องมือ RPA โดย UIPath
6. การตรวจสอบและเสริมพลังข้อมูลเชิงลึก: โมเดล OCR และ Machine Learning นั้นไม่ถูกต้องร้อยเปอร์เซ็นต์ในแง่ของการดึงข้อมูล ดังนั้นการเพิ่มชั้นของการแทรกแซงของมนุษย์ด้วยความช่วยเหลือของหุ่นยนต์สามารถแก้ปัญหาได้ วิธีตรวจสอบความถูกต้องนี้คือเมื่อใดก็ตามที่หุ่นยนต์จัดการกับความแม่นยำและข้อยกเว้นต่ำ หุ่นยนต์จะส่งการแจ้งเตือนไปยังศูนย์ปฏิบัติการทันที ซึ่งพนักงานสามารถรับคำขอให้ตรวจสอบข้อมูลหรือจัดการข้อยกเว้น และสามารถแก้ไขความไม่แน่นอนต่างๆ ได้ด้วยการคลิก นอกจากนี้ เราสามารถปลดล็อกศักยภาพของปัญญาประดิษฐ์ในการบันทึกข้อมูลในช่วงเวลาหนึ่งเพื่อคาดการณ์ และระบุความผิดปกติที่อาจบ่งบอกถึงการฉ้อโกง การทำซ้ำ และข้อผิดพลาดอื่นๆ
ประโยชน์ของการรวมหุ่นยนต์เข้ากับการทำความเข้าใจเอกสาร
- กระบวนการอัตโนมัติ: เหตุผลหลักในการรวมบอทเพื่อความเข้าใจในเอกสารคือทำให้กระบวนการทั้งหมดเป็นไปโดยอัตโนมัติตั้งแต่ต้นจนจบ สิ่งที่เราต้องทำคือสร้างเวิร์กโฟลว์สำหรับบอทเพื่อเรียนรู้ นั่งลง และผ่อนคลาย ในระหว่างกระบวนการตรวจสอบ เราอาจต้องแก้ไขปัญหาที่ได้รับแจ้งจากบอทเมื่อมีการระบุข้อผิดพลาดหรือการฉ้อโกง
- บอทพร้อมการเรียนรู้ของเครื่อง: ในระหว่างกระบวนการอัตโนมัติ เราสามารถทำให้บอทมีความยืดหยุ่นต่อการเรียนรู้ของเครื่อง หมายความว่าหุ่นยนต์ยังสามารถเรียนรู้ว่าโมเดล Machine Learning ทำงานอย่างไร และด้วยเหตุนี้จึงปรับปรุงโมเดลเพื่อให้ได้รับความแม่นยำและประสิทธิภาพที่สูงขึ้นสำหรับการดึงข้อความและข้อมูลของเอกสาร
- ประมวลผลการประมวลผลเอกสารที่หลากหลาย: สำหรับงานทั่วไป เช่น การดึงตารางและข้อมูล เราจะต้องสร้างไปป์ไลน์การเรียนรู้เชิงลึกที่แตกต่างกันสำหรับเอกสารประเภทต่างๆ สิ่งนี้นำไปสู่การสร้างแอปพลิเคชั่นหลายตัวและปรับใช้โมเดลต่างๆ บนเซิร์ฟเวอร์ที่แตกต่างกัน ซึ่งต้องใช้ความพยายามและเวลาอย่างมาก เมื่อบ็อตอยู่ในรูปภาพสำหรับเอกสารที่หลากหลาย เราสามารถมีไปป์ไลน์เดียวเท่านั้นที่บอทสามารถจำแนกประเภทได้ จากนั้นจึงใช้แบบจำลองที่เหมาะสมสำหรับงานต่างๆ นอกจากนี้เรายังสามารถรวมบริการต่างๆ ผ่าน API และสื่อสารกับองค์กรอื่น ๆ ในแง่ของการดึงข้อมูล
- ง่ายต่อการปรับใช้: เพื่อความเข้าใจในเอกสารหลังจากสร้างไปป์ไลน์แล้ว กระบวนการปรับใช้จะใช้เวลาเพียงไม่กี่นาที เราสามารถส่งออก API โดยบอทหลังจากการฝึกอบรม หรือเราสามารถสร้างโซลูชัน RPA แบบกำหนดเองที่สามารถใช้ในระบบในพื้นที่ของเรา การปรับใช้ประเภทนี้ยังสามารถเพิ่มประสิทธิภาพองค์กรและสามารถลดค่าใช้จ่ายโดยมีความเสี่ยงน้อยที่สุด
ป้อน Nanonets
NanoNets เป็นแพลตฟอร์ม Machine Learning ที่ช่วยให้ผู้ใช้สามารถเก็บข้อมูลจาก ใบแจ้งหนี้, ใบเสร็จ และเอกสารอื่นๆ โดยไม่ต้องตั้งค่าเทมเพลต เรามีอัลกอริธึมการเรียนรู้เชิงลึกล้ำสมัยและคอมพิวเตอร์วิชันซิสเต็มที่ทำงานอยู่ที่ด้านหลัง ซึ่งสามารถจัดการงานการทำความเข้าใจเอกสารทุกประเภท เช่น OCR การดึงตาราง โดยปกติแล้วจะส่งออกเป็น API หรือปรับใช้ในองค์กรตามกรณีการใช้งานที่แตกต่างกัน นี่คือตัวอย่างบางส่วน
- รูปแบบใบแจ้งหนี้: ระบุช่องสำคัญจาก ใบแจ้งหนี้ เช่น ชื่อผู้ซื้อ รหัสใบแจ้งหนี้ วันที่ จำนวนเงิน เป็นต้น
- โมเดลใบเสร็จรับเงิน: ระบุฟิลด์คีย์จากใบเสร็จรับเงิน เช่น ชื่อผู้ขาย หมายเลข วันที่ จำนวนเงิน เป็นต้น
- ใบขับขี่ (USA): ระบุฟิลด์สำคัญเช่น License No, DOB, Expiry Date, Issue Date เป็นต้น
- ประวัติย่อ: ดึงประสบการณ์ การศึกษา ชุดทักษะ ข้อมูลผู้สมัคร ฯลฯ
เพื่อให้เวิร์กโฟลว์เหล่านี้รวดเร็วและมีประสิทธิภาพ เราใช้ UiPath ซึ่งเป็นเครื่องมือ RPA สำหรับการทำงานอัตโนมัติของเอกสารของคุณอย่างราบรื่นโดยไม่มีเทมเพลตใดๆ ในส่วนถัดไป เราจะพูดถึงวิธีการใช้ UiPath Connect กับ Nanonets เพื่อทำความเข้าใจเอกสาร ผู้เล่นรายใหญ่ที่สุด 3 รายในตลาด RPA ได้แก่ UiPath, Automation Anywhere และ ปริซึมสีน้ำเงิน. บล็อกนี้เน้นที่ Uipath
NanoNets พร้อม UiPath
เราได้เรียนรู้การสร้างไปป์ไลน์การทำความเข้าใจเอกสารในส่วนก่อนหน้าของเรา ต้องใช้ความรู้พื้นฐานเกี่ยวกับ OCR, RPA และการเรียนรู้ของเครื่อง เนื่องจากมีวิธีการและอัลกอริธึมที่แตกต่างกันสำหรับงานต่างๆ ในจุดต่างๆ นอกจากนี้ เรายังต้องใช้ความพยายามอย่างมากในการสร้าง Neural Networks ที่เข้าใจเทมเพลต การฝึกอบรม และการปรับใช้ของเรา ดังนั้น เพื่อให้ทุกอย่างสะดวกสบายและเป็นอัตโนมัติตั้งแต่อัปโหลดเอกสาร จัดประเภท สร้าง OCR ผสานรวมโมเดล ML พวกเราที่ Nanonets กำลังทำงานบน Ui Path เพื่อสร้างไปป์ไลน์ที่ไร้รอยต่อสำหรับการทำความเข้าใจเอกสาร ด้านล่างนี้เป็นภาพวิธีการทำงาน
ตอนนี้ มาทบทวนแต่ละรายการและเรียนรู้วิธีที่เราสามารถรวม Nanonets กับ UiPath ได้
ขั้นตอนที่ 1: ลงทะเบียนที่ UiPath และดาวน์โหลด UiPath Studio
ในการสร้างเวิร์กโฟลว์ ขั้นแรก เราจะต้องสร้างบัญชีใน UiPath หากคุณเป็นผู้ใช้อยู่แล้ว คุณสามารถเข้าสู่ระบบบัญชีของคุณได้โดยตรง โดยเปลี่ยนเส้นทางแดชบอร์ด UiPath ของคุณ ถัดไป คุณจะต้องดาวน์โหลดและติดตั้ง UiPath Studio (รุ่นชุมชน) ซึ่งให้บริการฟรี
ขั้นตอนที่ 2: ดาวน์โหลดส่วนประกอบนาโนเน็ต
ถัดไป เพื่อตั้งค่า .ของคุณ ไปป์ไลน์การประมวลผลใบแจ้งหนี้คุณจะต้องดาวน์โหลด Nanonets Connector จากลิงค์ด้านล่าง
-> NanoNets OCR – ส่วนประกอบ RPA
ด้านล่างนี้เป็นภาพหน้าจอของ UiPath Marketplace และ Nanonets Component นอกจากนี้ หากต้องการดาวน์โหลดสิ่งนี้ อย่าลืมลงชื่อเข้าใช้ UiPath จากระบบปฏิบัติการ Windows
ไฟล์ที่คุณดาวน์โหลดควรมีไฟล์ตามรายการด้านล่าง
UiPath OCR Predict ├── Main.xaml
└── project.json
ขั้นตอนที่ 3: เปิดไฟล์ Main.xaml Nanonets Component
หากต้องการตรวจสอบว่า Nanonets UiPath ทำงานหรือไม่ คุณสามารถเปิดไฟล์ Main.xml จากคอมโพเนนต์ Nanonets ที่ดาวน์โหลดมาโดยใช้ Ui Path Studio จากนั้น คุณจะเห็นไปป์ไลน์ของคุณที่สร้างไว้แล้วสำหรับคุณสำหรับการประมวลผลเอกสาร
ขั้นตอนที่ 4: รวบรวม Model ID, API Key และ API Endpoint จาก Nanonets APP
ถัดไป คุณสามารถใช้โมเดล OCR ที่ผ่านการฝึกอบรมจาก Nanonets APP และรวบรวม Model ID, API Key และ endpoint ด้านล่างนี้คือรายละเอียดเพิ่มเติมเพื่อให้คุณค้นหาได้อย่างรวดเร็ว
รหัสรุ่น: เข้าสู่ระบบบัญชี Nanonets ของคุณและไปที่ "โมเดลของฉัน" คุณสามารถฝึกโมเดลใหม่หรือคัดลอก ID แอปพลิเคชันของโมเดลที่มีอยู่
ปลายทาง API: คุณสามารถเลือกโมเดลที่มีอยู่แล้วคลิก Integrate เพื่อค้นหาตำแหน่งข้อมูล API ของคุณ ด้านล่างนี้คือตัวอย่างลักษณะปลายทางของคุณ
https://app.nanonets.com/api/v2/OCR/Model/XXXXXXX-4840-4c27-8940-d3add200779e/LabelUrls/
3. คีย์ API: ไปที่แท็บคีย์ API และคุณสามารถคัดลอกคีย์ API ที่มีอยู่หรือสร้างใหม่ได้
ขั้นตอนที่ 5: เพิ่มคำขอ HTTP เพื่อรับวิธีการและตัวแปรของคุณไปยัง UI Path
ในการผสานรวม Model ของคุณจาก Nanonets เข้ากับ UI Path คุณจะต้องคลิกแรกบน HTTP Request และเพิ่ม EndPoint ซึ่งสามารถพบได้ที่การนำทางด้านซ้ายภายใต้ส่วน Input ด้านล่างเป็นภาพหน้าจอ
ต่อมา เพิ่มตัวแปรทั้งหมดของคุณเพื่อสร้างการเชื่อมต่อจากสตูดิโอ UiPath ของคุณไปยัง Nanonets API คุณจะพบส่วนนี้ที่บานหน้าต่างด้านล่างที่ "แท็บตัวแปร" ด้านล่างนี้คือภาพหน้าจอ คุณจะต้องอัปเดต/คัดลอกคีย์ API, End Point และ Model-ID ของโมเดลของคุณที่นี่
ขั้นตอนที่ 6: เพิ่มตำแหน่งไฟล์สำหรับการคาดการณ์
สุดท้าย คุณสามารถเพิ่มตำแหน่งไฟล์ของคุณภายใต้แท็บแอตทริบิวต์ ดังที่แสดงในภาพหน้าจอด้านล่าง และกดปุ่มเล่นบนการนำทางด้านบนเพื่อคาดการณ์ผลลัพธ์ของคุณ
โว้ว! นี่คือผลลัพธ์ของเราสำหรับเอกสารที่เราร้องขอในภาพหน้าจอด้านล่าง หากต้องการดำเนินการเพิ่มเติม คุณสามารถเพิ่มตำแหน่งไฟล์และกดปุ่มเรียกใช้
ขั้นตอนที่ 7 – พุชเอาต์พุตเป็น CSV / ERP
สุดท้ายนี้ เพื่อปรับแต่งเอาต์พุตของเราให้อยู่ในรูปแบบที่คุณต้องการ เราสามารถเพิ่มบล็อคใหม่ให้กับไปป์ไลน์ของคุณในไฟล์ Main.XML นอกจากนี้เรายังสามารถผลักดันสิ่งนี้ไปยังระบบ ERP ที่มีอยู่ผ่านไฟล์ออฟไลน์หรือการเรียก API
สำหรับความช่วยเหลือใด ๆ ติดต่อเราได้ที่ support@nanonets.com
เว็บบินาร์
เข้าร่วม Webinar กับเราในวันอังคารหน้าเกี่ยวกับ OCR กับ RPA ลงทะเบียนที่นี่.
อ้างอิง
[2] การทำความเข้าใจเอกสาร – การประมวลผลเอกสาร AI
[3] RPA OCR – ยกระดับการทำงานอัตโนมัติ | นีซ
[4] วิธีใช้ AI เพื่อเพิ่มประสิทธิภาพการทำความเข้าใจเอกสาร
[5] https://www.uipath.com/product/document-understanding
[6] การใช้ NanoNets ในเวิร์กโฟลว์ UiPath สำหรับใบแจ้งหนี้ OCR
อ่านเพิ่มเติม
คุณอาจสนใจโพสต์ล่าสุดของเราที่:
ปรับปรุง:
เพิ่มเนื้อหาการอ่านเพิ่มเติมเกี่ยวกับการใช้และผลกระทบของ OCR, RPA ในการทำความเข้าใจเอกสาร
ที่มา: https://nanonets.com/blog/ocr-with-rpa-and-document-understanding-uipath/
- '
- &
- 000
- 2021
- 7
- ลงชื่อเข้าใช้
- การบัญชี
- การกระทำ
- ความได้เปรียบ
- AI
- ขั้นตอนวิธี
- อัลกอริทึม
- ทั้งหมด
- การวิเคราะห์
- API
- APIs
- app
- การใช้งาน
- การใช้งาน
- ศิลปะ
- ปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ (AI)
- ปัญญาประดิษฐ์และการเรียนรู้ด้วยเครื่อง
- อัตโนมัติ
- ระบบอัตโนมัติได้ทุกที่
- ที่ดีที่สุด
- ที่ใหญ่ที่สุด
- บล็อก
- ธ ปท
- บอท
- สร้าง
- การก่อสร้าง
- ธุรกิจ
- กล้อง
- กรณี
- ก่อให้เกิด
- ที่เกิดจาก
- การรู้จำอักขระ
- การจัดหมวดหมู่
- เมฆ
- แพลตฟอร์มคลาวด์
- รหัส
- ความรู้ความเข้าใจ
- การเก็บรวบรวม
- ความคิดเห็น
- ร่วมกัน
- ชุมชน
- บริษัท
- ส่วนประกอบ
- วิสัยทัศน์คอมพิวเตอร์
- ความมั่นใจ
- เนื้อหา
- การแก้ไข
- ค่าใช้จ่าย
- หน้าปัด
- ข้อมูล
- การจัดการข้อมูล
- จัดการ
- การเรียนรู้ลึก ๆ
- ผู้พัฒนา
- นักพัฒนา
- อุปกรณ์
- ดิจิตอล
- เอกสาร
- หลบ
- การขับขี่
- การศึกษา
- อย่างมีประสิทธิภาพ
- อีเมล
- พนักงาน
- ปลายทาง
- Enterprise
- ฯลฯ
- ดึงข้อมูล
- การสกัด
- ลักษณะ
- คุณสมบัติ
- สาขา
- ในที่สุด
- เงินทุน
- ชื่อจริง
- โฟกัส
- ฟอร์ม
- รูป
- การหลอกลวง
- ฟรี
- อนาคต
- Gartner
- General
- GIF
- ดี
- ให้คำแนะนำ
- การจัดการ
- อาการปวดหัว
- โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม
- จุดสูง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- ใหญ่
- มนุษย์
- เป็นลูกผสม
- แยกแยะ
- ภาพ
- ส่งผลกระทบ
- เพิ่ม
- ข้อมูล
- ข้อมูล
- การสกัดข้อมูล
- Intelligence
- ความตั้งใจ
- ปัญหา
- IT
- คีย์
- ความรู้
- KYC
- ภาษา
- ล่าสุด
- นำ
- ชั้นนำ
- เรียนรู้
- ได้เรียนรู้
- การเรียนรู้
- ชั้น
- เลฟเวอเรจ
- License
- ถูก จำกัด
- LINK
- ในประเทศ
- ที่ตั้ง
- เรียนรู้เครื่อง
- การจัดการ
- ตลาด
- ตลาด
- การจับคู่
- วัด
- พ่อค้า
- ตัวชี้วัด
- ไมโครซอฟท์
- ML
- แบบ
- Movies
- ภาษาธรรมชาติ
- ประมวลผลภาษาธรรมชาติ
- การเดินเรือ
- เครือข่าย
- ประสาท
- เครือข่ายประสาทเทียม
- NLP
- การประกาศ
- ตัวเลข
- OCR
- เปิด
- การดำเนินงาน
- ระบบปฏิบัติการ
- การดำเนินการ
- การรู้จำอักขระด้วยแสง
- ใบสั่ง
- อื่นๆ
- ผลิตภัณฑ์อื่นๆ
- หนังสือเดินทาง
- การปฏิบัติ
- ภาพ
- เวที
- ยอดนิยม
- โพสต์
- อำนาจ
- ความแม่นยำ
- การคาดการณ์
- กระบวนการอัตโนมัติ
- โปรแกรม
- โครงการ
- คุณภาพ
- ยก
- พิสัย
- RE
- การอ่าน
- ลด
- ผลสอบ
- ทบทวน
- หุ่นยนต์
- ระบบอัตโนมัติของกระบวนการหุ่นยนต์
- หุ่นยนต์
- หุ่นยนต์
- แอฟริกาใต้
- กฎระเบียบ
- วิ่ง
- วิ่ง
- สนามเพลาะ
- ประหยัด
- ขนาด
- การสแกน
- การขูด
- จอภาพ
- ไร้รอยต่อ
- ผู้ขาย
- ชุด
- บริการ
- ชุด
- ง่าย
- So
- ซอฟต์แวร์
- บอทซอฟต์แวร์
- โซลูชัน
- แก้
- ใช้จ่าย
- เริ่มต้น
- สถานะ
- ศึกษา
- สนับสนุน
- ระบบ
- ระบบ
- การสกัดตาราง
- เทคโนโลยี
- เทคโนโลยี
- ก้าวสู่อนาคต
- เวลา
- ด้านบน
- การฝึกอบรม
- ui
- อุ้ยพาธ
- บันทึก
- us
- สหรัฐอเมริกา
- กรณีใช้งาน
- ผู้ใช้
- ความคุ้มค่า
- กับ
- วิสัยทัศน์
- เว็บ
- webinar
- เว็บไซต์
- WHO
- หน้าต่าง
- ภายใน
- งาน
- เวิร์กโฟลว์
- โรงงาน
- XML
- ปี
- YouTube