Menu Digitization With OCR And Deep Learning

بازنشر افلاطون

دنبال: 0

معرفی

این مقاله شما را در مورد چگونگی خودکارسازی چندین روش مانند دیجیتالی کردن منو و یا فاکتور پردازشی که به طور سنتی به صورت دستی انجام می شود تا در زمان و هزینه های عملیاتی صرفه جویی شود.

همه ما لحظاتی را داشته ایم که ناگهان هوس یک دسر خوب می کنیم. گرفتن آن وان بزرگ بستنی پس از یک روز طولانی در محل کار، چند سال پیش باعث ناراحتی می شد. اما اپلیکیشن های تحویل غذا می توانند آن را با سرعتی بسیار سریع به شما برسانند. از آنجایی که شرکت‌هایی مانند DoorDash، DeliveryHero، GrubHub، FoodPanda، Swiggy، Zomato و Uber Eats برای سهم بیشتری از بازار در بازار تحویل غذا با هم رقابت می‌کنند، استفاده از فناوری که به شرکت‌ها کمک می‌کند تا فعالیت‌های خود را افزایش دهند به یک ضرورت برای مرتبط ماندن تبدیل شده است.

تجزیه و تحلیل گردش کار دیجیتالی سازی

دیجیتالی شدن تغییر کرده است نحوه عملکرد رستوران ها یا خدمات تحویل غذا در بازار تحویل غذا، دیجیتالی‌سازی به این شرکت‌ها کمک کرده است تا فرآیندهای نصب خود را با دقت بالاتر کارآمدتر کنند. رستوران‌ها از منوهای دیجیتال، میزهای تعاملی، تبلت‌های روی میز و منوهای واقعیت افزوده، از جمله نوآوری‌هایی مانند این افراد در رستوران‌ها استفاده می‌کنند. یپار -

[محتوای جاسازی شده]

به طور سنتی، این فرآیند بیشتر به صورت دستی یا با کمک برخی از نرم افزارهای OCR انجام می شد. اغلب، این فرآیند چندان دقیق نیست و انسان ها را ملزم می کند که خروجی ها را چندین بار در چندین مرحله از خط لوله بررسی کنند.

در اینجا به طور معمول یک گردش کار دیجیتالی منو چگونه به نظر می رسد -

تصاویر منو گرفته شده است
تصاویر منو به همراه جزئیاتی مانند نام رستوران، مخاطب، آدرس و غیره به سرویس تحویل مذکور ارسال می شود.
داده های ارسالی تایید شده و منو برای دیجیتالی شدن و ورود ارسال می شود.
اقلام غذایی، هزینه های آنها، مواد تشکیل دهنده، توضیحات و غیره از تصاویر استخراج شده و به صورت دستی وارد نرم افزار ورود داده می شود.
این ورودی ها به صورت دستی بررسی می شوند و قبل از اینکه همه در نهایت به پایگاه داده منتقل شوند، خطاها تصحیح می شوند.

گردش کار ذکر شده در بالا در حال جایگزین شدن با گردش‌های کاری است که OCR را برای کاهش کار ورودی داده و اجرای نتایج OCR از طریق بررسی‌های دستی متعدد برای حداقل خطاها در خود جای داده است، اما این فرآیند بسیار عالی نیست. فرآیند کارآمدتری را می توان برای کاهش زمان صرف شده، کار دستی صرف شده و هزینه های انجام این کار طراحی کرد. بخش بعدی به شما نشان می دهد که یک گردش کار مدرن چگونه به نظر می رسد و چه چیزی می تواند بهتر انجام شود.

نانوت OCR API بسیار جالب دارد موارد استفاده. برای کسب اطلاعات بیشتر با یک متخصص هوش مصنوعی Nanonets صحبت کنید.

چگونه باید انجام شود

فرآیند ورود و بررسی دستی داده ها در گذشته است. این فرآیندها با گردش کار سریعتر با کمک دیجیتالی جایگزین شده اند. در اینجا یک گردش کار مدرن برای دیجیتالی کردن کارت منو چگونه به نظر می رسد -

تصاویر منو گرفته شده است
تصاویر پردازش می‌شوند، برای جهت‌گیری، تاری، نویز و غیره تصحیح می‌شوند. در صورت پایین بودن کیفیت تصویر، کیفیت بد به فروشنده اطلاع داده می‌شود و از آن درخواست می‌شود که تصاویر را مجدداً آپلود کند.
هنگامی که تصاویر از قبل پردازش شدند، از طریق یک نرم افزار OCR ارسال می شوند و متن از تصاویر استخراج می شود.
متن استخراج شده پاک می شود، در یک ساختار قرار می گیرد و به صورت خودکار وارد نرم افزار ورود داده می شود (مبتنی بر قالب یا غیر قالب).
داده های وارد شده در نهایت توسط بازبین های دستی از نظر خطا بررسی می شود.

این نوع گردش کار خودکار با روش‌های OCR سنتی ما امکان‌پذیر نبود، زیرا این روش‌ها دقت کافی نداشتند، در موارد شدید مستعد خرابی آن‌ها و تنوع زیاد در ساختار کارت‌های مختلف منو هستند. اما با راه‌حل‌های OCR با کمک یادگیری عمیق، می‌توانیم راه‌حل‌های OCR را که مبتنی بر قانون یا الگو هستند و می‌توانند نه تنها تشخیص متن، بلکه استخراج اطلاعات را نیز خودکار کنند، حذف کنیم.

تصور کنید، اگر فروشنده ای تصاویر منو کارت را به همراه برخی جزئیات اضافی و روند یافتن نام اقلام فروخته شده آپلود کند، قیمت آنها، توضیحات و دسته بندی آنها به طور خودکار استخراج و در جدول قرار می گیرد. تنها چیزی که نیاز دارید یک بازبین در انتهای این حلقه است که به دنبال خطا در متن OCR می‌گردد، هر آنچه پیدا شده را تصحیح می‌کند و آن را به پایگاه داده ارسال می‌کند. خدمات تحویل غذای شما می تواند نرخ ورود به هواپیما را با خطاهای کمتر افزایش دهد، می تواند هزینه های صرف شده برای استخدام بازبین های دستی و افراد برای ورود داده ها را کاهش دهد و همچنین رضایت مشتری را افزایش دهد.

چالش در اجرا

La تکنولوژی OCR فعلی از طریق ابزارهای منبع باز یا محصولات تجاری موجود در دسترس ما هستند، دقت کافی برای خودکارسازی کامل این فرآیند را ندارند. این ناشی از چندین عامل است:

الگوهای مختلف منوها بسیار زیاد است
داشتن مدلی که بتواند متن و همچنین ساختار و فیلدهای منو مانند دسته‌ها، غذاها، توضیحات، قیمت‌ها و غیره را استخراج کند، نیاز به راه‌حل‌های غیرقالب دارد.
جهت منو در تصاویر
مدل نیاز به آموزش دارد افزوده شده تصاویر در جهت های مختلف یا تصاویر اصلی باید باشند مبدل به طور موثری به عملکرد مدل آسیب نرساند.
چندین زبان در یک منو
ساخت یک مدل تعمیم‌یافته برای چندین زبان یا نیازمند داده‌های زیادی است یا مدل‌های جداگانه با هم کار می‌کنند تا زبان را شناسایی کنند و سپس مدل مناسب را برای OCR اعمال کنند.
چندین فونت و اندازه فونت در یک منو
یک مدل ممکن است با یک فونت کاملا جدید و دشوار برای خواندن مواجه شود. این امر مستلزم آن است که مدل های خود را به صورت دوره ای با داده های جدید مجدداً آموزش دهیم تا به طور مداوم مدل های خود را در طول زمان بهبود دهیم.
دقت کاراکتر در مقابل دقت توالی
کاهش دقت توالی به دلیل دقت کاراکتر متوسط را می توان با جفت کردن لایه های کانولوشن با لایه های مکرر و مکانیسم های توجه.
نویز یا تاری در تصاویر منو
نویز و تاری در تصاویر منجر به دقت بد می شود و نویز، حذف تاری و وضوح فوق العاده تصاویر به اقدامات ضروری در پیش پردازش تصاویر تبدیل می شود.
مشکل در یافتن داده های آموزشی کافی
داده‌هایی که الگوها، فونت‌ها، اندازه فونت‌ها، وضوح‌ها، زبان‌ها، نویز، نور و شرایط تاری را نشان می‌دهند، در یک یا چند مجموعه داده منبع باز یافت نمی‌شوند.
فقدان ابزار و خدماتی که امکان ساخت مدل سفارشی آسان را فراهم می کند
بسیاری از سرویس های منبع باز یا پولی به کاربران اجازه نمی دهند مدل های خود را بر اساس داده های سفارشی بسازند. این موارد کاربرد فناوری OCR را محدود می کند.

حل کردن راه حل

همانطور که در بالا دیدید، ایجاد یک گردش کاری که بتواند به طور موثر در مقیاس کار کند، با فهرست طولانی از چالش‌ها همراه است و یافتن راه‌حل به ما نیاز دارد که چندین حوزه OCR، یادگیری عمیق و بینایی رایانه را برای مشکل دیجیتالی کردن منوها اعمال کنیم.

درک مشکل

ما دیده‌ایم که نرم‌افزار ما از نظر برخی از چالش‌های فنی که مهندسان یادگیری عمیق شما باید با آن‌ها دست و پنجه نرم کنند، کجا می‌تواند کوتاه بیاید. تلاش برای قرار دادن این چالش‌ها در یک خط لوله کلی‌تر برای دیجیتالی کردن منوها باید به ما کمک کند تا مشخص کنیم کدام بخش از فناوری فعلی نیاز به بهبود دارد، کدام یک باید حذف شود و چه چیزی باید اضافه شود.

یک گردش کار دیجیتالی منو به این شکل است -

پیش پردازش تصویر - چالش های مربوط به کیفیت تصاویر، جهت گیری، نویز، تاری و تنوع در پس زمینه.
OCR - چالش های مربوط به تشخیص کاراکتر مانند فونت ها، اندازه فونت ها، زبان ها، داده های آموزشی و دقت توالی.
استخراج اطلاعات - در اینجا شما راه حل های مبتنی بر الگو و غیرقابل الگو و استخراج جدول را در نظر می گیرید.
بررسی اطلاعات - هنگامی که اطلاعات استخراج شد و در ساختار مورد نیاز قرار گرفت، ما از بازبینان خود می خواهیم اشتباهات را تصحیح کنند یا اطلاعات گم شده را پر کنند.

درک تکنولوژی

پرداختن به این چالش ها در سطح فنی و همچنین در سطح محصول می تواند با استفاده از آخرین هنر در زمینه OCR و دیجیتالی سازی انجام شود.

پیش پردازش تصویر - برای به دست آوردن نتایج OCR خوب، مهم است که مطمئن شوید تصاویر شما به درستی پردازش شده اند. مروری بر چالش ها و ابزارهای منبع باز موجود برای این کار را می توان یافت اینجا کلیک نمایید. هنگام تلاش برای انجام این کار، چندین چیز وجود دارد که باید به آنها توجه کرد -
- مقیاس بندی تصاویر به اندازه مناسب
- افزایش کنتراست
- باینریزه کردن تصویر
- حذف نویز و اسکن مصنوعات
- تصویر را خم کن
OCR - حرکت از روش های سنتی OCR به روش های مبتنی بر یادگیری عمیق می تواند به افزایش دقت متن استخراج شده ما کمک کند. استفاده از روش‌های مبتنی بر یادگیری عمیق نیز می‌تواند به ما کمک کند تا ساختار را بطور خودکار یاد بگیریم. خدمات ارائه شده توسط ابزارهای OCR در استفاده محدود هستند، زیرا اجازه ساخت مدل های سفارشی را نمی دهند و انعطاف پذیری ما را با توجه به الگوسازی نتایج OCR ما نیز محدود می کنند. چندین روش یادگیری عمیق وجود دارد که برای مشکل به کار رفته است و در مجموعه داده های مختلف عملکرد متفاوتی داشته است.
چندین ابزار منبع باز برای OCR در دسترس هستند Tesseract, KrakenOCRو توجه OCR. آموزش ساخت مدل با استفاده از Attention OCR را می توان یافت اینجا کلیک نمایید و یکی با استفاده از Tesseract و OpenCV را می توان پیدا کرد اینجا کلیک نمایید و اینجا کلیک نمایید. در نهایت با چه نوع داده‌هایی سروکار خواهید داشت، تعیین می‌کند که با چه نوع تصاویری سروکار دارید، منوها به چه زبانی هستند، فونت‌ها و غیره. شما نیز نیاز دارید تنظیم دقیق این مدل ها را برای استفاده شما کار می کند.
استخراج اطلاعات – فرآیند استخراج اطلاعات می تواند باشد مبتنی بر قالب یا غیر قالب. به دلیل تنوع طرح‌های منو که داده‌های شما شامل می‌شود، نمی‌توان از یک راه‌حل مبتنی بر الگو برای دیجیتالی کردن منو استفاده کرد و داشتن یک الگوی متفاوت برای هر فروشنده‌ای که با آن کار می‌کنید عملی به نظر نمی‌رسد. یک راه حل غیر مبتنی بر الگو برای استقرار مدل ها در مقیاس مورد نیاز است، چیزی که نیاز به مدل های یادگیری ماشینی طراحی شده با دقت دارد که بر روی داده های مختلف آموزش دیده اند. ما را ملزم به استفاده از روش های یادگیری عمیق مانند استخراج جدول و گراف شبکه های کانولوشن که بر روی طیف گسترده ای از داده ها آموزش دیده اند که تا حد ممکن زمینه ها را پوشش می دهد.
بررسی اطلاعات - با خودکار کردن مراحل بالا با OCR و راه حل های غیر مبتنی بر الگو، تنها جایی که نیاز به مداخله انسانی دارد این مرحله نهایی است. آ انسان در حلقه است می تواند تمام اطلاعات استخراج شده را بررسی کرده و خطاها را تصحیح کند و داده های از دست رفته را پر کند. بازآموزی مدل‌ها بر روی داده‌های اصلاح‌شده می‌تواند سوگیری مدل را کاهش دهد و دقت را در طول زمان افزایش دهد. بسته به نوع کاربرد، می‌توانید آستانه اطمینان را نیز برای قرار دادن پیش‌بینی‌ها برای بررسی انتخاب کنید.

Nanonets را وارد کنید

با نانوت لازم نیست نگران یافتن استعدادهای یادگیری ماشینی، ساخت مدل‌ها، درک زیرساخت‌های ابری یا استقرار باشید. اگر مشکل دیجیتالی کردن منو دارید که باید حل شود، NanoNets می‌تواند راه‌حلی سرتاسری ارائه دهد که تمام مشکلات ذکر شده در بالا را حل می‌کند و یک گردش کار خودکار روان و قابل اعتماد برای این فرآیند ارائه می‌کند.

آسان برای استفاده از رابط کاربری گرافیکی مبتنی بر وب

Nanonets یک رابط کاربری گرافیکی مبتنی بر وب برای استفاده آسان ارائه می دهد که با API آنها ارتباط برقرار می کند و به شما امکان می دهد مدل ها را ایجاد کنید، آنها را بر روی داده های خود آموزش دهید، معیارهای مهمی مانند دقت و صحت را دریافت کنید و استنتاج بر روی تصاویر خود را بدون نوشتن کد انجام دهید.

مدل های میزبانی شده در فضای ابری

علاوه بر ارائه چندین مدل که می توانند مستقیماً از جعبه برای دریافت راه حل استفاده شوند، کاربران می توانند مدل های خود را بسازند که در فضای ابری میزبانی می شوند و می توانند با یک درخواست API برای اهداف استنتاج به آنها دسترسی داشته باشند. نیازی نیست نگران دریافت نمونه GCP یا GPU برای آموزش باشید.

الگوریتم های پیشرفته

مدل‌های ساخته شده از الگوریتم‌های پیشرفته استفاده می‌کنند تا بهترین نتایج را به شما بدهند. این مدل‌ها دائماً در حال تکامل هستند تا با داده‌های بیشتر و بهتر و فناوری بهتر، طراحی معماری بهتر و تنظیمات فراپارامتر قوی‌تر، بهتر شوند.

بزرگترین چالش در ساختن فاکتور محصول دیجیتالی سازی ساختاری به متن استخراج شده است. این کار توسط OCR API ما آسان‌تر شده است که به‌طور خودکار تمام فیلدهای لازم را با مقادیر استخراج می‌کند و آنها را در یک جدول یا قالب JSON قرار می‌دهد تا شما به راحتی به آن دسترسی داشته باشید و بر اساس آن بسازید.

اتوماسیون هدایت می شود

ما در Nanonets معتقدیم که فرآیندهای خودکار مانند فاکتور دیجیتالی شدن می تواند تأثیر زیادی بر سازمان شما از نظر مزایای پولی، رضایت مشتری و رضایت کارکنان ایجاد کند. Nanonets تلاش می‌کند تا یادگیری ماشینی را در همه جا فراگیر کند و به همین منظور، هدف ما این است که هر مشکل تجاری را که شما حل کرده‌اید به گونه‌ای بسازیم که به حداقل نظارت انسانی و بودجه در آینده نیاز داشته باشد.

OCR با Nanonets

La Nanonets OCR API به شما اجازه می دهد تا مدل های OCR را به راحتی بسازید. می‌توانید داده‌های خود را آپلود کنید، آن‌ها را حاشیه‌نویسی کنید، مدل را روی آموزش تنظیم کنید و منتظر دریافت پیش‌بینی‌ها از طریق یک UI مبتنی بر مرورگر باشید، بدون اینکه حتی یک خط کد بنویسید، نگران پردازنده‌های گرافیکی یا پیدا کردن معماری‌های مناسب برای مدل‌های یادگیری عمیق خود باشید.

دیجیتال سازی در 15 دقیقه

می‌توانید داده‌های خود را آپلود کنید و یک مدل را آموزش دهید، پاسخ‌های JSON هر پیش‌بینی را به دست آورید تا آن را با سیستم‌های خود ادغام کنید و برنامه‌های مبتنی بر یادگیری ماشینی بسازید که بر اساس الگوریتم‌های پیشرفته و زیرساخت قوی ساخته شده‌اند.

در اینجا یک نسخه آزمایشی برای دیجیتالی کردن کارت شناسایی وجود دارد تا به شما ایده بدهد -

با استفاده از رابط کاربری گرافیکی: https://app.nanonets.com/

با دنبال کردن مراحل زیر می توانید از Nanonets-OCR API نیز استفاده کنید:

مرحله 1: شبیه سازی Repo ، نصب وابستگی ها (لینک مخزن)

git clone https://github.com/NanoNets/nanonets-id-card-digitization.git
cd nanonets-id-card-digitization
sudo pip install nanonets

مرحله 2: کلید API رایگان خود را دریافت کنید
کلید API رایگان خود را از اینجا دریافت کنید http://app.nanonets.com/#/keys

مرحله 3: کلید API را به عنوان یک محیط متغیر تنظیم کنید

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

مرحله 4: آپلود تصاویر برای آموزش
داده های آموزش در images (پرونده های تصویری) و annotations (حاشیه نویسی برای پرونده های تصویری)

python ./code/training.py

توجه داشته باشید: این یک MODEL_ID تولید می کند که برای مرحله بعدی به آن نیاز دارید

مرحله 5: شناسه مدل را به عنوان متغیر محیط اضافه کنید

export NANONETS_MODEL_ID=YOUR_MODEL_ID

توجه داشته باشید: YOUR_MODEL_ID را از مرحله قبل دریافت خواهید کرد

مرحله 6: داده های آموزش را بارگذاری کنید

python ./code/training.py

مرحله 7: حالت مدل را دریافت کنید
آموزش این مدل 2 ساعت پوند طول می کشد. پس از آموزش مدل ، ایمیل دریافت خواهید کرد. در ضمن حالت مدل را بررسی می کنید

python ./code/model-state.py

مرحله 8: پیش بینی کنید
پس از آموزش مدل. با استفاده از مدل می توانید پیش بینی کنید

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

نانو شبکه ها و انسان ها در حلقه

صفحه "متوسط" به فرایندهای اصلاح و ورود کمک می کند و تقریباً 90٪ از حجم کار مرورگر دستی را کاهش می دهد و هزینه های سازمان را 50٪ کاهش می دهد.

امکانات شامل

پیش بینی های صحیح را دنبال کنید
پیگیری کنید کدام اشتباه است
اصلاحات را در موارد غیر دقیق انجام دهید
موارد اشتباه را حذف کنید
پیش بینی های از دست رفته را پر کنید
تصاویر را با دامنه تاریخ فیلتر کنید
تعداد تصاویر تعدیل شده را در مقابل آنهایی که تعدیل نشده اند بدست آورید

تمام قسمت ها به صورت GUI با کاربرد آسان ساخته شده اند که به کاربر این امکان را می دهد تا از تکنولوژی OCR بهره ببرد و در هنگام پیشرفت و بدون نیاز به تایپ کد یا درک نحوه کارکرد فناوری ، به پیشرفت آن کمک کند.