معرفی
این مقاله شما را در مورد چگونگی خودکارسازی چندین روش مانند دیجیتالی کردن منو و یا فاکتور پردازشی که به طور سنتی به صورت دستی انجام می شود تا در زمان و هزینه های عملیاتی صرفه جویی شود.
همه ما لحظاتی را داشته ایم که ناگهان هوس یک دسر خوب می کنیم. گرفتن آن وان بزرگ بستنی پس از یک روز طولانی در محل کار، چند سال پیش باعث ناراحتی می شد. اما اپلیکیشن های تحویل غذا می توانند آن را با سرعتی بسیار سریع به شما برسانند. از آنجایی که شرکتهایی مانند DoorDash، DeliveryHero، GrubHub، FoodPanda، Swiggy، Zomato و Uber Eats برای سهم بیشتری از بازار در بازار تحویل غذا با هم رقابت میکنند، استفاده از فناوری که به شرکتها کمک میکند تا فعالیتهای خود را افزایش دهند به یک ضرورت برای مرتبط ماندن تبدیل شده است.
تجزیه و تحلیل گردش کار دیجیتالی سازی
دیجیتالی شدن تغییر کرده است نحوه عملکرد رستوران ها یا خدمات تحویل غذا در بازار تحویل غذا، دیجیتالیسازی به این شرکتها کمک کرده است تا فرآیندهای نصب خود را با دقت بالاتر کارآمدتر کنند. رستورانها از منوهای دیجیتال، میزهای تعاملی، تبلتهای روی میز و منوهای واقعیت افزوده، از جمله نوآوریهایی مانند این افراد در رستورانها استفاده میکنند. یپار -
به طور سنتی، این فرآیند بیشتر به صورت دستی یا با کمک برخی از نرم افزارهای OCR انجام می شد. اغلب، این فرآیند چندان دقیق نیست و انسان ها را ملزم می کند که خروجی ها را چندین بار در چندین مرحله از خط لوله بررسی کنند.
در اینجا به طور معمول یک گردش کار دیجیتالی منو چگونه به نظر می رسد -
- تصاویر منو گرفته شده است
- تصاویر منو به همراه جزئیاتی مانند نام رستوران، مخاطب، آدرس و غیره به سرویس تحویل مذکور ارسال می شود.
- داده های ارسالی تایید شده و منو برای دیجیتالی شدن و ورود ارسال می شود.
- اقلام غذایی، هزینه های آنها، مواد تشکیل دهنده، توضیحات و غیره از تصاویر استخراج شده و به صورت دستی وارد نرم افزار ورود داده می شود.
- این ورودی ها به صورت دستی بررسی می شوند و قبل از اینکه همه در نهایت به پایگاه داده منتقل شوند، خطاها تصحیح می شوند.
گردش کار ذکر شده در بالا در حال جایگزین شدن با گردشهای کاری است که OCR را برای کاهش کار ورودی داده و اجرای نتایج OCR از طریق بررسیهای دستی متعدد برای حداقل خطاها در خود جای داده است، اما این فرآیند بسیار عالی نیست. فرآیند کارآمدتری را می توان برای کاهش زمان صرف شده، کار دستی صرف شده و هزینه های انجام این کار طراحی کرد. بخش بعدی به شما نشان می دهد که یک گردش کار مدرن چگونه به نظر می رسد و چه چیزی می تواند بهتر انجام شود.
نانوت OCR API بسیار جالب دارد موارد استفاده. برای کسب اطلاعات بیشتر با یک متخصص هوش مصنوعی Nanonets صحبت کنید.
چگونه باید انجام شود
فرآیند ورود و بررسی دستی داده ها در گذشته است. این فرآیندها با گردش کار سریعتر با کمک دیجیتالی جایگزین شده اند. در اینجا یک گردش کار مدرن برای دیجیتالی کردن کارت منو چگونه به نظر می رسد -
- تصاویر منو گرفته شده است
- تصاویر پردازش میشوند، برای جهتگیری، تاری، نویز و غیره تصحیح میشوند. در صورت پایین بودن کیفیت تصویر، کیفیت بد به فروشنده اطلاع داده میشود و از آن درخواست میشود که تصاویر را مجدداً آپلود کند.
- هنگامی که تصاویر از قبل پردازش شدند، از طریق یک نرم افزار OCR ارسال می شوند و متن از تصاویر استخراج می شود.
- متن استخراج شده پاک می شود، در یک ساختار قرار می گیرد و به صورت خودکار وارد نرم افزار ورود داده می شود (مبتنی بر قالب یا غیر قالب).
- داده های وارد شده در نهایت توسط بازبین های دستی از نظر خطا بررسی می شود.
این نوع گردش کار خودکار با روشهای OCR سنتی ما امکانپذیر نبود، زیرا این روشها دقت کافی نداشتند، در موارد شدید مستعد خرابی آنها و تنوع زیاد در ساختار کارتهای مختلف منو هستند. اما با راهحلهای OCR با کمک یادگیری عمیق، میتوانیم راهحلهای OCR را که مبتنی بر قانون یا الگو هستند و میتوانند نه تنها تشخیص متن، بلکه استخراج اطلاعات را نیز خودکار کنند، حذف کنیم.
تصور کنید، اگر فروشنده ای تصاویر منو کارت را به همراه برخی جزئیات اضافی و روند یافتن نام اقلام فروخته شده آپلود کند، قیمت آنها، توضیحات و دسته بندی آنها به طور خودکار استخراج و در جدول قرار می گیرد. تنها چیزی که نیاز دارید یک بازبین در انتهای این حلقه است که به دنبال خطا در متن OCR میگردد، هر آنچه پیدا شده را تصحیح میکند و آن را به پایگاه داده ارسال میکند. خدمات تحویل غذای شما می تواند نرخ ورود به هواپیما را با خطاهای کمتر افزایش دهد، می تواند هزینه های صرف شده برای استخدام بازبین های دستی و افراد برای ورود داده ها را کاهش دهد و همچنین رضایت مشتری را افزایش دهد.
چالش در اجرا
La تکنولوژی OCR فعلی از طریق ابزارهای منبع باز یا محصولات تجاری موجود در دسترس ما هستند، دقت کافی برای خودکارسازی کامل این فرآیند را ندارند. این ناشی از چندین عامل است:
- الگوهای مختلف منوها بسیار زیاد است
داشتن مدلی که بتواند متن و همچنین ساختار و فیلدهای منو مانند دستهها، غذاها، توضیحات، قیمتها و غیره را استخراج کند، نیاز به راهحلهای غیرقالب دارد. - جهت منو در تصاویر
مدل نیاز به آموزش دارد افزوده شده تصاویر در جهت های مختلف یا تصاویر اصلی باید باشند مبدل به طور موثری به عملکرد مدل آسیب نرساند. - چندین زبان در یک منو
ساخت یک مدل تعمیمیافته برای چندین زبان یا نیازمند دادههای زیادی است یا مدلهای جداگانه با هم کار میکنند تا زبان را شناسایی کنند و سپس مدل مناسب را برای OCR اعمال کنند. - چندین فونت و اندازه فونت در یک منو
یک مدل ممکن است با یک فونت کاملا جدید و دشوار برای خواندن مواجه شود. این امر مستلزم آن است که مدل های خود را به صورت دوره ای با داده های جدید مجدداً آموزش دهیم تا به طور مداوم مدل های خود را در طول زمان بهبود دهیم. - دقت کاراکتر در مقابل دقت توالی
کاهش دقت توالی به دلیل دقت کاراکتر متوسط را می توان با جفت کردن لایه های کانولوشن با لایه های مکرر و مکانیسم های توجه. - نویز یا تاری در تصاویر منو
نویز و تاری در تصاویر منجر به دقت بد می شود و نویز، حذف تاری و وضوح فوق العاده تصاویر به اقدامات ضروری در پیش پردازش تصاویر تبدیل می شود. - مشکل در یافتن داده های آموزشی کافی
دادههایی که الگوها، فونتها، اندازه فونتها، وضوحها، زبانها، نویز، نور و شرایط تاری را نشان میدهند، در یک یا چند مجموعه داده منبع باز یافت نمیشوند. - فقدان ابزار و خدماتی که امکان ساخت مدل سفارشی آسان را فراهم می کند
بسیاری از سرویس های منبع باز یا پولی به کاربران اجازه نمی دهند مدل های خود را بر اساس داده های سفارشی بسازند. این موارد کاربرد فناوری OCR را محدود می کند.
حل کردن راه حل
همانطور که در بالا دیدید، ایجاد یک گردش کاری که بتواند به طور موثر در مقیاس کار کند، با فهرست طولانی از چالشها همراه است و یافتن راهحل به ما نیاز دارد که چندین حوزه OCR، یادگیری عمیق و بینایی رایانه را برای مشکل دیجیتالی کردن منوها اعمال کنیم.
درک مشکل
ما دیدهایم که نرمافزار ما از نظر برخی از چالشهای فنی که مهندسان یادگیری عمیق شما باید با آنها دست و پنجه نرم کنند، کجا میتواند کوتاه بیاید. تلاش برای قرار دادن این چالشها در یک خط لوله کلیتر برای دیجیتالی کردن منوها باید به ما کمک کند تا مشخص کنیم کدام بخش از فناوری فعلی نیاز به بهبود دارد، کدام یک باید حذف شود و چه چیزی باید اضافه شود.
یک گردش کار دیجیتالی منو به این شکل است -
- پیش پردازش تصویر - چالش های مربوط به کیفیت تصاویر، جهت گیری، نویز، تاری و تنوع در پس زمینه.
- OCR - چالش های مربوط به تشخیص کاراکتر مانند فونت ها، اندازه فونت ها، زبان ها، داده های آموزشی و دقت توالی.
- استخراج اطلاعات - در اینجا شما راه حل های مبتنی بر الگو و غیرقابل الگو و استخراج جدول را در نظر می گیرید.
- بررسی اطلاعات - هنگامی که اطلاعات استخراج شد و در ساختار مورد نیاز قرار گرفت، ما از بازبینان خود می خواهیم اشتباهات را تصحیح کنند یا اطلاعات گم شده را پر کنند.
درک تکنولوژی
پرداختن به این چالش ها در سطح فنی و همچنین در سطح محصول می تواند با استفاده از آخرین هنر در زمینه OCR و دیجیتالی سازی انجام شود.
- پیش پردازش تصویر - برای به دست آوردن نتایج OCR خوب، مهم است که مطمئن شوید تصاویر شما به درستی پردازش شده اند. مروری بر چالش ها و ابزارهای منبع باز موجود برای این کار را می توان یافت اینجا کلیک نمایید. هنگام تلاش برای انجام این کار، چندین چیز وجود دارد که باید به آنها توجه کرد -
- مقیاس بندی تصاویر به اندازه مناسب
- افزایش کنتراست
- باینریزه کردن تصویر
- حذف نویز و اسکن مصنوعات
- تصویر را خم کن
- OCR - حرکت از روش های سنتی OCR به روش های مبتنی بر یادگیری عمیق می تواند به افزایش دقت متن استخراج شده ما کمک کند. استفاده از روشهای مبتنی بر یادگیری عمیق نیز میتواند به ما کمک کند تا ساختار را بطور خودکار یاد بگیریم. خدمات ارائه شده توسط ابزارهای OCR در استفاده محدود هستند، زیرا اجازه ساخت مدل های سفارشی را نمی دهند و انعطاف پذیری ما را با توجه به الگوسازی نتایج OCR ما نیز محدود می کنند. چندین روش یادگیری عمیق وجود دارد که برای مشکل به کار رفته است و در مجموعه داده های مختلف عملکرد متفاوتی داشته است.
چندین ابزار منبع باز برای OCR در دسترس هستند Tesseract, KrakenOCRو توجه OCR. آموزش ساخت مدل با استفاده از Attention OCR را می توان یافت اینجا کلیک نمایید و یکی با استفاده از Tesseract و OpenCV را می توان پیدا کرد اینجا کلیک نمایید و اینجا کلیک نمایید. در نهایت با چه نوع دادههایی سروکار خواهید داشت، تعیین میکند که با چه نوع تصاویری سروکار دارید، منوها به چه زبانی هستند، فونتها و غیره. شما نیز نیاز دارید تنظیم دقیق این مدل ها را برای استفاده شما کار می کند.
- استخراج اطلاعات – فرآیند استخراج اطلاعات می تواند باشد مبتنی بر قالب یا غیر قالب. به دلیل تنوع طرحهای منو که دادههای شما شامل میشود، نمیتوان از یک راهحل مبتنی بر الگو برای دیجیتالی کردن منو استفاده کرد و داشتن یک الگوی متفاوت برای هر فروشندهای که با آن کار میکنید عملی به نظر نمیرسد. یک راه حل غیر مبتنی بر الگو برای استقرار مدل ها در مقیاس مورد نیاز است، چیزی که نیاز به مدل های یادگیری ماشینی طراحی شده با دقت دارد که بر روی داده های مختلف آموزش دیده اند. ما را ملزم به استفاده از روش های یادگیری عمیق مانند استخراج جدول و گراف شبکه های کانولوشن که بر روی طیف گسترده ای از داده ها آموزش دیده اند که تا حد ممکن زمینه ها را پوشش می دهد.
- بررسی اطلاعات - با خودکار کردن مراحل بالا با OCR و راه حل های غیر مبتنی بر الگو، تنها جایی که نیاز به مداخله انسانی دارد این مرحله نهایی است. آ انسان در حلقه است می تواند تمام اطلاعات استخراج شده را بررسی کرده و خطاها را تصحیح کند و داده های از دست رفته را پر کند. بازآموزی مدلها بر روی دادههای اصلاحشده میتواند سوگیری مدل را کاهش دهد و دقت را در طول زمان افزایش دهد. بسته به نوع کاربرد، میتوانید آستانه اطمینان را نیز برای قرار دادن پیشبینیها برای بررسی انتخاب کنید.
Nanonets را وارد کنید
با نانوت لازم نیست نگران یافتن استعدادهای یادگیری ماشینی، ساخت مدلها، درک زیرساختهای ابری یا استقرار باشید. اگر مشکل دیجیتالی کردن منو دارید که باید حل شود، NanoNets میتواند راهحلی سرتاسری ارائه دهد که تمام مشکلات ذکر شده در بالا را حل میکند و یک گردش کار خودکار روان و قابل اعتماد برای این فرآیند ارائه میکند.
آسان برای استفاده از رابط کاربری گرافیکی مبتنی بر وب
Nanonets یک رابط کاربری گرافیکی مبتنی بر وب برای استفاده آسان ارائه می دهد که با API آنها ارتباط برقرار می کند و به شما امکان می دهد مدل ها را ایجاد کنید، آنها را بر روی داده های خود آموزش دهید، معیارهای مهمی مانند دقت و صحت را دریافت کنید و استنتاج بر روی تصاویر خود را بدون نوشتن کد انجام دهید.
مدل های میزبانی شده در فضای ابری
علاوه بر ارائه چندین مدل که می توانند مستقیماً از جعبه برای دریافت راه حل استفاده شوند، کاربران می توانند مدل های خود را بسازند که در فضای ابری میزبانی می شوند و می توانند با یک درخواست API برای اهداف استنتاج به آنها دسترسی داشته باشند. نیازی نیست نگران دریافت نمونه GCP یا GPU برای آموزش باشید.
الگوریتم های پیشرفته
مدلهای ساخته شده از الگوریتمهای پیشرفته استفاده میکنند تا بهترین نتایج را به شما بدهند. این مدلها دائماً در حال تکامل هستند تا با دادههای بیشتر و بهتر و فناوری بهتر، طراحی معماری بهتر و تنظیمات فراپارامتر قویتر، بهتر شوند.
بزرگترین چالش در ساختن فاکتور محصول دیجیتالی سازی ساختاری به متن استخراج شده است. این کار توسط OCR API ما آسانتر شده است که بهطور خودکار تمام فیلدهای لازم را با مقادیر استخراج میکند و آنها را در یک جدول یا قالب JSON قرار میدهد تا شما به راحتی به آن دسترسی داشته باشید و بر اساس آن بسازید.
اتوماسیون هدایت می شود
ما در Nanonets معتقدیم که فرآیندهای خودکار مانند فاکتور دیجیتالی شدن می تواند تأثیر زیادی بر سازمان شما از نظر مزایای پولی، رضایت مشتری و رضایت کارکنان ایجاد کند. Nanonets تلاش میکند تا یادگیری ماشینی را در همه جا فراگیر کند و به همین منظور، هدف ما این است که هر مشکل تجاری را که شما حل کردهاید به گونهای بسازیم که به حداقل نظارت انسانی و بودجه در آینده نیاز داشته باشد.
OCR با Nanonets
La Nanonets OCR API به شما اجازه می دهد تا مدل های OCR را به راحتی بسازید. میتوانید دادههای خود را آپلود کنید، آنها را حاشیهنویسی کنید، مدل را روی آموزش تنظیم کنید و منتظر دریافت پیشبینیها از طریق یک UI مبتنی بر مرورگر باشید، بدون اینکه حتی یک خط کد بنویسید، نگران پردازندههای گرافیکی یا پیدا کردن معماریهای مناسب برای مدلهای یادگیری عمیق خود باشید.
دیجیتال سازی در 15 دقیقه
میتوانید دادههای خود را آپلود کنید و یک مدل را آموزش دهید، پاسخهای JSON هر پیشبینی را به دست آورید تا آن را با سیستمهای خود ادغام کنید و برنامههای مبتنی بر یادگیری ماشینی بسازید که بر اساس الگوریتمهای پیشرفته و زیرساخت قوی ساخته شدهاند.
در اینجا یک نسخه آزمایشی برای دیجیتالی کردن کارت شناسایی وجود دارد تا به شما ایده بدهد -
با استفاده از رابط کاربری گرافیکی: https://app.nanonets.com/
با دنبال کردن مراحل زیر می توانید از Nanonets-OCR API نیز استفاده کنید:
مرحله 1: شبیه سازی Repo ، نصب وابستگی ها (لینک مخزن)
git clone https://github.com/NanoNets/nanonets-id-card-digitization.git
cd nanonets-id-card-digitization
sudo pip install nanonets
مرحله 2: کلید API رایگان خود را دریافت کنید
کلید API رایگان خود را از اینجا دریافت کنید http://app.nanonets.com/#/keys
مرحله 3: کلید API را به عنوان یک محیط متغیر تنظیم کنید
export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE
مرحله 4: آپلود تصاویر برای آموزش
داده های آموزش در images
(پرونده های تصویری) و annotations
(حاشیه نویسی برای پرونده های تصویری)
python ./code/training.py
توجه داشته باشید: این یک MODEL_ID تولید می کند که برای مرحله بعدی به آن نیاز دارید
مرحله 5: شناسه مدل را به عنوان متغیر محیط اضافه کنید
export NANONETS_MODEL_ID=YOUR_MODEL_ID
توجه داشته باشید: YOUR_MODEL_ID را از مرحله قبل دریافت خواهید کرد
مرحله 6: داده های آموزش را بارگذاری کنید
python ./code/training.py
مرحله 7: حالت مدل را دریافت کنید
آموزش این مدل 2 ساعت پوند طول می کشد. پس از آموزش مدل ، ایمیل دریافت خواهید کرد. در ضمن حالت مدل را بررسی می کنید
python ./code/model-state.py
مرحله 8: پیش بینی کنید
پس از آموزش مدل. با استفاده از مدل می توانید پیش بینی کنید
python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg
نانو شبکه ها و انسان ها در حلقه
صفحه "متوسط" به فرایندهای اصلاح و ورود کمک می کند و تقریباً 90٪ از حجم کار مرورگر دستی را کاهش می دهد و هزینه های سازمان را 50٪ کاهش می دهد.
امکانات شامل
- پیش بینی های صحیح را دنبال کنید
- پیگیری کنید کدام اشتباه است
- اصلاحات را در موارد غیر دقیق انجام دهید
- موارد اشتباه را حذف کنید
- پیش بینی های از دست رفته را پر کنید
- تصاویر را با دامنه تاریخ فیلتر کنید
- تعداد تصاویر تعدیل شده را در مقابل آنهایی که تعدیل نشده اند بدست آورید
تمام قسمت ها به صورت GUI با کاربرد آسان ساخته شده اند که به کاربر این امکان را می دهد تا از تکنولوژی OCR بهره ببرد و در هنگام پیشرفت و بدون نیاز به تایپ کد یا درک نحوه کارکرد فناوری ، به پیشرفت آن کمک کند.
برای مطالعه بیشتر
به روز رسانی:
مطالب خواندنی بیشتری در مورد دیجیتالی کردن کارت منو در صنعت رستوران اضافه شد
ممکن است به آخرین پست های ما در این زمینه علاقه مند باشید:
شروع به استفاده از نانو شبکه برای اتوماسیون کنید
مدل را امتحان کنید یا امروز یک نسخه آزمایشی درخواست کنید!
منبع: https://nanonets.com/blog/menu-digitization-ocr-deep-learning/
- دسترسی
- مزیت - فایده - سود - منفعت
- AI
- ایدز
- الگوریتم
- در میان
- API
- برنامه های
- معماری
- هنر
- مقاله
- واقعیت افزوده
- خودکار
- اتوماسیون
- بهترین
- جعبه
- مرورگر
- ساختن
- بنا
- کسب و کار
- اهميت دادن
- موارد
- به چالش
- شخصیت شناسی
- ابر
- زیرساخت های ابری
- رمز
- شرکت
- چشم انداز کامپیوتر
- اعتماد به نفس
- محتوا
- اصلاحات
- هزینه
- جاری
- رضایت مشتری
- داده ها
- پایگاه داده
- روز
- مقدار
- معامله
- یادگیری عمیق
- تحویل
- خدمات حمل ونقل
- طرح
- دیجیتال
- دیجیتالی شدن
- DoorDash
- پست الکترونیک
- رضایت کارمندان
- مورد تأیید
- محیط
- و غیره
- استخراج
- عصاره ها
- شکست
- FAST
- زمینه
- سرانجام
- انعطاف پذیری
- غذا
- تحویل غذا
- قالب
- رایگان
- تابع
- آینده
- GIF
- رفتن
- خوب
- GPU ها
- گراب
- اینجا کلیک نمایید
- زیاد
- استخدام
- چگونه
- HTTPS
- انسان
- اندیشه
- شناسایی
- تصویر
- تأثیر
- افزایش
- اطلاعات
- استخراج اطلاعات
- شالوده
- تعاملی
- مسائل
- IT
- کلید
- کار
- زبان
- زبان ها
- آخرین
- یاد گرفتن
- یادگیری
- سطح
- رعد و برق
- محدود شده
- لاین
- فهرست
- طولانی
- فراگیری ماشین
- ساخت
- بازار
- متریک
- مدل
- پول
- نام
- سر و صدا
- OCR
- پیشنهادات
- شبانه روزی
- باز کن
- منبع باز
- OpenCV
- عملیات
- دیگر
- مردم
- کارایی
- پست ها
- دقت
- پیش گویی
- پیش بینی
- محصول
- محصولات
- کیفیت
- نرخ
- مطالعه
- واقعیت
- كاهش دادن
- رستوران
- رستوران ها
- نتایج
- بازآموزی
- این فایل نقد می نویسید:
- بررسی
- دویدن
- مقیاس
- پویش
- پرده
- خدمات
- تنظیم
- اشتراک گذاری
- کوتاه
- نرم افزار
- فروخته شده
- مزایا
- سرعت
- شروع
- دولت
- ماندن
- ارسال
- سودو
- Swiggy
- سیستم های
- استخراج جدول
- استعداد
- فن آوری
- فنی
- پیشرفته
- دستکاری
- آینده
- زمان
- آموزش
- آموزش
- اورد خوردن
- ui
- us
- موارد استفاده
- کاربران
- دید
- صبر کنيد
- WHO
- مهاجرت کاری
- گردش کار
- با این نسخهها کار
- نوشته
- سال
- یوتیوب
- زوماتو