حتی در این عصر دیجیتال که شرکتهای بیشتری به سمت فضای ابری حرکت میکنند و از یادگیری ماشینی (ML) یا فناوری برای بهبود فرآیندهای تجاری استفاده میکنند، همچنان شاهد هستیم که تعداد زیادی از شرکتها به سراغ پردازش اسناد، بهویژه اسناد با دست خط میروند. ما فرم های استخدام، کارت های وقت و درخواست های مالی را با جداول و فرم هایی می بینیم که علاوه بر اطلاعات چاپی حاوی دست خط هستند. برای پیچیدهتر کردن مسائل، هر سند میتواند در قالبهای مختلف باشد و هر موسسه در هر صنعت معین ممکن است چندین قالب مختلف داشته باشد. سازمان ها به دنبال راه حل ساده ای هستند که بتواند اسناد پیچیده را با فرمت های مختلف از جمله جداول، فرم ها و داده های جدولی پردازش کند.
استخراج داده ها از این اسناد، به ویژه زمانی که ترکیبی از متن چاپی و دست نویس دارید، مستعد خطا، زمان بر، پرهزینه و مقیاس پذیر نیست. متن جاسازی شده در جداول و فرم ها به پیچیدگی استخراج و پردازش می افزاید. متن آمازون یک سرویس هوش مصنوعی AWS است که به طور خودکار متن چاپ شده، دست خط و سایر داده ها را از اسناد اسکن شده استخراج می کند که فراتر از تشخیص ساده کاراکتر نوری (OCR) برای شناسایی، درک و استخراج داده ها از فرم ها و جداول است.
پس از استخراج داده ها، مرحله پس پردازش در یک گردش کار مدیریت اسناد شامل بررسی ورودی ها و ایجاد تغییرات مورد نیاز برنامه های پردازش پایین دستی است. هوش مصنوعی آمازون افزوده شده است (Amazon A2I) پیکربندی یک بررسی انسانی را در گردش کار ML شما آسان می کند. این به شما این امکان را می دهد که به طور خودکار یک مرحله انسانی برای بررسی خط لوله ML خود داشته باشید، اگر نتایج زیر یک آستانه اطمینان مشخص قرار گرفتند، گردش کار بررسی و ممیزی را تنظیم کنید، و نتایج پیش بینی را در صورت نیاز اصلاح کنید.
در این پست، ما نشان میدهیم که چگونه میتوانید از ویژگی دستنویس آمازون برای استخراج دادههای جدولی از اسناد و داشتن یک حلقه بازبینی انسانی با استفاده از نوع وظیفه سفارشی Amazon A2I تا مطمئن شوید که پیش بینی ها بسیار دقیق هستند. ما نتایج را در آمازون DynamoDB، که یک پایگاه داده با ارزش کلید و سند است که عملکرد میلی ثانیه ای تک رقمی را در هر مقیاسی ارائه می دهد و داده ها را برای پردازش پایین دستی در دسترس قرار می دهد.
ما با استفاده از a شما را از طریق مراحل زیر راهنمایی می کنیم دفترچه ژوپیتر:
- از متن آمازون برای بازیابی داده های جدولی از سند و بررسی پاسخ استفاده کنید.
- یک حلقه انسانی Amazon A2I برای بررسی و اصلاح پاسخ آمازون متن تنظیم کنید.
- ارزیابی پاسخ Amazon A2I و ذخیره آن در DynamoDB برای پردازش پایین دست.
پیش نیازها
قبل از شروع، بیایید نوت بوک Jupyter را با استفاده از یک پیکربندی کنیم AWS CloudFormation قالب و سپس یک نیروی کار خصوصی Amazon A2I ایجاد کنید، که در نوت بوک برای تنظیم گردش کار سفارشی Amazon A2I مورد نیاز است.
راه اندازی نوت بوک Jupyter
ما یک الگوی CloudFormation را مستقر می کنیم که بسیاری از کارهای راه اندازی اولیه را برای شما انجام می دهد، مانند ایجاد یک هویت AWS و مدیریت دسترسی (IAM) نقش برای آمازون SageMaker، ایجاد یک نمونه نوت بوک SageMaker و شبیه سازی مخزن GitHub در نمونه نوت بوک.
- را انتخاب کنید Stack را راه اندازی کنید برای پیکربندی نوت بوک در منطقه شرقی ایالات متحده (ویرجینیای شمالی):
- هیچ تغییری در نام پشته یا پارامترها ایجاد نکنید.
- در توانمندی ها بخش، انتخاب کنید من تصدیق می کنم که AWS CloudFormation ممکن است منابع IAM را ایجاد کند.
- را انتخاب کنید پشته ایجاد کنید.
تصویر زیر از صفحه جزئیات پشته وضعیت پشته را به عنوان نشان می دهد CREATE_IN_PROGRESS
. تغییر وضعیت ممکن است تا 20 دقیقه طول بکشد CREATE_COMPLETE
.
- در کنسول SageMaker، را انتخاب کنید نمونه های نوت بوک.
- را انتخاب کنید ژوپیتر را باز کنید برای
TextractA2INotebook
نوت بوکی که ساختید - باز کن
textract-hand-written-a2i-forms.ipynb
و آنجا را دنبال کنید.
راه اندازی نیروی کار خصوصی Amazon A2I
برای این پست، یک تیم کاری خصوصی ایجاد می کنید و تنها یک کاربر (شما) را به آن اضافه می کنید. برای دستورالعمل، نگاه کنید ایجاد یک نیروی کار خصوصی (کنسول آمازون SageMaker). وقتی کاربر (شما) دعوت نامه را پذیرفت، باید خود را به نیروی کار اضافه کنید. برای دستورالعمل، نگاه کنید به یک کارگر را به یک تیم کاری اضافه کنید بخش در مدیریت نیروی کار (کنسول آمازون SageMaker).
پس از ایجاد نیروی کار برچسبگذاری، ARN نیروی کار را کپی کنید و آن را در سلول نوت بوک وارد کنید تا نیروی کار بازبینی خصوصی راه اندازی شود:
در بخش های بعدی شما را با مراحل استفاده از این نوت بوک آشنا می کنیم.
بازیابی داده های جدولی از سند و بررسی پاسخ
در این بخش مراحل زیر را با استفاده از دفترچه راهنما:
- داده های نمونه را که دارای محتوای چاپی و دست نویس هستند، مرور کنید.
- توابع کمکی را برای تجزیه پاسخ آمازون متن تنظیم کنید.
- پاسخ Amazon Texttract را بررسی و تجزیه و تحلیل کنید.
بررسی داده های نمونه
داده های نمونه را با اجرای سلول نوت بوک زیر بررسی کنید:
ما از نمونه سند زیر استفاده می کنیم که دارای محتوای چاپی و دست نویس در جداول است.
از کتابخانه تجزیه کننده متن آمازون برای پردازش پاسخ استفاده کنید
ما اکنون وارد می کنیم تجزیه کننده پاسخ متن آمازون کتابخانه برای تجزیه و استخراج آنچه ما از پاسخ آمازون متن نیاز داریم. در اینجا دو عملکرد اصلی وجود دارد. اول، دادههای فرم (جفتهای کلید-مقدار) را بخشی از قسمت سرصفحه سند استخراج میکنیم. دوم، ما جدول و سلول ها را تجزیه می کنیم تا یک فایل csv حاوی داده های جدولی ایجاد کنیم. در این نوت بوک، ما از Amazon Textract's Sync API برای استخراج سند استفاده خواهیم کرد. آنالیز سند. این فایل های تصویری (png یا jpeg) را به عنوان ورودی می پذیرد.
شما می توانید از کتابخانه Amazon Textract Response Parser برای تجزیه آسان JSON بازگشتی توسط Amazon Textract استفاده کنید. این کتابخانه JSON را تجزیه می کند و ساختارهای خاص زبان برنامه نویسی را برای کار با بخش های مختلف سند ارائه می دهد. برای جزئیات بیشتر، لطفا به کتابخانه تجزیه کننده متن آمازون
اکنون که محتویات مورد نیاز از تصویر سند را داریم، بیایید یک فایل csv برای ذخیره آن ایجاد کنیم و همچنین از آن برای راه اندازی حلقه انسانی Amazon A2I برای بررسی و اصلاح در صورت نیاز استفاده کنیم.
از طرف دیگر، اگر می خواهید این نوت بوک را برای استفاده از یک فایل PDF یا برای پردازش دسته ای اسناد تغییر دهید، از StartDocumentAnalysis API. StartDocumentAnalysis
یک شناسه شغلی را برمی گرداند (JobId
) که برای دریافت نتایج عملیات استفاده می کنید. هنگامی که تجزیه و تحلیل متن به پایان رسید، آمازون متن یک وضعیت تکمیل را در موضوع سرویس اطلاع رسانی ساده آمازون (Amazon SNS) که در آن مشخص کرده اید، منتشر می کند. NotificationChannel
. برای به دست آوردن نتایج عملیات تجزیه و تحلیل متن، ابتدا بررسی کنید که مقدار وضعیت منتشر شده در مبحث Amazon SNS موفقیت آمیز باشد. اگر چنین است، تماس بگیرید GetDocumentAnalysis
، و شناسه شغل را ارسال کنید (JobId
) از تماس اولیه تا StartDocumentAnalysis
.
بازرسی و تجزیه و تحلیل پاسخ آمازون متن
اکنون موارد خط فرم را در یک Pandas DataFrame بارگذاری می کنیم و آن را تمیز می کنیم تا مطمئن شویم که ستون ها و ردیف های مربوطه را داریم که برنامه های پایین دستی به آن نیاز دارند. سپس آن را برای بررسی انسانی به Amazon A2I ارسال می کنیم.
سلول نوت بوک زیر را برای بازرسی و تجزیه و تحلیل داده های کلید-مقدار از پاسخ متن آمازون اجرا کنید:
تصویر زیر خروجی ما را نشان می دهد.
سلول نوت بوک زیر را برای بررسی و تجزیه و تحلیل داده های جدولی از پاسخ متن آمازون اجرا کنید:
تصویر زیر خروجی ما را نشان می دهد.
میتوانیم ببینیم که Amazon Texttract هم محتوای چاپی و هم دستنویس را از دادههای جدولی شناسایی میکند.
راه اندازی یک حلقه انسانی آمازون A2I
Amazon A2I از دو نوع وظیفه داخلی پشتیبانی می کند: استخراج جفت کلید-مقدار متن آمازون و تعدیل تصویر آمازون Rekognitionو نوع کار سفارشی که می توانید از آن برای ادغام یک حلقه بررسی انسانی در هر گردش کار ML استفاده کنید. میتوانید از یک نوع کار سفارشی برای ادغام Amazon A2I با سایر سرویسهای AWS استفاده کنید درک آمازون, آمازون رونوشتو ترجمه آمازونو همچنین گردش کار ML سفارشی شما. برای کسب اطلاعات بیشتر، ببینید از موارد و مثال ها با استفاده از Amazon A2I استفاده کنید.
در این بخش، نحوه استفاده از نوع وظیفه سفارشی Amazon A2I برای ادغام با جداول متنی آمازون و جفتهای کلید-مقدار را از طریق دفترچه راهنما برای نمرات تشخیص با اطمینان پایین از پاسخ های آمازون تکست. شامل مراحل زیر است:
- یک UI کار انسانی ایجاد کنید.
- یک تعریف گردش کار ایجاد کنید.
- پیش بینی ها را به حلقه های انسانی آمازون A2I ارسال کنید.
- به پورتال کارگر وارد شوید و نتایج متن آمازون را حاشیه نویسی یا تأیید کنید.
ایجاد یک UI کار انسانی
شما می توانید با ایجاد a یک Task UI برای کارگران خود ایجاد کنید الگوی کار کارگر. الگوی کار کارگر یک فایل HTML است که برای نمایش دادههای ورودی و دستورالعملها برای کمک به کارگران در تکمیل کار شما استفاده میکنید. اگر در حال ایجاد یک گردش کار بازبینی انسانی برای یک نوع کار سفارشی هستید، باید با استفاده از کد HTML یک الگوی کار سفارشی کارگر ایجاد کنید. برای اطلاعات بیشتر ببین الگوی کار Custom Worker Task ایجاد کنید.
برای این پست، یک قالب HTML سفارشی برای رندر کردن جداول آمازون متن و جفتهای کلید-مقدار در نوت بوک ایجاد کردیم. می توانید قالب را پیدا کنید tables-keyvalue-sample.liquid.html در مخزن GitHub ما و آن را برای مورد استفاده از سند خاص خود سفارشی کنید.
هر زمان که نیاز به حلقه انسانی باشد از این الگو استفاده می شود. ما بیش از 70 رابط کاربری از پیش ساخته شده در دسترس داریم GitHub. به صورت اختیاری، می توانید این تعریف گردش کار را بر روی ایجاد کنید کنسول آمازون A2I. برای دستورالعمل، نگاه کنید یک گردش کار بررسی انسانی ایجاد کنید.
بعد از اینکه این الگوی سفارشی را با استفاده از HTML ایجاد کردید، باید از این الگو برای ایجاد یک UI انسانی آمازون A2I نام منبع آمازون (ARN) استفاده کنید. این ARN دارای فرمت زیر است: arn:aws:sagemaker
:<aws-region>:aws-account-number>:human-task-u
من/نام الگو> این ARN با یک منبع الگوی کار کارگر مرتبط است که می توانید از آن در یک یا چند گردش کار بررسی انسانی (تعریف جریان) استفاده کنید. با استفاده از یک الگوی کار کارگر با استفاده از ARN یک UI task انسانی ایجاد کنید CreateHumanTaskUi عملیات API با اجرای سلول نوت بوک زیر:
کد قبلی یک ARN را به عنوان خروجی به شما می دهد که در مرحله بعد از آن در تنظیم تعاریف جریان استفاده می کنیم:
ایجاد تعریف گردش کار
در این قسمت یک تعریف جریان ایجاد می کنیم. تعاریف جریان به ما امکان می دهد موارد زیر را مشخص کنیم:
- نیروی کاری که وظایف شما به آنها فرستاده می شود
- دستورالعمل هایی که نیروی کار شما دریافت می کند (الگوی وظیفه کارگر)
- جایی که داده های خروجی شما ذخیره می شود
برای این پست از API در کد زیر استفاده می کنیم:
به صورت اختیاری، می توانید این تعریف گردش کار را بر روی ایجاد کنید کنسول آمازون A2I. برای دستورالعمل، نگاه کنید یک گردش کار بررسی انسانی ایجاد کنید.
ارسال پیش بینی به حلقه های انسانی آمازون A2I
ما یک لیست آیتم از Pandas DataFrame ایجاد می کنیم که در آن خروجی Amazon Texttract ذخیره شده است. سلول نوت بوک زیر را اجرا کنید تا لیستی از مواردی که برای بررسی ارسال می شوند ایجاد کنید:
شما یک خروجی از تمام سطرها و ستون های دریافتی از Amazon Textract دریافت می کنید:
سلول نوت بوک زیر را اجرا کنید تا لیستی از جفت های کلید-مقدار دریافت کنید:
کد زیر را برای ایجاد پاسخ JSON برای حلقه آمازون A2I با ترکیب کلید-مقدار و لیست جدول از سلول های قبلی اجرا کنید:
حلقه انسان را با اجرای سلول نوت بوک زیر شروع کنید:
وضعیت حلقه انسان را با کد زیر بررسی کنید:
خروجی زیر را دریافت می کنید که وضعیت حلقه انسان و سطل مقصد خروجی S3 را نشان می دهد:
حاشیه نویسی نتایج از طریق پورتال کارگر
مراحل را در نوت بوک اجرا کنید تا وضعیت حلقه انسان را بررسی کنید. می توانید از همراه استفاده کنید نوت بوک SageMaker Jupyter برای انجام مراحل این پست
- سلول نوت بوک زیر را اجرا کنید تا پیوند ورود به سیستم را برای پیمایش به پورتال نیروی کار خصوصی دریافت کنید:
- پیوند ورود به پورتال کارگر خصوصی را انتخاب کنید.
- شغل بازبینی انسانی را انتخاب کنید.
- را انتخاب کنید شروع به کار.
شما به کنسول آمازون A2I هدایت می شوید، جایی که سند اصلی نمایش داده شده، جفت کلید-مقدار خود، پاسخ های متنی شناسایی شده از Amazon Textract و پاسخ های جدول خود را پیدا می کنید.
به پایین پیمایش کنید تا فرم تصحیح جفتهای کلید-مقدار و متن را بیابید، جایی که میتوانید نتایج را تأیید کنید و پاسخ متن آمازون را با سند اصلی مقایسه کنید. همچنین رابط کاربری را برای اصلاح محتوای دستنویس و چاپی جدولی پیدا خواهید کرد.
می توانید هر سلول را بر اساس پاسخ تصویر اصلی تغییر دهید و مقادیر صحیح را دوباره وارد کنید و پاسخ خود را ارسال کنید. هنگامی که پاسخ های خود را ارسال می کنید، گردش کار برچسب گذاری کامل می شود.
ارزیابی نتایج
وقتی کار برچسبگذاری کامل شد، نتایج شما باید در مسیر خروجی S3 مشخص شده در تعریف گردش کار بررسی انسانی در دسترس باشد. پاسخ های انسانی برگردانده شده و در فایل JSON ذخیره می شوند. برای دریافت نتایج از Amazon S3، سلول نوت بوک را اجرا کنید:
کد زیر قطعه ای از فایل JSON خروجی حاشیه نویسی Amazon A2I را نشان می دهد:
ذخیره نتایج مشروح آمازون A2I در DynamoDB
اکنون فرم را با محتویات به روز شده در جدول DynamoDB ذخیره می کنیم تا برنامه های پایین دستی بتوانند از آن استفاده کنند. برای خودکار کردن فرآیند، به سادگی یک را تنظیم کنید AWS لامبدا با DynamoDB راه اندازی کنید تا به طور خودکار اطلاعات را به نقاط انتهایی API یا برنامه های کاربردی خود استخراج و ارسال کنید. برای اطلاعات بیشتر ببین DynamoDB Streams و AWS Lambda Triggers.
برای ذخیره نتایج، مراحل زیر را انجام دهید:
- پاسخهای انسانی برای مقادیر کلیدی و متن را در یک DataFrame دریافت کنید سلول نوت بوک زیر را اجرا می کند:
- با اجرای سلول زیر، پاسخ های بررسی شده توسط انسان برای داده های جدولی را در یک DataFrame دریافت کنید:
- DataFrames را در یک DataFrame ترکیب کنید تا در جدول DynamoDB ذخیره شود:
ایجاد جدول DynamoDB
جدول DynamoDB خود را با کد زیر ایجاد کنید:
شما خروجی زیر را دریافت می کنید:
بارگذاری محتویات DataFrame در جدول DynamoDB
محتویات DataFrame خود را با کد زیر در جدول DynamoDB خود آپلود کنید:
توجه داشته باشید: هنگام اضافه کردن محتویات از چندین سند در جدول DynamoDB خود، لطفاً مطمئن شوید که شماره سند را به عنوان ویژگی برای تمایز بین اسناد اضافه کنید. در مثال زیر ما فقط از ایندکس به عنوان line_nr استفاده می کنیم زیرا با یک سند کار می کنیم.
برای بررسی اینکه آیا آیتم ها به روز شده اند، کد زیر را برای بازیابی مقدار جدول DynamoDB اجرا کنید:
همچنین، می توانید مانند تصویر زیر، جدول موجود در کنسول DynamoDB را بررسی کنید.
نتیجه
این پست نشان داد که استفاده از سرویسها در لایه هوش مصنوعی پشته AWS AI/ML، مانند Amazon Textract و Amazon A2I، برای خواندن و پردازش دادههای جدولی از فرمهای دستنویس چقدر آسان است و آنها را در یک جدول DynamoDB برای برنامههای کاربردی پاییندست ذخیره میکند. برای استفاده. همچنین می توانید داده های فرم افزوده شده را از Amazon A2I به یک سطل S3 ارسال کنید تا توسط برنامه های تحلیلی AWS شما مصرف شود.
برای ارائههای ویدیویی، نمونه نوتبوکهای Jupyter، یا اطلاعات بیشتر درباره موارد استفاده مانند پردازش سند، تعدیل محتوا، تجزیه و تحلیل احساسات، ترجمه متن و موارد دیگر، رجوع کنید به منابع هوش مصنوعی افزوده آمازون. اگر این پست به شما کمک می کند یا الهام بخش شما برای حل یک مشکل است، ما دوست داریم در مورد آن بشنویم! کد این راه حل در دسترس است GitHub repo برای استفاده و گسترش مشارکت همیشه خوش آمدید!
درباره نویسنده
پرم رنگا یک معمار Enterprise Solutions مستقر در آتلانتا، GA است. او بخشی از انجمن حوزه فنی یادگیری ماشین است و دوست دارد با مشتریان در سفر ML و AI کار کند. پرم به رباتیک علاقه زیادی دارد، یک محقق وسایل نقلیه خودمختار است و همچنین Beer Pours تحت کنترل الکسا را در هیوستون و مکانهای دیگر ساخت.
مونا مونا یک معمار راه حل های تخصصی AI/ML است که در آرلینگتون، ویرجینیا مستقر است. او با تیم بخش عمومی جهانی کار می کند و به مشتریان کمک می کند تا یادگیری ماشینی را در مقیاس بزرگ بپذیرند. او به حوزههای قابل توضیح NLP و ML در AI/ML علاقهمند است.
سریهارشا ام اس یک معمار راه حل متخصص AI/ML در تیم متخصص استراتژیک در خدمات وب آمازون است. او با مشتریان استراتژیک AWS کار می کند که از AI/ML برای حل مشکلات پیچیده تجاری استفاده می کنند. او راهنمایی های فنی و مشاوره طراحی را برای پیاده سازی برنامه های AI/ML در مقیاس ارائه می دهد. تخصص او شامل معماری اپلیکیشن، کلان داده، تجزیه و تحلیل و یادگیری ماشین است.