Текст Amazon – це служба машинного навчання (ML), яка автоматично витягує текст, рукописний текст і дані з будь-якого документа чи зображення. Щоб спростити оцінку можливостей Amazon Texttract, ми запустили нову функцію Bulk Document Uploader на консолі Amazon Texttract, яка дає змогу швидко обробляти власний набір документів без написання коду.
У цій публікації ми пояснимо, коли та як використовувати засіб масового завантаження документів Amazon Texttract, щоб оцінити, як Amazon Texttract працює з вашими документами.
Огляд рішення
Bulk Document Uploader слід використовувати для швидкої оцінки Amazon Texttract для попередньо визначених випадків використання. Завантажуючи кілька документів одночасно через інтуїтивно зрозумілий інтерфейс, ви можете легко оцінити, наскільки добре Amazon Texttract працює з вашими документами.
Ви можете завантажити та обробити до 150 документів одночасно. На відміну від існуючих демонстраційних версій консолі Amazon Texttract, які накладають штучні обмеження на кількість документів, розмір документа та максимально дозволену кількість сторінок, Bulk Document Uploader підтримує обробку до 150 документів на запит і має той самий розмір документа та обмеження сторінок, що й API-інтерфейси Amazon Texttract. Це робить більш ефективним для вас оцінювання більшого набору документів.
Bulk Document Uploader виводить стандартну відповідь JSON Amazon Texttract і файл CSV. Результати надаються у форматі JSON для легкого програмного аналізу. Крім того, для простого порівняння та оцінки отриманої інформації надається зрозумілий для людини файл CSV із оцінками достовірності.
Використовуючи цю функцію, майте на увазі наступне:
- Bulk Document Uploader обробляє документи через асинхронні операції. Ви можете відстежувати статус обробки на консолі Amazon Texttract. Тільки DetectDocumentText (OCR), Аналіз документа (Таблиці, запити, форми та підписи) і Аналіз витрат API наразі підтримуються.
- Засіб масового завантаження документів надає результати JSON операцій API та відформатовані звіти CSV. Можливо, вам доведеться покладатися на зовнішні інструменти для візуалізації даних, наприклад відображення виділень обмежувальної рамки в документі за допомогою результатів JSON.
- За використання цієї функції для обробки документів стягується така ж плата, як за звичайне використання Amazon Texttract (залежно від того, яка функція використовується), і на нього поширюються обмеження TPS (транзакцій за секунду) для API, установлених для облікового запису та регіону. Для отримання додаткової інформації про ціни див Ціни Amazon Textract. Щоб дізнатися більше про обмеження Amazon Texttract, див Квоти в Amazon Texttract.
- Прийнятні формати файлів для масового завантаження: JPEG, PNG, TIF і PDF. У PDF-файлах також підтримуються зображення у форматі JPEG 2000. Обмеження розміру файлів JPEG і PNG становить 10 МБ, а файлів PDF і TIF — 500 МБ. Багатосторінкові файли PDF і TIF мають обмеження на 3,000 сторінок.
Використовуйте засіб масового завантаження документів
Bulk Document Uploader призначений для того, щоб допомогти вам швидко оцінити, як Amazon Texttract працює над набором ваших власних документів, без необхідності писати код. Ви можете використовувати Bulk Document Uploader для обробки до 150 документів замість того, щоб завантажувати та обробляти документи окремо. Ви можете масово завантажувати документи безпосередньо зі свого комп’ютера або імпортувати документи з наявного Служба простого зберігання Amazon (Amazon S3) відро.
Засіб масового завантаження документів надає результати, які ви можете завантажити пізніше для перегляду в режимі офлайн. Кожен файл ZIP, який можна завантажити, містить відповідь API Amazon Texttract у форматі файлу JSON і файл CSV, який можна прочитати людиною, із вилученими даними та оцінками достовірності. Вихідні результати доступні для завантаження протягом 7 днів після обробки. Через 14 днів документи вилучаються з Подані документи розділ. Щоб скористатися засобом масового завантаження документів, виконайте наведені нижче дії.
- На консолі Amazon Texttract під Демос на панелі навігації виберіть Масове завантаження документів.
- Вибирати Завантажте документи.
- Вкажіть джерело ваших документів.
У вас є два варіанти завантаження документів:
- Імпорт документів із сегмента S3 – Якщо ви використовуєте відро S3 для своїх документів, надайте URL-адресу відра та (необов’язково) префікс, де знаходяться ваші документи, у
s3://your-bucket/prefix/
формат. В якості альтернативи вибирайте Перегляньте S3 щоб переглянути та вибрати потрібне розташування ваших документів. Якщо вказане вами розташування Amazon S3 містить понад 150 документів, лише перші 150 документів буде надіслано в Amazon Texttract для обробки. - Завантажте документи зі свого комп’ютера – Якщо ви завантажуєте документи зі свого комп’ютера, ви можете завантажити до 50 документів одночасно, вибравши Завантажити документи. Щоб завантажити додаткові документи (не більше 150), виберіть Додайте документи після завантаження початкових документів.
У цьому випадку ваші документи спочатку завантажуються до сегмента S3 у вашому обліковому записі, який створюється від вашого імені, тому важливо переконатися, що у вас є дозволи на доступ до документів і їх завантаження в Amazon S3. Це одноразова дія, і те саме відро використовуватиметься для всіх наступних завантажень із вашого комп’ютера. Якщо ви хочете завантажити та обробити той самий набір документів, ви можете використати шлях до цього відра S3 за допомогою Імпорт документів із сегмента S3 варіант. Відро S3, створене від вашого імені, буде видимим після створення відра.
- Далі вкажіть функцію Amazon Texttract, яку ви хочете використовувати для обробки документів.
Ви можете вибрати лише одну функцію одночасно для обробки документів. Якщо вам потрібно оцінити додаткові функції, ви повинні створити окремий запит, вибравши потрібну функцію та повторно завантаживши документи. Якщо AnalyzeDocument – запити вибрано функцію, вам потрібно надати запити, які ви хочете перевірити на своїх документах. Ви можете вказати до 30 запитів одночасно. Якщо завантажені документи містять багатосторінкові файли (PDF або TIF), запити застосовуються лише до першої сторінки кожного документа. Відноситься до Найкращі методи для запитів щоб дізнатися, як створювати запити.
- Вибирати Почніть обробку щоб надіслати документи в Amazon Texttract для обробки.
Ви можете відстежувати стан документів і завантажувати вихідні результати оброблених документів у Подані документи розділ. Цей розділ періодично оновлюється, і ви можете вручну оновити його, щоб побачити, чи завершено обробку. Кожен документ обробляється окремо, тому ви можете вибрати документ за допомогою Готовий до завантаження або дочекайтеся завершення обробки всіх документів, щоб завантажити результати. Вихідні дані оброблених документів залишатимуться доступними для завантаження протягом 7 днів, після чого термін їх дії закінчиться. Прострочені документи будуть видалені з Подані документи через 7 додаткових днів (14 днів з дати обробки). Ми пропонуємо завантажити та зберегти результати протягом 7 днів.
Висновок
У цій публікації ми анонсували нову функцію Amazon Texttract Bulk Document Uploader, яка дозволяє швидко обробляти велику кількість документів для оцінки. Ви можете використовувати цю функцію, щоб оцінити Amazon Texttract для заздалегідь визначеного варіанту використання з вашими документами. Щоб дізнатися більше про те, як ви можете використовувати Amazon Texttract у робочому навантаженні інтелектуальної обробки документів, відвідайте веб-сторінку Функції Amazon Texttract та Початок роботи з Amazon Texttract.
Про авторів
Шашват Сапре є старшим менеджером із технічних продуктів у команді Amazon Texttract. Він зосереджений на створенні сервісів на основі машинного навчання для клієнтів AWS. У вільний час він любить читати про нові технології, подорожувати та вивчати різні кухні.
Анжан Бісвас є старшим архітектором рішень AI Services, який спеціалізується на AI/ML та аналізі даних. Анджан є частиною всесвітньої команди надання послуг штучного інтелекту та працює з клієнтами, щоб допомогти їм зрозуміти та розробити рішення бізнес-проблем за допомогою штучного інтелекту та машинного навчання. Анджан має понад 14 років досвіду роботи з глобальними ланцюжками постачання, виробництвом і роздрібними організаціями, і активно допомагає клієнтам почати роботу та масштабувати послуги AWS AI.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoAiStream. Web3 Data Intelligence. Розширення знань. Доступ тут.
- Карбування майбутнього з Адріенн Ешлі. Доступ тут.
- Купуйте та продавайте акції компаній, які вийшли на IPO, за допомогою PREIPO®. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- : має
- :є
- :де
- $UP
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- МЕНЮ
- доступ
- рахунки
- дію
- активно
- Додатковий
- Додатково
- після
- знову
- проти
- AI
- Послуги ШІ
- AI / ML
- ВСІ
- дозволяє
- Також
- Amazon
- Текст Amazon
- Amazon Web Services
- an
- аналіз
- аналітика
- та
- оголошений
- будь-який
- API
- Інтерфейси
- прикладної
- ЕСТЬ
- штучний
- AS
- At
- автоматично
- доступний
- AWS
- BE
- Box
- Створюємо
- бізнес
- by
- CAN
- можливості
- випадок
- випадків
- ланцюг
- вантажі
- Вибирати
- Вибираючи
- код
- порівняння
- повний
- комп'ютер
- довіра
- Консоль
- будувати
- містить
- створювати
- створений
- В даний час
- Клієнти
- дані
- Analytics даних
- Дата
- Днів
- Демос
- Залежно
- бажаний
- розвивати
- різний
- безпосередньо
- показ
- документ
- документація
- скачати
- кожен
- легко
- легко
- ефективний
- або
- дозволяє
- підвищена
- забезпечувати
- Ефір (ETH)
- оцінювати
- оцінка
- існуючий
- досвід
- Дослідження
- зовнішній
- Виписки
- особливість
- риси
- філе
- Файли
- Перший
- Сфокусувати
- увагу
- після
- для
- формат
- форми
- від
- отримати
- Глобальний
- Мати
- he
- допомога
- допомогу
- основний момент
- його
- Як
- How To
- HTML
- HTTP
- HTTPS
- читається людиною
- if
- зображення
- зображень
- імпорт
- важливо
- накладений
- in
- Індивідуально
- інформація
- початковий
- замість
- Розумний
- Інтелектуальна обробка документів
- призначених
- введення
- інтуїтивний
- IT
- JPG
- json
- тримати
- великий
- більше
- пізніше
- запущений
- УЧИТЬСЯ
- вивчення
- МЕЖА
- рамки
- розташування
- машина
- навчання за допомогою машини
- зробити
- РОБОТИ
- менеджер
- вручну
- виробництво
- багато
- максимальний
- Може..
- mind
- ML
- більше
- більш ефективний
- множинний
- повинен
- навігація
- Необхідність
- нужденних
- Нові
- Нові технології
- номер
- OCR
- of
- offline
- on
- один раз
- ONE
- тільки
- операції
- варіант
- Опції
- or
- організації
- вихід
- над
- власний
- сторінка
- pane
- частина
- шлях
- виступає
- period
- Дозволи
- plato
- Інформація про дані Платона
- PlatoData
- пошта
- практики
- консервування
- ціни без прихованих комісій
- проблеми
- процес
- процеси
- обробка
- Product
- менеджер по продукції
- програмний
- забезпечувати
- за умови
- забезпечує
- цілей
- запити
- Швидко
- швидко
- читання
- регіон
- регулярний
- покладатися
- залишатися
- Звіти
- запросити
- відповідь
- результати
- роздрібна торгівля
- огляд
- то ж
- шкала
- другий
- розділ
- побачити
- обраний
- вибирає
- старший
- посланий
- окремий
- обслуговування
- Послуги
- комплект
- Повинен
- Signatures
- простий
- одночасно
- Розмір
- So
- Рішення
- Source
- зазначений
- standard
- почалася
- Статус
- заходи
- зберігання
- тема
- представляти
- наступні
- такі
- пропонувати
- поставка
- ланцюжка поставок
- Підтриманий
- Опори
- команда
- технічний
- Технології
- тест
- ніж
- Що
- Команда
- Джерело
- Їх
- потім
- отже
- вони
- це
- через
- час
- до
- інструменти
- TPS
- трек
- Transactions
- Подорож
- два
- ui
- при
- розуміти
- на відміну від
- Updates
- завантажено
- Завантаження
- URL
- Використання
- використання
- використання випадку
- використовуваний
- використання
- через
- видимий
- візит
- візуалізації
- чекати
- хотіти
- we
- Web
- веб-сервіси
- ДОБРЕ
- коли
- який
- волі
- з
- в
- без
- робочий
- працює
- запис
- лист
- років
- ви
- вашу
- зефірнет
- Zip