Амазонка Текст — это служба машинного обучения (ML), которая автоматически извлекает текст, рукописный текст и данные из любого документа или изображения. Чтобы упростить оценку возможностей Amazon Textract, мы запустили новую функцию массовой загрузки документов в консоли Amazon Textract, которая позволяет быстро обрабатывать собственный набор документов без написания кода.
В этом посте мы расскажем, когда и как использовать Amazon Textract Bulk Document Uploader, чтобы оценить, как Amazon Textract работает с вашими документами.
Обзор решения
Средство массовой загрузки документов следует использовать для быстрой оценки Amazon Textract для заранее определенных вариантов использования. Загружая несколько документов одновременно через интуитивно понятный пользовательский интерфейс, вы можете легко оценить, насколько хорошо Amazon Textract работает с вашими документами.
Вы можете загрузить и обработать до 150 документов одновременно. В отличие от существующих демонстрационных версий консоли Amazon Textract, которые налагают искусственные ограничения на количество документов, размер документа и максимально допустимое количество страниц, средство массовой загрузки документов поддерживает обработку до 150 документов на запрос и имеет те же ограничения на размер документа и количество страниц, что и API Amazon Text. Это позволяет более эффективно оценивать больший набор документов.
Средство массовой загрузки документов выводит стандартный ответ Amazon Textract в формате JSON и файл CSV. Результаты предоставляются в формате JSON для удобного программного анализа. Кроме того, предоставляется удобочитаемый CSV-файл с показателями достоверности для простого сравнения и оценки извлеченной информации.
При использовании этой функции имейте в виду следующее:
- Средство массовой загрузки документов обрабатывает документы через асинхронные операции. Статус обработки можно отслеживать в консоли Amazon Textract. Только ДетектДокументТекст (ОРС), АнализДокумент (таблицы, запросы, формы и подписи) и АнализироватьРасходы В настоящее время поддерживаются API.
- Средство массовой загрузки документов предоставляет результаты операций API в формате JSON и отчеты в формате CSV. Возможно, вам придется полагаться на внешние инструменты для визуализации данных, например, для отображения выделения ограничительной рамки в документе с использованием результатов JSON.
- За использование этой функции для обработки документов взимается та же плата, что и за обычное использование Amazon Textract (в зависимости от того, какая функция используется), и на нее распространяются ограничения TPS (транзакций в секунду) для API, которые установлены для учетной записи и региона. Для получения дополнительной информации о ценах см. Цены на Amazon Textract. Чтобы узнать больше об ограничениях Amazon Textract, см. Квоты в Amazon Text.
- Допустимые форматы файлов для массовой загрузки: JPEG, PNG, TIF и PDF. Изображения в формате PDF, закодированные в формате JPEG 2000, также поддерживаются. Файлы JPEG и PNG имеют ограничение размера 10 МБ, тогда как файлы PDF и TIF имеют ограничение размера 500 МБ. Многостраничные файлы PDF и TIF имеют ограничение в 3,000 страниц.
Используйте средство массовой загрузки документов
Средство массовой загрузки документов предназначено для того, чтобы помочь вам быстро оценить, как Amazon Textract работает с набором ваших собственных документов, без необходимости написания кода. Вы можете использовать средство массовой загрузки документов для обработки до 150 документов вместо загрузки и обработки документов по отдельности. Вы можете массово загружать документы прямо со своего компьютера или импортировать документы из существующего Простой сервис хранения Amazon (Amazon S3) ведро.
Средство массовой загрузки документов предоставляет результаты, которые можно загрузить позже для просмотра в автономном режиме. Каждый загружаемый ZIP-файл содержит ответ Amazon Textract API в формате файла JSON и удобочитаемый CSV-файл с выходными данными, содержащими извлеченные данные и оценки достоверности. Выходные результаты доступны для скачивания в течение 7 дней после обработки. Через 14 дней документы удаляются из Представленные документы раздел. Чтобы использовать средство массовой загрузки документов, выполните следующие действия:
- На консоли Amazon Text в разделе Демос на панели навигации выберите Массовая загрузка документов.
- Выберите Загрузить документы.
- Укажите источник ваших документов.
У вас есть два варианта загрузки документов:
- Импорт документов из корзины S3 – Если вы используете корзину S3 для своих документов, укажите URL-адрес корзины и (необязательно) префикс, где находятся ваши документы, в
s3://your-bucket/prefix/
формат. В качестве альтернативы выберите Обзор S3 для просмотра и выбора желаемого местоположения ваших документов. Если указанное вами расположение Amazon S3 содержит более 150 документов, только первые 150 документов будут отправлены в Amazon Textract для обработки. - Загрузите документы с вашего компьютера – Если вы загружаете документы со своего компьютера, вы можете загрузить до 50 документов одновременно, выбрав Загрузить документы. Чтобы загрузить дополнительные документы (максимум 150), выберите Добавить документы после загрузки исходных документов.
В этом случае ваши документы сначала загружаются в корзину S3 в вашей учетной записи, созданной от вашего имени, поэтому важно убедиться, что у вас есть разрешения на доступ и загрузку документов в Amazon S3. Это одноразовое действие, и для всех последующих загрузок с вашего компьютера будет использоваться одна и та же корзина. Если вы хотите загрузить и обработать один и тот же набор документов, вы можете использовать путь к этой корзине S3 с помощью Импорт документов из корзины S3 вариант. Сегмент S3, созданный от вашего имени, будет виден после создания корзины.
- Затем укажите функцию Amazon Textract, которую вы хотите использовать для обработки ваших документов.
Вы можете выбрать только одну функцию за раз для обработки ваших документов. Если вам необходимо оценить дополнительные характеристики, необходимо создать отдельный запрос, выбрав нужную характеристику и повторно загрузив документы. Если AnalyzeDocument — Запросы выбрана функция, вам нужно предоставить запросы, которые вы хотите протестировать на ваших документах. Вы можете указать до 30 запросов одновременно. Если загруженные документы содержат многостраничные файлы (PDF или TIF), запросы применяются только к первой странице каждого документа. Ссылаться на Лучшие практики для запросов научиться составлять запросы.
- Выберите Начать обработку для отправки документов в Amazon Textract для обработки.
Вы можете отслеживать статус документа и загружать результаты вывода обработанных документов в Представленные документы раздел. Этот раздел периодически обновляется, и вы можете обновить его вручную, чтобы увидеть, завершена ли обработка. Каждый документ обрабатывается индивидуально, поэтому вы можете либо выбрать документ с Готов к загрузке статус или дождитесь завершения обработки всех документов, чтобы загрузить результаты. Вывод обработанных документов будет доступен для загрузки до 7 дней, после чего срок их действия истечет. Документы с истекшим сроком действия будут удалены из Представленные документы раздел через 7 дополнительных дней (14 дней с даты обработки). Мы предлагаем загружать и сохранять результаты в течение 7 дней.
Заключение
В этом посте мы анонсировали новую функцию Amazon Textract Bulk Document Uploader, которая позволяет быстро обрабатывать большое количество документов для оценки. Вы можете использовать эту функцию, чтобы оценить Amazon Textract для заранее определенного варианта использования с вашими документами. Чтобы узнать больше о том, как вы можете использовать Amazon Textract в рабочей нагрузке интеллектуальной обработки документов, посетите Возможности Amazon Text и Начало работы с Amazon Text.
Об авторах
Шашват Сапре является старшим менеджером по техническим продуктам в команде Amazon Textract. Он занимается созданием сервисов на основе машинного обучения для клиентов AWS. В свободное время любит читать о новых технологиях, путешествовать и знакомиться с разными кухнями.
Анжан Бисвас является старшим архитектором решений AI Services, специализирующимся на AI/ML и аналитике данных. Анджан является частью всемирной группы по обслуживанию ИИ и работает с клиентами, помогая им понять и разработать решения бизнес-проблем с помощью ИИ и машинного обучения. Анджан имеет более чем 14-летний опыт работы с глобальными цепочками поставок, производственными и розничными организациями и активно помогает клиентам начать работу с сервисами AWS AI и масштабировать их.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- ПлатонАйСтрим. Анализ данных Web3. Расширение знаний. Доступ здесь.
- Чеканка будущего с Эдриенн Эшли. Доступ здесь.
- Покупайте и продавайте акции компаний PREIPO® с помощью PREIPO®. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- :имеет
- :является
- :куда
- $UP
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- О нас
- доступ
- Учетная запись
- Действие
- активно
- дополнительный
- Дополнительно
- После
- снова
- против
- AI
- Услуги искусственного интеллекта
- AI / ML
- Все
- позволяет
- Также
- Amazon
- Амазонка Текст
- Amazon Web Services
- an
- анализ
- аналитика
- и
- объявило
- любой
- API
- API
- прикладной
- МЫ
- искусственный
- AS
- At
- автоматически
- доступен
- AWS
- BE
- Коробка
- Строительство
- бизнес
- by
- CAN
- возможности
- случаев
- случаев
- цепь
- расходы
- Выберите
- Выбирая
- код
- сравнение
- полный
- компьютер
- доверие
- Консоли
- строить
- содержит
- Создайте
- создали
- В настоящее время
- Клиенты
- данным
- Анализ данных
- Время
- Дней
- Демос
- в зависимости
- желанный
- развивать
- различный
- непосредственно
- отображать
- документ
- Документация
- скачать
- каждый
- легко
- легко
- эффективный
- или
- позволяет
- расширение
- обеспечивать
- Эфир (ETH)
- оценивать
- оценка
- существующий
- опыт
- Исследование
- и, что лучший способ
- Экстракты
- Особенность
- Особенности
- Файл
- Файлы
- First
- Фокус
- внимание
- после
- Что касается
- формат
- формы
- от
- получить
- Глобальный
- Есть
- he
- помощь
- помощь
- основной момент
- его
- Как
- How To
- HTML
- HTTP
- HTTPS
- человек читаемый
- if
- изображение
- изображений
- Импортировать
- важную
- наложенный
- in
- в отдельности
- информация
- начальный
- вместо
- Умный
- Интеллектуальная обработка документов
- предназначенных
- введение
- интуитивный
- IT
- JPG
- JSON
- Сохранить
- большой
- больше
- новее
- запустили
- УЧИТЬСЯ
- изучение
- ОГРАНИЧЕНИЯ
- рамки
- расположение
- машина
- обучение с помощью машины
- сделать
- ДЕЛАЕТ
- менеджер
- вручную
- производство
- многих
- максимальный
- Май..
- против
- ML
- БОЛЕЕ
- более эффективным
- с разными
- должен
- Навигация
- Необходимость
- нуждающихся
- Новые
- Новые технологии
- номер
- OCR
- of
- оффлайн
- on
- консолидировать
- ONE
- только
- Операционный отдел
- Опция
- Опции
- or
- организации
- выходной
- за
- собственный
- страница
- хлеб
- часть
- путь
- выполняет
- период
- Разрешения
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- После
- практиками
- консервирование
- цены
- проблемам
- процесс
- Процессы
- обработка
- Продукт
- Менеджер по продукции
- программный
- обеспечивать
- при условии
- приводит
- целей
- Запросы
- САЙТ
- быстро
- Reading
- область
- регулярный
- полагаться
- оставаться
- Отчеты
- запросить
- ответ
- Итоги
- розничный
- обзоре
- то же
- Шкала
- Во-вторых
- Раздел
- посмотреть
- выбранный
- выбор
- старший
- послать
- отдельный
- обслуживание
- Услуги
- набор
- должен
- Подписи
- просто
- одновременно
- Размер
- So
- Решения
- Источник
- указанный
- стандарт
- и политические лидеры
- Статус:
- Шаги
- диск
- предмет
- отправить
- последующее
- такие
- предлагать
- поставка
- цепочками поставок
- Поддержанный
- Поддержка
- команда
- Технический
- технологии
- тестXNUMX
- чем
- который
- Ассоциация
- Источник
- Их
- тогда
- следовательно
- они
- этой
- Через
- время
- в
- инструменты
- TPS
- трек
- Сделки
- Путешествие
- два
- ui
- под
- понимать
- В отличие от
- Updates
- загружено
- Загрузка
- URL
- Применение
- использование
- прецедент
- используемый
- через
- с помощью
- видимый
- Войти
- визуализация
- ждать
- хотеть
- we
- Web
- веб-сервисы
- ЧТО Ж
- когда
- который
- будете
- в
- без
- работает
- работает
- записывать
- письмо
- лет
- являетесь
- ВАШЕ
- зефирнет
- ZIP