amazontext é um serviço de aprendizado de máquina (ML) que extrai automaticamente texto, manuscrito e dados de qualquer documento ou imagem. Para simplificar a avaliação dos recursos do Amazon Textract, lançamos um novo recurso Bulk Document Uploader no console do Amazon Textract que permite que você processe rapidamente seu próprio conjunto de documentos sem escrever nenhum código.
Nesta postagem, explicamos quando e como usar o Amazon Textract Bulk Document Uploader para avaliar o desempenho do Amazon Textract em seus documentos.
Visão geral da solução
O Bulk Document Uploader deve ser usado para avaliação rápida do Amazon Textract para casos de uso predeterminados. Ao carregar vários documentos simultaneamente por meio de uma interface de usuário intuitiva, você pode avaliar facilmente o desempenho do Amazon Textract em seus documentos.
Você pode carregar e processar até 150 documentos de uma só vez. Ao contrário das demonstrações de console existentes do Amazon Textract, que impõem limites artificiais ao número de documentos, tamanho do documento e número máximo permitido de páginas, o Bulk Document Uploader oferece suporte ao processamento de até 150 documentos por solicitação e tem o mesmo tamanho de documento e limites de página que as APIs do Amazon Textract. Isso torna mais eficiente para você avaliar um conjunto maior de documentos.
O Bulk Document Uploader gera uma resposta JSON padrão do Amazon Textract e um arquivo CSV. Os resultados são fornecidos no formato JSON para facilitar a análise programática. Além disso, um arquivo CSV legível por humanos com pontuações de confiança é fornecido para comparação e avaliação simples das informações extraídas.
Ao usar esse recurso, lembre-se do seguinte:
- O Bulk Document Uploader processa documentos via operações assíncronas. Você pode acompanhar o status do processamento no console do Amazon Textract. Apenas DetectarDocumentoTexto (OCR), Analisar Documento (Tabelas, Consultas, Formulários e Assinaturas) e Analisar Despesa Atualmente, as APIs são suportadas.
- O Bulk Document Uploader fornece resultados JSON das operações da API e relatórios CSV formatados. Você pode precisar contar com ferramentas externas para visualização dos dados, como exibir destaques da caixa delimitadora no documento usando os resultados JSON.
- O uso desse recurso para processar documentos incorre nas mesmas cobranças do uso regular do Amazon Textract (dependendo de qual recurso é usado) e está sujeito aos limites de TPS (transações por segundo) para APIs definidas para a conta e a região. Para obter mais informações sobre preços, consulte Preços do Amazon Textract. Para saber mais sobre os limites do Amazon Textract, consulte Cotas no Amazon Textract.
- Os formatos de arquivo aceitos para upload em massa são JPEG, PNG, TIF e PDF. Imagens codificadas em JPEG 2000 em PDFs também são suportadas. Os arquivos JPEG e PNG têm um limite de tamanho de 10 MB, enquanto os arquivos PDF e TIF têm um limite de tamanho de 500 MB. Arquivos PDF e TIF de várias páginas têm um limite de 3,000 páginas.
Use o Carregador de Documentos em Massa
O Bulk Document Uploader destina-se a ajudá-lo a avaliar rapidamente o desempenho do Amazon Textract em um conjunto de seus próprios documentos, sem a necessidade de escrever nenhum código. Você pode usar o Bulk Document Uploader para processar até 150 documentos em vez de carregar e processar documentos individualmente. Você pode carregar documentos em massa diretamente de seu computador ou importar documentos de um Serviço de armazenamento simples da Amazon (Amazon S3).
O Bulk Document Uploader fornece resultados que você pode baixar mais tarde para revisão off-line. Cada arquivo ZIP para download contém a resposta da API do Amazon Textract no formato de arquivo JSON e um arquivo CSV legível por humanos da saída contendo os dados extraídos e as pontuações de confiança. Os resultados de saída estão disponíveis para download por 7 dias após o processamento. Após 14 dias, os documentos são liberados do Documentos enviados seção. Para usar o Bulk Document Uploader, conclua as seguintes etapas:
- No console do Amazon Textract, em Demos no painel de navegação, escolha Carregador de documentos em massa.
- Escolha Carregar documentos.
- Especifique a origem dos seus documentos.
Você tem duas opções para fazer upload de documentos:
- Importar documentos do balde S3 – Se você estiver usando um bucket S3 para seus documentos, forneça a URL do bucket e (opcionalmente) o prefixo onde seus documentos residem, em
s3://your-bucket/prefix/
formatar. Como alternativa, escolha Navegar S3 para navegar e selecionar o local desejado de seus documentos. Se o local do Amazon S3 especificado contiver mais de 150 documentos, apenas os primeiros 150 documentos serão enviados ao Amazon Textract para processamento. - Carregar documentos do seu computador – Se estiver carregando documentos de seu computador, você pode carregar até 50 documentos por vez, escolhendo Upload de documentos. Para fazer upload de documentos adicionais (até o máximo de 150), escolha Adicionar documentos depois que seus documentos iniciais forem carregados.
Nesse caso, seus documentos são primeiro carregados em um bucket do S3 em sua conta criada em seu nome, portanto, é importante garantir que você tenha permissões para acessar e carregar documentos no Amazon S3. Esta é uma ação única e o mesmo intervalo será usado para todos os uploads subsequentes do seu computador. Se você deseja carregar e processar o mesmo conjunto de documentos, pode usar o caminho para esse bucket S3 usando o Importar documentos do balde S3 opção. O bucket do S3 criado em seu nome ficará visível depois que o bucket for criado.
- Em seguida, especifique o recurso do Amazon Textract que você deseja usar para processar seus documentos.
Você pode selecionar apenas um recurso por vez para processar seus documentos. Se você precisar avaliar recursos adicionais, deverá criar uma solicitação separada, selecionando o recurso desejado e carregando os documentos novamente. Se o AnalisarDocumento – Consultas recurso é selecionado, você precisa fornecer as consultas que deseja testar em seus documentos. Você pode especificar até 30 consultas por vez. Se os documentos carregados contiverem arquivos de várias páginas (PDF ou TIF), as consultas serão aplicadas apenas à primeira página de cada documento. Referir-se Práticas recomendadas para consultas para aprender sobre como construir consultas.
- Escolha Iniciar processamento para enviar os documentos ao Amazon Textract para processamento.
Você pode acompanhar o status do documento e baixar os resultados de saída dos documentos processados no Documentos enviados seção. Esta seção é atualizada periodicamente e você pode atualizá-la manualmente para ver se o processamento foi concluído. Cada documento é processado individualmente, então você pode selecionar o documento com Pronto para baixar status ou aguarde até que todos os documentos concluam o processamento para baixar os resultados. A saída dos documentos processados ficará disponível por até 7 dias para download, após o qual expirará. Documentos vencidos serão apagados do Documentos enviados seção após 7 dias adicionais (14 dias a partir da data processada). Sugerimos baixar e preservar as saídas no período de 7 dias.
Conclusão
Nesta postagem, anunciamos o novo recurso Amazon Textract Bulk Document Uploader, que permite processar rapidamente um grande número de documentos para fins de avaliação. Você pode usar esse recurso para avaliar o Amazon Textract para um caso de uso predeterminado com seus documentos. Para saber mais sobre como você pode usar o Amazon Textract em sua carga de trabalho de processamento inteligente de documentos, visite Recursos do Amazon Textract e Introdução ao Amazon Textract.
Sobre os autores
Shashwat Sapre é gerente de produto técnico sênior da equipe do Amazon Textract. Ele está focado na criação de serviços baseados em machine learning para clientes da AWS. Nas horas vagas, gosta de ler sobre novas tecnologias, viajar e explorar diferentes cozinhas.
Anjan Biswas é arquiteto sênior de soluções de serviços de IA com foco em IA/ML e análise de dados. Anjan faz parte da equipe mundial de serviços de IA e trabalha com clientes para ajudá-los a entender e desenvolver soluções para problemas de negócios com IA e ML. Anjan tem mais de 14 anos de experiência trabalhando com organizações globais de cadeia de suprimentos, manufatura e varejo, e está ajudando ativamente os clientes a começar e escalar nos serviços de IA da AWS.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoAiStream. Inteligência de Dados Web3. Conhecimento Amplificado. Acesse aqui.
- Cunhando o Futuro com Adryenn Ashley. Acesse aqui.
- Compre e venda ações em empresas PRE-IPO com PREIPO®. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-textract-bulk-document-uploader-for-enhanced-evaluation-and-analysis/
- :tem
- :é
- :onde
- $UP
- 000
- 10
- 100
- 102
- 14
- 30
- 50
- 500
- 7
- a
- Sobre
- Acesso
- Conta
- Açao Social
- ativamente
- Adicional
- Adicionalmente
- Depois de
- novamente
- contra
- AI
- Serviços de IA
- AI / ML
- Todos os Produtos
- permite
- tb
- Amazon
- amazontext
- Amazon Web Services
- an
- análise
- analítica
- e
- anunciou
- qualquer
- api
- APIs
- aplicado
- SOMOS
- artificial
- AS
- At
- automaticamente
- disponível
- AWS
- BE
- Caixa
- Prédio
- negócio
- by
- CAN
- capacidades
- casas
- casos
- cadeia
- acusações
- Escolha
- escolha
- código
- comparação
- completar
- computador
- confiança
- cônsul
- construir
- contém
- crio
- criado
- Atualmente
- Clientes
- dados,
- Análise de Dados
- Data
- dias
- Demos
- Dependendo
- desejado
- desenvolver
- diferente
- diretamente
- exibindo
- documento
- INSTITUCIONAIS
- download
- cada
- facilmente
- fácil
- eficiente
- ou
- permite
- aprimorada
- garantir
- Éter (ETH)
- avaliar
- avaliação
- existente
- vasta experiência
- Explorando
- externo
- Extractos
- Característica
- Funcionalidades
- Envie o
- Arquivos
- Primeiro nome
- Foco
- focado
- seguinte
- Escolha
- formato
- formas
- da
- ter
- Global
- Ter
- he
- ajudar
- ajuda
- destaques
- sua
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTML
- http
- HTTPS
- legível para humanos
- if
- imagem
- imagens
- importar
- importante
- impor
- in
- Individualmente
- INFORMAÇÕES
- do estado inicial,
- em vez disso
- Inteligente
- Processamento inteligente de documentos
- Pretendido
- introduzindo
- intuitivo
- IT
- jpg
- json
- Guarda
- grande
- Maior
- mais tarde
- lançado
- APRENDER
- aprendizagem
- LIMITE
- limites
- localização
- máquina
- aprendizado de máquina
- fazer
- FAZ
- Gerente
- manualmente
- fabrica
- muitos
- máximo
- Posso..
- mente
- ML
- mais
- mais eficiente
- múltiplo
- devo
- Navegação
- você merece...
- necessitando
- Novo
- Novas tecnologias
- número
- OCR
- of
- modo offline
- on
- uma vez
- ONE
- só
- Operações
- Opção
- Opções
- or
- organizações
- saída
- Acima de
- próprio
- página
- pão
- parte
- caminho
- executa
- significativo
- permissões
- platão
- Inteligência de Dados Platão
- PlatãoData
- Publique
- práticas
- preservando
- preços
- problemas
- processo
- processos
- em processamento
- Produto
- gerente de produto
- Programático
- fornecer
- fornecido
- fornece
- fins
- consultas
- Links
- rapidamente
- Leitura
- região
- regular
- depender
- permanecem
- Relatórios
- solicitar
- resposta
- Resultados
- varejo
- rever
- mesmo
- Escala
- Segundo
- Seção
- Vejo
- selecionado
- selecionando
- senior
- enviei
- separado
- serviço
- Serviços
- conjunto
- rede de apoio social
- Assinaturas
- simples
- simultaneamente
- Tamanho
- So
- Soluções
- fonte
- especificada
- padrão
- começado
- Status
- Passos
- armazenamento
- sujeito
- enviar
- subseqüente
- tal
- sugerir
- supply
- cadeia de suprimentos
- Suportado
- suportes
- Profissionais
- Dados Técnicos:
- Tecnologias
- teste
- do que
- que
- A
- A fonte
- Eles
- então
- assim sendo
- deles
- isto
- Através da
- tempo
- para
- ferramentas
- tps
- pista
- Transações
- Viagens
- dois
- ui
- para
- compreender
- ao contrário
- Atualizações
- carregado
- Upload
- URL
- Uso
- usar
- caso de uso
- usava
- utilização
- via
- visível
- Visite a
- visualização
- esperar
- queremos
- we
- web
- serviços web
- BEM
- quando
- qual
- precisarão
- com
- dentro
- sem
- trabalhar
- trabalho
- escrever
- escrita
- anos
- Você
- investimentos
- zefirnet
- Zip