Se você tiver um corpus de documentos internos que pesquisa com frequência, Amazona Kendra pode ajudá-lo a encontrar seu conteúdo de maneira mais rápida e fácil. Esses documentos podem estar em diferentes locais e repositórios e podem ser estruturados ou não estruturados. Amazon Kendra é um serviço totalmente gerenciado apoiado por machine learning (ML). Você não precisa provisionar ou manter servidores e não precisa se preocupar com modelos de ML no back-end.
Um dos recursos populares do Amazon Kendra é a resposta a perguntas em linguagem natural. Você pode consultar o Amazon Kendra em linguagem natural e ele retornará uma resposta nos seus documentos.
Desde setembro de 2021, o Amazon Kendra aceita os seguintes tipos de documentos:
- Texto simples
- HTML
- Microsoft PowerPoint
- Microsoft Word
Nesta postagem, mostramos como adicionar outros formatos, incluindo RTF e markdown, aos índices do Amazon Kendra. Além disso, demonstramos como você pode adicionar formatos de arquivo adicionais ao cluster do Amazon Kendra.
Visão geral da solução
O diagrama a seguir ilustra nossa arquitetura.
Nossa solução possui uma arquitetura serverless orientada a eventos com as seguintes etapas:
- Você coloca seus arquivos RTF ou markdown em seu Serviço de armazenamento simples da Amazon (Amazon S3) balde. Este evento através AWS CloudTrail invoca Amazon Event Bridge.
- O EventBridge gera mensagens e as coloca em um Serviço de fila simples da Amazon (Amazon SQS). O uso do EventBridge junto com o Amazon SQS fornece alta disponibilidade e tolerância a falhas, garantindo que todos os arquivos recém-colocados no bucket S3 sejam processados e adicionados ao Amazon Kendra.
- O EventBridge também invoca um AWS Lambda função, que por sua vez inicia Funções de etapa da AWS. Step Functions fornece orquestração sem servidor para nossa solução, o que aprimora ainda mais nossa arquitetura de alta disponibilidade e tolerância a falhas.
- O Step Functions garante que cada arquivo recém-colocado no Amazon S3 seja processado. Step Functions chama funções Lambda para fazer a triagem e processar os arquivos residentes no Amazon S3. Nesta etapa, primeiro fazemos a triagem dos arquivos com base em suas extensões e, em seguida, processamos cada arquivo em uma função Lambda. Essa arquitetura permite adicionar suporte para formatos de arquivo adicionais.
- As funções Lambda de processamento (RTF Lambda e MD Lambda) extraem o texto de cada arquivo, armazenam os arquivos de texto extraídos no Amazon S3 e atualizam o cluster do Amazon Kendra.
- Depois que todos os arquivos forem processados e a fila SQS estiver vazia, todos os serviços, exceto Amazon S3 e Amazon Kendra, serão encerrados.
Personalize e aprimore a solução
Você pode processar facilmente tipos de arquivos adicionais criando novas funções do Lambda e adicionando-as à lista de processamento. Tudo o que você precisa fazer é alterar ligeiramente o código da função de triagem para incluir seu novo tipo de arquivo e criar funções Lambda correspondentes para processar esses arquivos.
A seguir está o código para a função Lambda de triagem:
Implante a solução
Para implantar a solução, usamos um Formação da Nuvem AWS modelo. Conclua as seguintes etapas:
- Escolha Pilha de Lançamento:
- Escolha Nome da pilha, insira um nome exclusivo.
- Escolha Nível de registro, insira o nível de registro desejado (
DEBUG
,INFO
ouWARNING
). - Escolha Prefixo, insira o prefixo do bucket S3 desejado.
Anexamos o ID da conta AWS para evitar colisões globais de nomes de buckets S3.
- Escolha KendraIndex, introduzir o
IndexId
(não o nome do índice) para um índice existente do Amazon Kendra em sua conta e região.
Você deve usar o Amazon Kendra Enterprise Edition para cargas de trabalho de produção.
- Marque as caixas de seleção de confirmação e escolha Criar Pilha.
Excluindo os buckets S3 e o cluster Amazon Kendra, a pilha AWS CloudFormation cria o restante de nossos recursos e coloca nossa solução em funcionamento. Agora você está pronto para adicionar arquivos RTF e markdown ao cluster do Amazon Kendra.
limpar
Para evitar cobranças desnecessárias, você pode usar o console do AWS CloudFormation para excluir a pilha implantada. Isso remove todos os recursos que você criou ao implantar a solução. No entanto, os dados que residem no Amazon S3 e no cluster do Amazon Kendra não serão excluídos.
Conclusão
Nesta postagem, apresentamos uma solução sem servidor altamente disponível e tolerante a falhas para adicionar formatos de arquivo adicionais ao seu índice Amazon Kendra. Implementamos esta solução para arquivos RTF e markdown e fornecemos orientação sobre como expandir essa solução para outros formatos de arquivo semelhantes.
Você pode usar esta solução como ponto de partida para sua própria solução. Para obter assistência especializada, o Amazon ML Solutions Lab, os serviços profissionais da AWS e os parceiros estão prontos para ajudá-lo em sua jornada. Para saber mais sobre como o Amazon Kendra pode ajudar sua empresa, visite o site. Saiba mais sobre o Laboratório de soluções de ML da Amazon e como eles podem ajudar o seu negócio. Fale conosco hoje mesmo!
Sobre os autores
Gaurav Rele é cientista de dados no Amazon ML Solution Lab, onde trabalha com clientes da AWS em diferentes setores para acelerar o uso de aprendizado de máquina e serviços de nuvem da AWS para resolver seus desafios de negócios.
Sia Gholami é Cientista de Dados Sênior no Amazon ML Solutions Lab, onde desenvolve soluções de IA/ML para clientes em vários setores. Ele é apaixonado por processamento de linguagem natural (PNL) e aprendizado profundo. Fora do trabalho, Sia gosta de passar o tempo na natureza e jogar tênis.
- '
- "
- 100
- 107
- 2021
- Conta
- Adicional
- Todos os Produtos
- Amazon
- Amazona Kendra
- arquitetura
- disponibilidade
- AWS
- negócio
- alterar
- acusações
- Na nuvem
- serviços na nuvem
- código
- conteúdo
- Criar
- Clientes
- dados,
- cientista de dados
- deep learning
- INSTITUCIONAIS
- Empreendimento
- Evento
- Expandir
- extensões
- Funcionalidades
- Primeiro nome
- função
- Global
- Alta
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTTPS
- Incluindo
- índice
- indústrias
- IT
- Chave
- língua
- APRENDER
- aprendizagem
- Nível
- Lista
- aprendizado de máquina
- ML
- Linguagem Natural
- Processamento de linguagem natural
- PNL
- Outros
- Parceiros
- Popular
- Produção
- aumentar
- Recursos
- DESCANSO
- Retorna
- corrida
- Pesquisar
- Serverless
- Serviços
- compartilhado
- simples
- Soluções
- RESOLVER
- Passar
- estoque
- armazenamento
- loja
- ajuda
- tênis
- tempo
- tolerância
- transação
- triagem
- Atualizar
- us
- dentro
- Atividades:
- trabalho