Amazon Comprehend es un servicio de inteligencia artificial administrado que utiliza procesamiento de lenguaje natural (NLP) con inteligencia preparada para extraer información sobre el contenido de los documentos. Desarrolla conocimientos mediante el reconocimiento de entidades, frases clave, idioma, sentimientos y otros elementos comunes en un documento. La capacidad de entrenar modelos personalizados a través de la Clasificación personalizada y Reconocimiento de entidades personalizadas Las características de Comprehend han permitido a los clientes explorar capacidades de NLP listas para usar vinculadas a sus requisitos sin tener que adoptar el enfoque de construir modelos de clasificación y reconocimiento de entidades desde cero.
Hoy en día, los usuarios invierten una cantidad significativa de recursos para crear, entrenar y mantener modelos personalizados. Sin embargo, estos modelos son sensibles a los cambios en el mundo real. Por ejemplo, desde 2020, COVID se ha convertido en un nuevo tipo de entidad que las empresas necesitan extraer de los documentos. Para hacerlo, los clientes deben volver a entrenar sus modelos de extracción de entidades existentes con nuevos datos de entrenamiento que incluyan COVID. Los usuarios de Custom Comprehend necesitan monitorear manualmente el rendimiento del modelo para evaluar las desviaciones, mantener los datos para volver a entrenar los modelos y seleccionar los modelos correctos que mejoran el rendimiento.
Comprehend flywheel es un nuevo recurso de Amazon Comprehend que simplifica el proceso de mejora de un modelo personalizado con el tiempo. Puede usar un volante para orquestar las tareas asociadas con el entrenamiento y la evaluación de nuevas versiones de modelos personalizados. Puede crear un volante para usar un modelo entrenado existente o Amazon Comprehend puede crear y entrenar un nuevo modelo para el volante. Flywheel crea un lago de datos (en Amazon S3) en su cuenta donde se administran y almacenan todos los datos de prueba y entrenamiento para todas las versiones del modelo. Periódicamente, los nuevos datos etiquetados (para volver a entrenar el modelo) pueden estar disponibles para volante creando conjuntos de datos Para incorporar los nuevos conjuntos de datos en su modelo personalizado, cree y ejecute un volante iteración. Una iteración de volante es un flujo de trabajo que usa los nuevos conjuntos de datos para evaluar la versión activa del modelo y entrenar una nueva versión del modelo.
En función de las métricas de calidad de las versiones del modelo nuevo y existente, establece el versión del modelo activo para ser la versión del modelo de volante que desea usar para trabajos de inferencia. Puede usar la versión del modelo activo del volante para ejecutar análisis personalizados (trabajos asíncronos o en tiempo real). Para utilizar el modelo de volante para el análisis en tiempo real, debe crear un punto final para el volante.
Esta publicación demuestra cómo puede crear un clasificador de texto personalizado (no se necesitan conocimientos previos de ML) que pueda asignar una etiqueta específica a un texto determinado. También ilustraremos cómo se puede usar el volante para orquestar el entrenamiento de una nueva versión del modelo y mejorar la precisión del modelo usando nuevos datos etiquetados.
Requisitos previos
Para completar este tutorial, necesita una cuenta de AWS y acceso para crear recursos en AWS Identity and Access Management (IAM), Amazon S3 y Amazon Comprehend dentro de la cuenta.
- Configure los permisos de usuario de IAM para que los usuarios accedan a las operaciones de flywheel (
CreateFlywheel
,DeleteFlywheel
,UpdateFlywheel
,CreateDataset
,StartFlywheelIteration
). - (Opcional) Configure permisos para claves de AWS KMS para claves de AWS KMS para el lago de datos.
- Cree un rol de acceso a datos que autorice a Amazon Comprehend a acceder al lago de datos.
Para obtener información sobre cómo crear políticas de IAM para Amazon Comprehend, consulte Permisos para realizar acciones de Amazon Comprehend.
En esta publicación, usamos el corpus de Yahoo de Comprensión de texto desde cero por Xiang Zhang y Yann LeCun. Se puede acceder a los datos desde Registro de datos abiertos de AWS. Consulte la sección 4, "Preparación de datos", de la publicación Creación de un clasificador personalizado con Amazon Comprehend para el guión e información detallada sobre la preparación y estructura de los datos.
Alternativamente, para mayor comodidad, puede descargar los datos preparados ingresando las siguientes dos líneas de comando:
Usaremos el custom-classifier-partial-dataset.csv
(alrededor de 15,000 documentos) conjunto de datos para crear la versión inicial del clasificador personalizado. A continuación, crearemos un volante para orquestar el reentrenamiento de la versión inicial del modelo utilizando el conjunto de datos completo. custom-classifier-complete-dataset.csv
(alrededor de 100,000 documentos). Al volver a entrenar el modelo activando una iteración del volante, evaluamos las métricas de rendimiento del modelo de las dos versiones del modelo personalizado y elegimos la de mejor rendimiento como la versión del modelo activo y demostramos la clasificación personalizada en tiempo real usando la misma.
Resumen de la solución
Encuentre los siguientes pasos para configurar el entorno y el lago de datos para crear una iteración del volante Comprehend para volver a entrenar los modelos personalizados.
- Configurando el medio ambiente
- Creación de cubos S3
- Entrenamiento del clasificador personalizado
- Crear un volante
- Configuración de conjuntos de datos
- Activación de iteraciones de volante
- Actualizar la versión del modelo activo
- Uso del volante para clasificación personalizada
- Limpiando los recursos
1. Configuración del entorno
Puede interactuar con Amazon Comprehend a través de la Consola de administración de AWS, Interfaz de línea de comandos de AWS (AWS CLI)o Amazon Comprender API. Para obtener más información, consulte Primeros pasos con Amazon Comprehend.
En esta publicación, usamos AWS CLI para crear y administrar los recursos. AWS Cloud9 es un entorno de desarrollo integrado (IDE) basado en la nube que le permite escribir, ejecutar y depurar su código. Incluye un editor de código, depurador y terminal. AWS Cloud9 viene preempaquetado con AWS CLI.
Por favor, consulta nuestra Creación de un entorno en AWS Cloud9 para configurar el medio ambiente.
2. Creación de cubos S3
- Cree dos cubos S3
- Uno para administrar los conjuntos de datos.
custom-classifier-partial-dataset.csv
ycustom-classifier-complete-dataset.cs
v. - Uno para el lago de datos de Comprehend flywheel.
- Uno para administrar los conjuntos de datos.
- Cree el primer depósito con el siguiente comando (reemplace '123456789012' con su ID de cuenta):
- Cree el depósito que se usará como lago de datos para flywheel:
- Cargue los conjuntos de datos de entrenamiento en el depósito "123456789012-comprehend":
3. Entrenando el clasificador personalizado
Utilice el siguiente comando para crear un clasificador personalizado: yahoo-answers-version1
utilizando el conjunto de datos: custom-classifier-partial-dataset.csv
. Reemplace el ARN del rol de acceso a datos y las ubicaciones del depósito de S3 por los suyos propios.
La llamada a la API anterior da como resultado el siguiente resultado:
CreateDocumentClassifierCreateDocumentClassifier inicia el entrenamiento del modelo de clasificador personalizado. Para seguir el progreso de la formación, utilice Describir Clasificador de documentos.
En el momento que todos los DARWINs coticen incluyendo los deslizamientos Estado enseñe ENTRENADO, el clasificador está listo para usar. La versión inicial del modelo tiene una puntuación F1 de 0.69. La puntuación F1 es una métrica de evaluación importante en el aprendizaje automático. Resume el rendimiento predictivo de un modelo mediante la combinación de dos métricas que de otro modo compiten: precisión y recuperación.
4. Crea un volante
Como siguiente paso, cree una nueva versión del modelo con el conjunto de datos actualizado (custom-classifier-complete-dataset.csv
). Para el reentrenamiento, usaremos Comprehend flywheel para ayudar a orquestar y simplificar el proceso de reentrenamiento del modelo.
Puede crear un volante para un modelo entrenado existente (como en nuestro caso) o entrenar un nuevo modelo para el volante. Cuando crea un volante, Amazon Comprehend crea un lago de datos para contener todos los datos que necesita el volante, como los datos de entrenamiento y los datos de prueba para cada versión del modelo. Cuando Amazon Comprehend crea el lago de datos, configura la siguiente estructura de carpetas en la ubicación de Amazon S3.
Advertencia: Amazon Comprehend administra la organización y el contenido de la carpeta del lago de datos. Si modifica las carpetas del lago de datos, es posible que su volante no funcione correctamente.
Cómo crear un volante (para el modelo personalizado existente):
Nota: Si crea un volante para una versión de modelo entrenado existente, el tipo de modelo y la configuración del modelo están preconfigurados.
Asegúrese de reemplazar el ARN del modelo, el rol de acceso a datos y el URI de S3 del lago de datos con los ARN de su recurso. Usar el segundo cubo S3 123456789012-comprehend-flywheel-datalake
creado en el paso "Configuración de depósitos S3" como el lago de datos para flywheel.
La llamada a la API anterior da como resultado un FlyWheelArn
.
5. Configuración de conjuntos de datos
Para agregar datos de prueba o entrenamiento etiquetados a un volante, use la consola o la API de Amazon Comprehend para crear un conjunto de datos.
- Crear una
inputConfig.json
archivo que contiene el siguiente contenido: - Utilice el ARN volante relevante de su cuenta para crear el conjunto de datos.
- Esto da como resultado la creación de un conjunto de datos:
6. Activación de iteraciones de volante
Use iteraciones de volante para ayudarlo a crear y administrar nuevas versiones del modelo. Los usuarios también pueden ver las métricas por conjunto de datos en la carpeta "estadísticas del modelo" en el lago de datos en el depósito S3. Ejecute el siguiente comando para iniciar la iteración del volante:
La respuesta contiene el siguiente contenido:
Cuando ejecuta el volante, crea una nueva iteración que entrena y evalúa una nueva versión del modelo con el conjunto de datos actualizado. Puede promocionar la nueva versión del modelo si su rendimiento es superior a la versión del modelo activo existente.
7. Actualizar la versión del modelo activo
Notamos que el rendimiento del modelo ha mejorado como resultado de la iteración reciente (resaltada arriba). Para promocionar la nueva versión del modelo como la versión del modelo activo para inferencias, use UpdateFlywheel
Llamada API:
La respuesta contiene los siguientes contenidos, lo que muestra que el modelo recién entrenado se promociona como la versión activa:
8. Uso del volante para clasificación personalizada
Puede usar la versión del modelo activo del volante para ejecutar trabajos de análisis para una clasificación personalizada. Esto puede ser tanto para análisis en tiempo real como para trabajos de clasificación asincrónica.
- Trabajos asincrónicos: Utilizar el InicioDocumentoClasificaciónTrabajo Solicitud de API para iniciar un trabajo asincrónico para clasificación personalizada. Proporcionar la VolanteArn parámetro en lugar del Clasificador De DocumentosArn.
- Análisis en tiempo real: utiliza un punto final para ejecutar análisis en tiempo real. Cuando crea el punto final, lo configura con el ARN volante en lugar de un ARN modelo. Cuando ejecute el análisis en tiempo real, seleccione el punto final asociado con el volante. Amazon Comprehend ejecuta el análisis utilizando la versión del modelo activo del volante.
Ejecute el siguiente comando para crear el punto final:
advertencia: se le cobrará por este extremo desde el momento en que se crea hasta que se elimina. Asegúrese de eliminar el terminal cuando no esté en uso para evitar cargos.
Para la API, use el ClasificarDocumento funcionamiento de la API. Proporcione el punto final del volante para el Punto finalArn parámetro O use la consola para clasificar documentos en tiempo real.
Detalles de precios
Las API de Flywheel son gratuitas. Sin embargo, se le facturará por la capacitación y administración de modelos personalizados. Se le cobra $3 por hora por la capacitación de modelos (facturada por segundo) y $0.50 por mes por la administración de modelos personalizados. Para la clasificación personalizada síncrona y las solicitudes de inferencia de entidades, usted aprovisiona un punto final con el rendimiento adecuado. Para obtener más detalles, visite Comprender precios.
9. Limpiar los recursos
Como se mencionó, se le cobra desde el momento en que inicia su punto final hasta que se elimina. Una vez que ya no necesite su terminal, debe eliminarlo para dejar de incurrir en costos por ello. Puede crear fácilmente otro punto final siempre que lo necesite desde el Endpoints sección. Para obtener más información, consulte Eliminación de puntos finales.
Conclusión
En esta publicación, repasamos las capacidades de Comprehend flywheel y cómo simplifica el proceso de volver a entrenar y mejorar los modelos personalizados con el tiempo. Como parte de los siguientes pasos, puede explorar lo siguiente:
- Cree y administre los recursos de volante de Comprehend desde otros medios, como SDK y consola.
- En este blog, creamos un volante para un modelo personalizado ya entrenado. Puede explorar la opción de crear un volante y entrenar un modelo para él desde cero.
- Use volante para reconocedores de entidades personalizadas.
Hay muchas posibilidades y estamos emocionados de ver cómo usa Amazon Comprehend para sus casos de uso de NLP. ¡Feliz aprendizaje y experimentación!
Sobre la autora
Supremo S Angadi es Arquitecto de Soluciones de Startup Greenfield en AWS y miembro de la comunidad de campo técnico de AI/ML. Trabaja en estrecha colaboración con las nuevas empresas de ML Core, SaaS y Fintech para ayudar a acelerar su viaje a la nube. A Supreeth le gusta pasar su tiempo con la familia y los amigos, le encanta jugar al fútbol y sigue el deporte inmensamente. Su día está incompleto sin un paseo y jugando con su 'DJ' (Golden Retriever).
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. Accede Aquí.
- Fuente: https://aws.amazon.com/blogs/machine-learning/simplify-continuous-learning-of-amazon-comprehend-custom-models-using-comprehend-flywheel/
- $3
- 000
- 10
- 100
- 2020
- 28
- 7
- 9
- a
- capacidad
- Nuestra Empresa
- arriba
- acelerar
- de la máquina
- Gestión de Acceso
- visitada
- Mi Cuenta
- la exactitud
- acciones
- lector activo
- Admin
- AI
- AI / ML
- Todos
- ya haya utilizado
- Amazon
- Amazon Comprehend
- cantidad
- análisis
- y
- Otra
- abejas
- API
- enfoque
- adecuado
- asociado
- Hoy Disponibles
- evitar
- AWS
- Nube de AWS9
- Administración de acceso e identidad de AWS (IAM)
- a las que has recomendado
- "Ser"
- Blog
- build
- Construir la
- negocios
- llamar al
- capacidades
- case
- cases
- Cambios
- CHARGE
- cargado
- cargos
- Elige
- clasificación
- clasificar
- Limpieza
- de cerca
- Soluciones
- Cloud9
- código
- combinar
- Algunos
- vibrante e inclusiva
- compitiendo
- completar
- comprender
- Configuración
- Consola
- contiene
- contenido
- contenido
- continuo
- comodidad
- Core
- correctamente
- Precio
- Covid
- Para crear
- creado
- crea
- Creamos
- creación
- personalizado
- Clientes
- datos
- acceso a los datos
- Lago de datos
- Preparación de datos
- conjuntos de datos
- día
- demostrar
- demuestra
- descrito
- detallado
- detalles
- Desarrollo
- desarrolla el
- discutido
- documento
- documentos
- descargar
- cada una
- pasan fácilmente
- editor
- elementos
- facilita
- Punto final
- garantizar
- entidades
- entidad
- Entorno
- Éter (ETH)
- evaluar
- evaluación
- evaluación
- Incluso
- ejemplo
- excitado
- existente
- explorar
- extraerlos
- Extracción
- familia
- Caracteristicas
- campo
- Archive
- Encuentre
- Fintech
- startups fintech
- Nombre
- siguiendo
- siguiente
- Fútbol
- Gratuito
- amigos
- Desde
- promover
- dado
- Dorado
- Greenfield
- Ahorrar
- es
- ayuda
- Destacado
- mantener
- Cómo
- Sin embargo
- HTML
- HTTPS
- AMI
- Identidad
- Gestión de identidad y acceso.
- Gestión de identidad y acceso (IAM)
- inmensamente
- importante
- mejorar
- mejorado
- la mejora de
- in
- incluye
- incorporar
- información
- inicial
- Insights
- COMPLETAMENTE
- Intelligence
- interactuar
- Interfaz
- Invertir
- IT
- iteración
- iteraciones
- Trabajos
- Empleo
- Clave
- claves
- especialistas
- Label
- lago
- idioma
- aprendizaje
- Permíteme
- línea
- líneas
- Ubicación
- Ubicaciones
- por más tiempo
- máquina
- máquina de aprendizaje
- hecho
- mantener
- gestionan
- gestionado
- Management
- gestiona
- administrar
- a mano
- muchos
- miembro
- métrico
- Métrica
- ML
- Moda
- modelo
- modelos
- modificar
- Monitorear
- Mes
- más,
- Natural
- Lenguaje natural
- Procesamiento natural del lenguaje
- ¿ Necesita ayuda
- Nuevo
- Next
- nlp
- ONE
- habiertos
- datos abiertos
- funcionar
- Inteligente
- Operaciones
- Optión
- solicite
- organización
- Otro
- de otra manera
- EL DESARROLLADOR
- parte
- realizar
- actuación
- permisos
- frases
- Platón
- Inteligencia de datos de Platón
- PlatónDatos
- jugando
- Por favor
- políticas
- alberca
- POSIBILIDADES
- Publicación
- Precisión
- preparado
- previamente
- Anterior
- privada
- tratamiento
- Progreso
- promover
- Promovido
- proporcionar
- provisión
- calidad
- ready
- confeccionado
- real
- mundo real
- en tiempo real
- reciente
- reconocimiento
- reemplazar
- solicita
- solicitudes
- Requisitos
- Recurso
- Recursos
- respuesta
- resultado
- Resultados
- reentrenamiento
- Función
- Ejecutar
- SaaS
- mismo
- Sdk
- Segundo
- Sección
- sensible
- de coches
- set
- Sets
- pólipo
- tienes
- Shows
- importante
- simplificar
- desde
- So
- Soluciones
- soluciones y
- Gastos
- Deportes
- comienzo
- fundó
- comienza
- inicio
- Startups
- Estado
- paso
- pasos
- Detener
- almacenados
- estructura
- tal
- sumas
- superior
- ¡Prepárate!
- tareas
- Técnico
- terminal
- test
- La
- su
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- rendimiento
- Atado
- equipo
- a
- seguir
- Entrenar
- entrenado
- Formación
- trenes
- desencadenando
- comprensión
- Actualizar
- actualizado
- URI
- utilizan el
- Usuario
- usuarios
- versión
- vía
- Ver
- caminado
- tutorial
- que
- seguirá
- dentro de
- sin
- flujo de trabajo
- funciona
- mundo
- escribir
- yahoo
- tú
- zephyrnet