Simplifique el aprendizaje continuo de los modelos personalizados de Amazon Comprehend utilizando Comprehend Flywheel

Reeditado por Platón

seguidores: 0

Amazon Comprehend es un servicio de inteligencia artificial administrado que utiliza procesamiento de lenguaje natural (NLP) con inteligencia preparada para extraer información sobre el contenido de los documentos. Desarrolla conocimientos mediante el reconocimiento de entidades, frases clave, idioma, sentimientos y otros elementos comunes en un documento. La capacidad de entrenar modelos personalizados a través de la Clasificación personalizada y Reconocimiento de entidades personalizadas Las características de Comprehend han permitido a los clientes explorar capacidades de NLP listas para usar vinculadas a sus requisitos sin tener que adoptar el enfoque de construir modelos de clasificación y reconocimiento de entidades desde cero.

Hoy en día, los usuarios invierten una cantidad significativa de recursos para crear, entrenar y mantener modelos personalizados. Sin embargo, estos modelos son sensibles a los cambios en el mundo real. Por ejemplo, desde 2020, COVID se ha convertido en un nuevo tipo de entidad que las empresas necesitan extraer de los documentos. Para hacerlo, los clientes deben volver a entrenar sus modelos de extracción de entidades existentes con nuevos datos de entrenamiento que incluyan COVID. Los usuarios de Custom Comprehend necesitan monitorear manualmente el rendimiento del modelo para evaluar las desviaciones, mantener los datos para volver a entrenar los modelos y seleccionar los modelos correctos que mejoran el rendimiento.

Comprehend flywheel es un nuevo recurso de Amazon Comprehend que simplifica el proceso de mejora de un modelo personalizado con el tiempo. Puede usar un volante para orquestar las tareas asociadas con el entrenamiento y la evaluación de nuevas versiones de modelos personalizados. Puede crear un volante para usar un modelo entrenado existente o Amazon Comprehend puede crear y entrenar un nuevo modelo para el volante. Flywheel crea un lago de datos (en Amazon S3) en su cuenta donde se administran y almacenan todos los datos de prueba y entrenamiento para todas las versiones del modelo. Periódicamente, los nuevos datos etiquetados (para volver a entrenar el modelo) pueden estar disponibles para volante creando conjuntos de datos Para incorporar los nuevos conjuntos de datos en su modelo personalizado, cree y ejecute un volante iteración. Una iteración de volante es un flujo de trabajo que usa los nuevos conjuntos de datos para evaluar la versión activa del modelo y entrenar una nueva versión del modelo.

En función de las métricas de calidad de las versiones del modelo nuevo y existente, establece el versión del modelo activo para ser la versión del modelo de volante que desea usar para trabajos de inferencia. Puede usar la versión del modelo activo del volante para ejecutar análisis personalizados (trabajos asíncronos o en tiempo real). Para utilizar el modelo de volante para el análisis en tiempo real, debe crear un punto final para el volante.

Esta publicación demuestra cómo puede crear un clasificador de texto personalizado (no se necesitan conocimientos previos de ML) que pueda asignar una etiqueta específica a un texto determinado. También ilustraremos cómo se puede usar el volante para orquestar el entrenamiento de una nueva versión del modelo y mejorar la precisión del modelo usando nuevos datos etiquetados.

Requisitos previos

Para completar este tutorial, necesita una cuenta de AWS y acceso para crear recursos en AWS Identity and Access Management (IAM), Amazon S3 y Amazon Comprehend dentro de la cuenta.

Configure los permisos de usuario de IAM para que los usuarios accedan a las operaciones de flywheel (CreateFlywheel, DeleteFlywheel, UpdateFlywheel, CreateDataset, StartFlywheelIteration).
(Opcional) Configure permisos para claves de AWS KMS para claves de AWS KMS para el lago de datos.
Cree un rol de acceso a datos que autorice a Amazon Comprehend a acceder al lago de datos.

Para obtener información sobre cómo crear políticas de IAM para Amazon Comprehend, consulte Permisos para realizar acciones de Amazon Comprehend.

En esta publicación, usamos el corpus de Yahoo de Comprensión de texto desde cero por Xiang Zhang y Yann LeCun. Se puede acceder a los datos desde Registro de datos abiertos de AWS. Consulte la sección 4, "Preparación de datos", de la publicación Creación de un clasificador personalizado con Amazon Comprehend para el guión e información detallada sobre la preparación y estructura de los datos.

Alternativamente, para mayor comodidad, puede descargar los datos preparados ingresando las siguientes dos líneas de comando:

Admin:~/environment $ aws s3 cp s3://aws-blogs-artifacts-public/artifacts/ML-13607/custom-classifier-partial-dataset.csv . Admin:~/environment $ aws s3 cp s3://aws-blogs-artifacts-public/artifacts/ML-13607/custom-classifier-complete-dataset.csv .

Usaremos el custom-classifier-partial-dataset.csv (alrededor de 15,000 documentos) conjunto de datos para crear la versión inicial del clasificador personalizado. A continuación, crearemos un volante para orquestar el reentrenamiento de la versión inicial del modelo utilizando el conjunto de datos completo. custom-classifier-complete-dataset.csv (alrededor de 100,000 documentos). Al volver a entrenar el modelo activando una iteración del volante, evaluamos las métricas de rendimiento del modelo de las dos versiones del modelo personalizado y elegimos la de mejor rendimiento como la versión del modelo activo y demostramos la clasificación personalizada en tiempo real usando la misma.

Resumen de la solución

Encuentre los siguientes pasos para configurar el entorno y el lago de datos para crear una iteración del volante Comprehend para volver a entrenar los modelos personalizados.

Configurando el medio ambiente
Creación de cubos S3
Entrenamiento del clasificador personalizado
Crear un volante
Configuración de conjuntos de datos
Activación de iteraciones de volante
Actualizar la versión del modelo activo
Uso del volante para clasificación personalizada
Limpiando los recursos

1. Configuración del entorno

Puede interactuar con Amazon Comprehend a través de la Consola de administración de AWS, Interfaz de línea de comandos de AWS (AWS CLI)o Amazon Comprender API. Para obtener más información, consulte Primeros pasos con Amazon Comprehend.

En esta publicación, usamos AWS CLI para crear y administrar los recursos. AWS Cloud9 es un entorno de desarrollo integrado (IDE) basado en la nube que le permite escribir, ejecutar y depurar su código. Incluye un editor de código, depurador y terminal. AWS Cloud9 viene preempaquetado con AWS CLI.

Por favor, consulta nuestra Creación de un entorno en AWS Cloud9 para configurar el medio ambiente.

2. Creación de cubos S3

Cree dos cubos S3
- Uno para administrar los conjuntos de datos. custom-classifier-partial-dataset.csv y custom-classifier-complete-dataset.csv.
- Uno para el lago de datos de Comprehend flywheel.
Cree el primer depósito con el siguiente comando (reemplace '123456789012' con su ID de cuenta):
```
$ aws s3api create-bucket --acl private --bucket '123456789012-comprehend' --region us-east-1
```

Cree el depósito que se usará como lago de datos para flywheel:

$ aws s3api create-bucket --acl private --bucket '123456789012-comprehend-flywheel-datalake' --region us-east-1

Cargue los conjuntos de datos de entrenamiento en el depósito "123456789012-comprehend":

$ aws s3 cp custom-classifier-partial-dataset.csv s3://123456789012-comprehend/ $ aws s3 cp custom-classifier-complete-dataset.csv s3://123456789012-comprehend/

3. Entrenando el clasificador personalizado

Utilice el siguiente comando para crear un clasificador personalizado: yahoo-answers-version1 utilizando el conjunto de datos: custom-classifier-partial-dataset.csv. Reemplace el ARN del rol de acceso a datos y las ubicaciones del depósito de S3 por los suyos propios.

$ aws comprehend create-document-classifier --document-classifier-name "yahoo-answers-version1" --data-access-role-arn arn:aws:iam::123456789012:role/comprehend-data-access-role --input-data-config S3Uri=s3://123456789012-comprehend/custom-classifier-partial-dataset.csv --output-data-config S3Uri=s3://123456789012-comprehend/TrainingOutput/ --language-code en

La llamada a la API anterior da como resultado el siguiente resultado:

{ "DocumentClassifierArn": "arn:aws:comprehend:us-east-1:123456789012:document-classifier/yahoo-answers-version1"}

CreateDocumentClassifierCreateDocumentClassifier inicia el entrenamiento del modelo de clasificador personalizado. Para seguir el progreso de la formación, utilice Describir Clasificador de documentos.

$ aws comprehend describe-document-classifier --document-classifier-arn arn:aws:comprehend:us-east-1:123456789012:document-classifier/yahoo-answers-version1 { "DocumentClassifierProperties": { "DocumentClassifierArn": "arn:aws:comprehend:us-east-1:123456789012:document-classifier/yahoo-answers-version1", "LanguageCode": "en", "Status": "TRAINED", "SubmitTime": "2022-09-22T21:17:53.380000+05:30", "EndTime": "2022-09-22T23:04:52.243000+05:30", "TrainingStartTime": "2022-09-22T21:21:55.670000+05:30", "TrainingEndTime": "2022-09-22T23:04:17.057000+05:30", "InputDataConfig": { "DataFormat": "COMPREHEND_CSV", "S3Uri": "s3://123456789012-comprehend/custom-classifier-partial-dataset.csv" }, "OutputDataConfig": { "S3Uri": "s3://123456789012-comprehend/TrainingOutput/333997476486-CLR-4ea35141e42aa6b2eb2b3d3aadcbe731/output/output.tar.gz" }, "ClassifierMetadata": { "NumberOfLabels": 10, "NumberOfTrainedDocuments": 13501, "NumberOfTestDocuments": 1500, "EvaluationMetrics": { "Accuracy": 0.6827, "Precision": 0.7002, "Recall": 0.6906, "F1Score": 0.693, "MicroPrecision": 0.6827, "MicroRecall": 0.6827, "MicroF1Score": 0.6827, "HammingLoss": 0.3173 } }, "DataAccessRoleArn": "arn:aws:iam::123456789012:role/comprehend-data-access-role", "Mode": "MULTI_CLASS" }}

Vista de consola de la versión inicial del clasificador personalizado como resultado del comando create-document-classifier descrito anteriormente:

Vista de consola de la versión inicial del clasificador personalizado como resultado de la create-document-classifier comando descrito anteriormente

Rendimiento del modelo

En el momento que todos los DARWINs coticen incluyendo los deslizamientos Estado enseñe ENTRENADO, el clasificador está listo para usar. La versión inicial del modelo tiene una puntuación F1 de 0.69. La puntuación F1 es una métrica de evaluación importante en el aprendizaje automático. Resume el rendimiento predictivo de un modelo mediante la combinación de dos métricas que de otro modo compiten: precisión y recuperación.

4. Crea un volante

Como siguiente paso, cree una nueva versión del modelo con el conjunto de datos actualizado (custom-classifier-complete-dataset.csv). Para el reentrenamiento, usaremos Comprehend flywheel para ayudar a orquestar y simplificar el proceso de reentrenamiento del modelo.

Puede crear un volante para un modelo entrenado existente (como en nuestro caso) o entrenar un nuevo modelo para el volante. Cuando crea un volante, Amazon Comprehend crea un lago de datos para contener todos los datos que necesita el volante, como los datos de entrenamiento y los datos de prueba para cada versión del modelo. Cuando Amazon Comprehend crea el lago de datos, configura la siguiente estructura de carpetas en la ubicación de Amazon S3.

Datasets Annotations pool Model datasets (data for each version of the model) VersionID-1 Training Test ModelStats VersionID-2 Training Test ModelStats

Advertencia: Amazon Comprehend administra la organización y el contenido de la carpeta del lago de datos. Si modifica las carpetas del lago de datos, es posible que su volante no funcione correctamente.

Cómo crear un volante (para el modelo personalizado existente):

Nota: Si crea un volante para una versión de modelo entrenado existente, el tipo de modelo y la configuración del modelo están preconfigurados.

Asegúrese de reemplazar el ARN del modelo, el rol de acceso a datos y el URI de S3 del lago de datos con los ARN de su recurso. Usar el segundo cubo S3 123456789012-comprehend-flywheel-datalake creado en el paso "Configuración de depósitos S3" como el lago de datos para flywheel.

$ aws comprehend create-flywheel --flywheel-name custom-model-flywheel-test --active-model-arn arn:aws:comprehend:us-east-1:123456789012:document-classifier/yahoo-answers-version1 -- data-access-role-arn arn:aws:iam::123456789012:role/comprehend-data-access-role --data-lake-s3-uri s3://123456789012-comprehend-flywheel-datalake/

La llamada a la API anterior da como resultado un FlyWheelArn.

{ "FlywheelArn": "arn:aws:comprehend:us-east-1:123456789012:flywheel/custom-model-flywheel-test"}

Vista de la consola del volante

5. Configuración de conjuntos de datos

Para agregar datos de prueba o entrenamiento etiquetados a un volante, use la consola o la API de Amazon Comprehend para crear un conjunto de datos.

Crear una inputConfig.json archivo que contiene el siguiente contenido:

{"DataFormat": "COMPREHEND_CSV","DocumentClassifierInputDataConfig": {"S3Uri": "s3://123456789012-comprehend/custom-classifier-complete-dataset.csv"}}

Utilice el ARN volante relevante de su cuenta para crear el conjunto de datos.

$ aws comprehend create-dataset --flywheel-arn "arn:aws:comprehend:us-east-1:123456789012:flywheel/custom-model-flywheel-test" --dataset-name "training-dataset-complete" --dataset-type "TRAIN" --description "my training dataset" --input-data-config file://inputConfig.json

Esto da como resultado la creación de un conjunto de datos:

{ "DatasetArn": "arn:aws:comprehend:us-east-1:123456789012:flywheel/custom-model-flywheel-test/dataset/training-dataset-complete" }
{ "DatasetArn": "arn:aws:comprehend:us-east-1:123456789012:flywheel/custom-model-flywheel-test/dataset/training-dataset-complete" }

6. Activación de iteraciones de volante

Use iteraciones de volante para ayudarlo a crear y administrar nuevas versiones del modelo. Los usuarios también pueden ver las métricas por conjunto de datos en la carpeta "estadísticas del modelo" en el lago de datos en el depósito S3. Ejecute el siguiente comando para iniciar la iteración del volante:

$ aws comprehend start-flywheel-iteration --flywheel-arn "arn:aws:comprehend:us-east-1:123456789012:flywheel/custom-model-flywheel-test"

La respuesta contiene el siguiente contenido:

{ "FlywheelArn": "arn:aws:comprehend:us-east-1:123456789012:flywheel/custom-model-flywheel-test", "FlywheelIterationId": "20220922T192911Z"}

Cuando ejecuta el volante, crea una nueva iteración que entrena y evalúa una nueva versión del modelo con el conjunto de datos actualizado. Puede promocionar la nueva versión del modelo si su rendimiento es superior a la versión del modelo activo existente.

Resultado de la iteración del volante

7. Actualizar la versión del modelo activo

Notamos que el rendimiento del modelo ha mejorado como resultado de la iteración reciente (resaltada arriba). Para promocionar la nueva versión del modelo como la versión del modelo activo para inferencias, use UpdateFlywheel Llamada API:

$ aws comprehend update-flywheel --flywheel-arn arn:aws:comprehend:us-east-1:123456789012:flywheel/custom-model-flywheel-test --active-model-arn "arn:aws:comprehend:us-east-1:123456789012:document-classifier/yahoo-answers-version1/version/Comprehend-Generated-v1-1b235dd0"

La respuesta contiene los siguientes contenidos, lo que muestra que el modelo recién entrenado se promociona como la versión activa:

{"FlywheelProperties": {"FlywheelArn": "arn:aws:comprehend:us-east-1:123456789012:flywheel/custom-model-flywheel-test","ActiveModelArn": "arn:aws:comprehend:us-east-1:123456789012:document-classifier/yahoo-answers-version1/version/Comprehend-Generated-v1-1b235dd0","DataAccessRoleArn": "arn:aws:iam::123456789012:role/comprehend-data-access-role","TaskConfig": {"LanguageCode": "en","DocumentClassificationConfig": {"Mode": "MULTI_CLASS"}},"DataLakeS3Uri": "s3://123456789012-comprehend-flywheel-datalake/custom-model-flywheel-test/schemaVersion=1/20220922T175848Z/","Status": "ACTIVE","ModelType": "DOCUMENT_CLASSIFIER","CreationTime": "2022-09-22T23:28:48.959000+05:30","LastModifiedTime": "2022-09-23T07:05:54.826000+05:30","LatestFlywheelIteration": "20220922T192911Z"}}

8. Uso del volante para clasificación personalizada

Puede usar la versión del modelo activo del volante para ejecutar trabajos de análisis para una clasificación personalizada. Esto puede ser tanto para análisis en tiempo real como para trabajos de clasificación asincrónica.

Trabajos asincrónicos: Utilizar el InicioDocumentoClasificaciónTrabajo Solicitud de API para iniciar un trabajo asincrónico para clasificación personalizada. Proporcionar la VolanteArn parámetro en lugar del Clasificador De DocumentosArn.
Análisis en tiempo real: utiliza un punto final para ejecutar análisis en tiempo real. Cuando crea el punto final, lo configura con el ARN volante en lugar de un ARN modelo. Cuando ejecute el análisis en tiempo real, seleccione el punto final asociado con el volante. Amazon Comprehend ejecuta el análisis utilizando la versión del modelo activo del volante.

Ejecute el siguiente comando para crear el punto final:

$ aws comprehend —endpoint-name custom-classification-endpoint —model-arn arn:aws:comprehend:us-east-1:123456789012:flywheel/custom-model-flywheel-test —desired-inference-units 1

advertencia: se le cobrará por este extremo desde el momento en que se crea hasta que se elimina. Asegúrese de eliminar el terminal cuando no esté en uso para evitar cargos.

Para la API, use el ClasificarDocumento funcionamiento de la API. Proporcione el punto final del volante para el Punto finalArn parámetro O use la consola para clasificar documentos en tiempo real.

Detalles de precios

Las API de Flywheel son gratuitas. Sin embargo, se le facturará por la capacitación y administración de modelos personalizados. Se le cobra $3 por hora por la capacitación de modelos (facturada por segundo) y $0.50 por mes por la administración de modelos personalizados. Para la clasificación personalizada síncrona y las solicitudes de inferencia de entidades, usted aprovisiona un punto final con el rendimiento adecuado. Para obtener más detalles, visite Comprender precios.

9. Limpiar los recursos

Como se mencionó, se le cobra desde el momento en que inicia su punto final hasta que se elimina. Una vez que ya no necesite su terminal, debe eliminarlo para dejar de incurrir en costos por ello. Puede crear fácilmente otro punto final siempre que lo necesite desde el Endpoints sección. Para obtener más información, consulte Eliminación de puntos finales.

Conclusión

En esta publicación, repasamos las capacidades de Comprehend flywheel y cómo simplifica el proceso de volver a entrenar y mejorar los modelos personalizados con el tiempo. Como parte de los siguientes pasos, puede explorar lo siguiente:

Cree y administre los recursos de volante de Comprehend desde otros medios, como SDK y consola.
En este blog, creamos un volante para un modelo personalizado ya entrenado. Puede explorar la opción de crear un volante y entrenar un modelo para él desde cero.
Use volante para reconocedores de entidades personalizadas.

Hay muchas posibilidades y estamos emocionados de ver cómo usa Amazon Comprehend para sus casos de uso de NLP. ¡Feliz aprendizaje y experimentación!

Sobre la autora

Supremo S Angadi es Arquitecto de Soluciones de Startup Greenfield en AWS y miembro de la comunidad de campo técnico de AI/ML. Trabaja en estrecha colaboración con las nuevas empresas de ML Core, SaaS y Fintech para ayudar a acelerar su viaje a la nube. A Supreeth le gusta pasar su tiempo con la familia y los amigos, le encanta jugar al fútbol y sigue el deporte inmensamente. Su día está incompleto sin un paseo y jugando con su 'DJ' (Golden Retriever).

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/machine-learning/simplify-continuous-learning-of-amazon-comprehend-custom-models-using-comprehend-flywheel/

Sello de tiempo: Marzo 1, 2023

Sello de tiempo: 23 de mayo de 2023

Amazon SageMaker Data Wrangler para reducción de dimensionalidad

Clúster de origen:

Aprendizaje automático de AWS

Nodo de origen: 2071589

Sello de tiempo: Apr 24, 2023

Simplifique el aprendizaje continuo de los modelos personalizados de Amazon Comprehend mediante el volante Comprehend

Reeditado por Platón

Requisitos previos

Resumen de la solución

1. Configuración del entorno

2. Creación de cubos S3

3. Entrenando el clasificador personalizado

4. Crea un volante

Cómo crear un volante (para el modelo personalizado existente):

5. Configuración de conjuntos de datos

6. Activación de iteraciones de volante

7. Actualizar la versión del modelo activo

8. Uso del volante para clasificación personalizada

Detalles de precios

9. Limpiar los recursos

Conclusión

Sobre la autora

Mas de Aprendizaje automático de AWS

Análisis de datos exploratorios automatizados y marco de operacionalización de modelos con un ser humano al tanto

Resumen de texto con Amazon SageMaker y Hugging Face

Utilice una URL prefirmada para proporcionar a sus analistas de negocios un acceso seguro a Amazon SageMaker Canvas

Realice búsquedas inteligentes en correos electrónicos en su espacio de trabajo de Google utilizando el conector de Gmail para Amazon Kendra

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta