Una guía extensa para la recopilación de datos para proyectos de voz

Reeditado por Platón

seguidores: 0

¿Somos solo nosotros o los asistentes virtuales se están volviendo cada día más extravagantes y atrevidos? Si recuerdas tu primera interacción con un asistente virtual como Siri, Cortana o Alexa, recordaría respuestas suaves y una ejecución sencilla de las tareas.

Sin embargo, sus respuestas no son las mismas que solían ser. A lo largo de los años, han crecido hasta convertirse en sarcásticos, ingeniosos y, en palabras simples, más parecidos a los humanos. Es como si estuvieran a un paso de descifrar la prueba de Turing. Pero esto ha sido un viaje, ¿no?

Para llegar aquí, ha pasado cerca de una década de entrenamiento de IA en el backend. Miles de científicos de datos y expertos en inteligencia artificial han trabajado meticulosamente durante horas para obtener los conjuntos de datos correctos para entrenar sus proyectos de voz, anotar aspectos clave y hacer que las máquinas los aprendan intactos. Desde el etiquetado de partes del discurso hasta la enseñanza de extravagancias y respuestas divertidas a las máquinas, en las fases de desarrollo se han llevado a cabo toneladas de tareas complejas.

Pero, ¿cuál es el proceso en realidad? ¿Qué se necesita para que los expertos entrenen y desarrollen proyectos de discurso? Si está trabajando en un proyecto de discurso, ¿cuáles son los factores que debe tener en cuenta?

Uno de los primeros pasos en la capacitación de los módulos de voz es comprender cómo su audiencia interactuará con ellos. Trabaje para obtener información sobre lo que dirían para activar su módulo de voz, úselo a través del dictado y escuche los resultados. Entonces, en este caso, conozca los desencadenantes, las respuestas y los mecanismos de salida.

Para esto, debe recopilar volúmenes masivos de datos representativos que estén exactamente cerca de su fuente. Desde transcripciones de llamadas hasta chats y todo lo demás, use tantos volúmenes de datos como sea posible para concentrarse en estos aspectos cruciales.

Una vez que tenga una comprensión general de cómo su audiencia interactuará con su módulo de voz, tenga en cuenta el lenguaje específico que usarían que está en línea con su dominio de operación. Por ejemplo, si su proyecto de voz es para una aplicación mhealth, su sistema debe estar familiarizado con la jerga, los procesos y las frases de diagnóstico de la atención médica para hacer su trabajo con precisión. Si se trata de un proyecto para una solución de comercio electrónico, el lenguaje y los términos utilizados serían completamente diferentes. Por lo tanto, conozca el lenguaje específico del dominio.

Por ahora, tiene una compilación de frases, oraciones y texto de valor con usted. Ahora, necesita convertir esto en un guión sólido y grabarlo de humanos para su máquina de aprendizaje Módulos para entender y aprender. En cada pieza de grabación, puede pedir a los registradores que especifiquen sus datos demográficos, acento y otra información útil que podría usar como metadatos durante la anotación de datos.

1. Cómo la IA conversacional puede automatizar el servicio al cliente

2. Chats automatizados frente a chats en vivo: ¿Cómo será el futuro del servicio al cliente?

3. Chatbots como asistentes médicos en la pandemia de COVID-19

4. Chatbot vs. Asistente virtual inteligente: ¿cuál es la diferencia y por qué preocuparse?

La precisión con la que su módulo de voz responde a los disparadores depende de sus datos de grabación. Es decir, debe tener datos de su público objetivo real. Usando el mismo ejemplo de la aplicación mhealth, si es un módulo especializado para personas mayores, necesita tener datos registrados de personas mayores para que su módulo los entienda con precisión.

Sus acentos, la forma en que hablan, la dicción, la pronunciación, la modulación y el comando son diferentes de las personas que son más jóvenes que ellos. Es por eso que mencionamos que sus datos deben estar lo más cerca posible de su fuente.

Según su dominio y segmento de mercado, recopile la mayor cantidad de datos posible. Recopile grabaciones de llamadas, programe grabaciones en tiempo real de personas, colabore, acérquese a proveedores de servicios de datos de capacitación y haga más para obtener conjuntos de datos.

Sus colaboradores no son profesionales capacitados (en su mayoría). Cuando hablan, es probable que haya algunos errores, como el uso de errs y umms. También podría haber casos de repetición de palabras o frases porque no pudieron hacerlo bien la primera vez.

Por lo tanto, trabaje manualmente para eliminar dichos errores y transcriba sus grabaciones. Si el trabajo manual se parece demasiado a una tarea, use módulos de voz a texto. Guárdelos como documentos con convenciones de nomenclatura adecuadas que definan con precisión el tipo de grabación.

Ahora tiene una buena fuente de datos de voz con usted. Con los datos que recopiló en el paso 2 y con las grabaciones y transcripciones reales, puede iniciar el proceso de capacitación para el desarrollo de su módulo de voz. Mientras entrena, pruebe la precisión y la eficiencia de su módulo y siga haciendo iteraciones para la optimización. No dejes pasar los errores porque se necesita otra ronda de entrenamiento. Solucione todas las lagunas, lagunas y errores y dé paso a un módulo hermético al final.

Entendemos que esto podría ser bastante abrumador al principio. Los módulos de voz requieren esfuerzos complejos durante un período de tiempo para entrenar AI conversacional / asistentes virtuales. Es por eso que tales proyectos también son tediosos. Si encuentra que esto es demasiado técnico y requiere mucho tiempo, le recomendamos que obtenga sus conjuntos de datos de proveedores de datos de capacitación de calidad. Obtendrían los datos más relevantes y contextuales para su proyecto a tiempo que están listos para la máquina.

Descripción de las redes sociales: Obtener datos de calidad para proyectos de voz es difícil. Necesita conocer a su audiencia, cómo hablan, cómo acceden a las soluciones y más para desarrollar una solución hermética. Para aquellos de ustedes que comienzan con un proyecto de discurso, aquí hay pasos efectivos sobre cómo podrían abordar el abastecimiento de datos.

Descripción: La adquisición de datos para proyectos de voz se simplifica cuando se adopta un enfoque sistemático. Lea nuestra publicación exclusiva sobre adquisición de datos para proyectos de voz y obtenga claridad.

Biografía del autor Vatsal Ghiya es un emprendedor en serie con más de 20 años de experiencia en software y servicios de inteligencia artificial para el cuidado de la salud. Es el director ejecutivo y cofundador de Shaip, que permite el escalado bajo demanda de nuestra plataforma, procesos y personas para empresas con las iniciativas de aprendizaje automático e inteligencia artificial más exigentes.

Source: https://chatbotslife.com/an-extensive-guide-to-data-collection-for-speech-projects-de550597555c?source=rss—-a49517e4c30b—4

Sello de tiempo: 16 de noviembre.