Les chercheurs de Google améliorent la précision de la reconnaissance vocale avec plus d'ensembles de données

Nœud source: 809069

Rejoignez Transform 2021 du 12 au 16 juillet. Inscrivez-vous pourr l'événement IA de l'année.


Et si la clé pour améliorer la précision de la reconnaissance vocale consistait simplement à mélanger tous les ensembles de données vocales disponibles pour former un grand modèle d’IA ? C'est l'hypothèse qui se cache derrière une étude récente publiée par une équipe de chercheurs affiliés à Google Research et Google Brain. Ils revendiquent un modèle d'IA nommé DiscoursRagoût qui a été formé sur une gamme de corpus vocaux obtient des résultats de pointe ou presque sur une variété de critères de reconnaissance vocale.

La formation de modèles sur un plus grand nombre de données a tendance à être difficile, car la collecte et l'annotation de nouvelles données coûtent cher, en particulier dans le domaine vocal. De plus, la formation de grands modèles est coûteuse et peu pratique pour de nombreux membres de la communauté de l’IA.

Solution d'ensemble de données

À la recherche d’une solution, les chercheurs de Google ont combiné toutes les données de reconnaissance vocale étiquetées et non étiquetées disponibles, organisées par la communauté au fil des ans. Ils se sont appuyés sur AMI, un ensemble de données contenant environ 100 heures d'enregistrements de réunions, ainsi que sur des corpus comprenant Switchboard (environ 2,000 50 heures d'appels téléphoniques), Broadcast News (960 heures d'informations télévisées), Librispeech (XNUMX heures de livres audio) et Le crowdsourcing de Mozilla Voix commune. Leur ensemble de données combiné comptait plus de 5,000 XNUMX heures de parole, dont aucune n’a été ajustée par rapport à sa forme originale.

Avec l'ensemble de données assemblé, les chercheurs ont utilisé Google Cloud TPU pour entraîner SpeechStew, produisant ainsi un modèle avec plus de 100 millions de paramètres. En apprentissage automatique, les paramètres sont les propriétés des données que le modèle a apprises au cours du processus de formation. Les chercheurs ont également formé un modèle comportant 1 milliard de paramètres, mais ses performances ont été dégradées.

Une fois que l'équipe disposait d'un modèle SpeechStew à usage général, elle l'a testé sur un nombre de repères et a constaté qu'il surpassait non seulement les modèles développés précédemment, mais démontrait également une capacité à s'adapter à de nouvelles tâches difficiles. En tirant parti de Chime-6, un ensemble de données de 40 heures de conversations à distance dans des maisons enregistrées par des microphones, les chercheurs ont affiné SpeechStew pour atteindre une précision conforme à un modèle beaucoup plus sophistiqué.

L’apprentissage par transfert implique le transfert de connaissances d’un domaine à un autre avec moins de données, et cela s’est révélé prometteur dans de nombreux sous-domaines de l’IA. En prenant un modèle comme SpeechStew, conçu pour comprendre la parole générique et en l'affinant à la marge, il est possible pour l'IA, par exemple, de comprendre la parole dans différents accents et environnements.

Futures applications

Lorsque VentureBeat a demandé par courrier électronique comment des modèles vocaux tels que SpeechStew pourraient être utilisés en production, comme dans les appareils grand public ou les API cloud, les chercheurs ont refusé de spéculer. Mais ils envisagent que les modèles servent de représentations à usage général transférables à un certain nombre de tâches de reconnaissance vocale en aval.

"Cette technique simple consistant à affiner un modèle à usage général pour de nouvelles tâches de reconnaissance vocale en aval est simple, pratique, mais étonnamment efficace", ont déclaré les chercheurs. « Il est important de réaliser que la répartition des autres sources de données ne correspond pas parfaitement à l’ensemble de données qui nous intéresse. Mais tant qu’une représentation commune est nécessaire pour résoudre les deux tâches, nous pouvons espérer obtenir de meilleurs résultats en combinant les deux ensembles de données.

VentureBeat

La mission de VentureBeat est d'être une place de ville numérique permettant aux décideurs techniques d'acquérir des connaissances sur la technologie transformatrice et d'effectuer des transactions. Notre site fournit des informations essentielles sur les technologies de données et les stratégies pour vous guider dans la conduite de vos organisations. Nous vous invitons à devenir membre de notre communauté, pour accéder:

  • des informations à jour sur les sujets qui vous intéressent
  • nos newsletters
  • contenu de leader d'opinion fermé et accès à prix réduit à nos événements prisés, tels que Transformer 2021: Apprendre encore plus
  • fonctionnalités de mise en réseau, et plus

Devenir membre

Source : https://venturebeat.com/2021/04/15/google-researchers-boost-speech-recognition-accuracy-with-more-datasets/

Horodatage:

Plus de VentureBeat