Дослідники Google підвищують точність розпізнавання мовлення за допомогою додаткових наборів даних

Перевидано Платоном

читають: 0

Приєднуйтесь до Transform 2021 12-16 липня. Зареєструватися для r подія року ШІ.

Що, якщо ключ до підвищення точності розпізнавання мовлення полягає в простому змішуванні всіх доступних наборів мовних даних разом для навчання однієї великої моделі ШІ? Це гіпотеза, яка лежить в основі нещодавнього дослідження, опублікованого групою дослідників, пов’язаних із Google Research і Google Brain. Вони стверджують, що модель штучного інтелекту називається SpeechStew який пройшов навчання з використанням ряду корпусів мовлення, досягає найсучасніших або близьких до найсучасніших результатів за різноманітними тестами розпізнавання мовлення.

Навчання моделей на більшій кількості даних, як правило, складне, оскільки збір і анотування нових даних є дорогим, особливо в мовній області. Крім того, навчання великих моделей є дорогим і непрактичним для багатьох членів спільноти ШІ.

Рішення для набору даних

У пошуках рішення дослідники Google об’єднали всі доступні позначені та немарковані дані розпізнавання мовлення, зібрані спільнотою протягом багатьох років. Вони використали AMI, набір даних, що містить близько 100 годин записів зустрічей, а також корпуси, які включають Switchboard (приблизно 2,000 годин телефонних розмов), Broadcast News (50 годин телевізійних новин), Librispeech (960 годин аудіокниг) і Краудсорсинг Mozilla Загальний голос. Їхній об’єднаний набір даних містив понад 5,000 годин розмови, жодна з яких не була скоригована з початкової форми.

Із зібраним набором даних дослідники використовували Google Cloud TPU для навчання SpeechStew, створивши модель із понад 100 мільйонами параметрів. У машинному навчанні параметри — це властивості даних, які модель дізналася під час процесу навчання. Дослідники також навчили модель з 1 мільярдом параметрів, але вона страждала від погіршення продуктивності.

Коли команда отримала універсальну модель SpeechStew, вони протестували її на кількість орієнтирів і виявив, що він не тільки перевершує раніше розроблені моделі, але й демонструє здатність адаптуватися до нових складних завдань. Використовуючи Chime-6, 40-годинний набір даних про віддалені розмови вдома, записані мікрофонами, дослідники налаштували SpeechStew для досягнення точності відповідно до набагато складнішої моделі.

Трансферне навчання передбачає передачу знань з однієї області в іншу з меншою кількістю даних, і це показало перспективу в багатьох підполях ШІ. Взявши таку модель, як SpeechStew, яка розроблена для розуміння загального мовлення та вдосконалення його на полях, ШІ може, наприклад, розуміти мовлення з різними акцентами та в різних середовищах.

Майбутні програми

Коли VentureBeat запитав електронною поштою, як мовні моделі, такі як SpeechStew, можна використовувати у виробництві — наприклад, у споживчих пристроях чи хмарних API — дослідники відмовилися від припущень. Але вони передбачають, що моделі служать представленнями загального призначення, які можна перенести на будь-яку кількість наступних завдань розпізнавання мовлення.

«Ця проста техніка тонкого налаштування моделі загального призначення для нових завдань розпізнавання мовлення є простою, практичною, але вражаючою ефективністю», — сказали дослідники. «Важливо розуміти, що розподіл інших джерел даних не повністю відповідає набору даних, що цікавить. Але до тих пір, поки існує якесь спільне представлення, необхідне для вирішення обох завдань, ми можемо сподіватися досягти кращих результатів, об’єднавши обидва набори даних».

VentureBeat

Місія VentureBeat - бути цифровою міською площею для тих, хто приймає технічні рішення, щоб отримати знання про трансформаційні технології та укладати транзакції. Наш сайт надає важливу інформацію про технології та стратегії обробки даних, яка допоможе вам керувати вашими організаціями. Ми запрошуємо вас стати членом нашої спільноти, щоб отримати доступ до:

актуальну інформацію з питань, що вас цікавлять
наші бюлетені
закритий вміст керівника думок та знижений доступ до наших цінних подій, таких як Перетворення 2021: Вивчайте більше
функції мережі та багато іншого

Стань членом

Джерело: https://venturebeat.com/2021/04/15/google-researchers-boost-speech-recognition-accuracy-with-more-datasets/

Часова мітка: Квітень 15, 2021