如果提高语音识别准确性的关键只是将所有可用的语音数据集混合在一起来训练一个大型人工智能模型,该怎么办?这是谷歌研究院和谷歌大脑的一组研究人员最近发表的一项研究背后的假设。他们声称有一个名为 演讲炖菜 它经过一系列语音语料库的训练,在各种语音识别基准上取得了最先进或接近最先进的结果。
在更多数据上训练模型往往很困难,因为收集和注释新数据的成本很高,尤其是在语音领域。此外,对于人工智能社区的许多成员来说,训练大型模型既昂贵又不切实际。
数据集解决方案
为了寻求解决方案,谷歌研究人员结合了社区多年来整理的所有可用的标记和未标记语音识别数据。他们利用了 AMI(包含约 100 小时会议录音的数据集)以及语料库,其中包括 Switchboard(约 2,000 小时的电话通话)、Broadcast News(50 小时的电视新闻)、Librispeech(960 小时的有声读物)和Mozilla 的众包 共同的声音。他们的合并数据集包含超过 5,000 小时的语音,其中没有一个对原始形式进行调整。
通过组装的数据集,研究人员使用 Google Cloud TPU 来训练 SpeechStew,生成了一个具有超过 100 亿个参数的模型。在机器学习中,参数是模型在训练过程中学到的数据的属性。研究人员还训练了一个 1 亿参数的模型,但它的性能下降了。
一旦团队有了通用的 SpeechStew 模型,他们就在 基准数量 发现它不仅优于以前开发的模型,而且表现出适应具有挑战性的新任务的能力。研究人员利用 Chime-6(由麦克风录制的 40 小时家中远程对话数据集)对 SpeechStew 进行微调,以达到与更复杂的模型相符的准确性。
迁移学习需要用更少的数据将知识从一个领域迁移到另一个领域,并且它在人工智能的许多子领域都显示出了前景。通过采用像 SpeechStew 这样旨在理解通用语音的模型并在边缘进行改进,人工智能就有可能理解不同口音和环境中的语音。
未来的应用
当 VentureBeat 通过电子邮件询问如何在生产中使用 SpeechStew 等语音模型(例如消费设备或云 API)时,研究人员拒绝做出推测。但他们设想这些模型可以作为通用表示,可以转移到任意数量的下游语音识别任务。
研究人员表示:“这种将通用模型微调到新的下游语音识别任务的简单技术简单、实用,但效果惊人。” “重要的是要认识到其他数据源的分布与感兴趣的数据集并不完全匹配。但只要解决这两个任务需要一些共同的表示,我们就希望通过组合这两个数据集来获得更好的结果。”
VentureBeat的
VentureBeat的使命是成为技术决策者的数字城镇广场,以获取有关变革性技术和交易的知识。 我们的网站提供有关数据技术和策略的重要信息,以指导您领导组织。 我们邀请您成为我们社区的成员,可以访问:
- 有关您感兴趣的主题的最新信息
- 我们的新闻通讯
- 门控的思想领袖内容,以及对我们珍贵活动的打折访问权,例如 转变2021: 了解更多
- 网络功能等