Mozilla 停止 DeepSpeech 开发，宣布资助计划

由柏拉图重新发布

关注： 0

请在2021月12日至16日加入XNUMX年变形金刚。注册 r 年度AI活动.

2017 年，Mozilla 推出深度语音是 Mozilla Research 机器学习团队孵化的一项计划，专注于开源自动语音识别模型。在接下来的四年里，DeepSpeech 团队发布了该模型的新版本，能够以“人类准确度”转录讲座、电话交谈、电视节目、广播节目和其他直播流。但在接下来的几个月中，Mozilla 计划停止 DeepSpeech 的开发和维护，因为该公司将转型为顾问角色，其中包括启动一项拨款计划，为一系列展示 DeepSpeech 应用程序的举措提供资金。

DeepSpeech 并不是同类中唯一的开源项目，但它是最成熟的项目之一。该模型以百度发表的研究论文为模型，是一种端到端可训练的字符级架构，可以转录多种语言的音频。 Mozilla 的主要目标之一是实现低于 10% 的转录单词错误率，最新版本的预训练英语模型实现了这一目标，平均单词错误率约为 7.5%。

Mozilla 相信 DeepSpeech 已经达到了下一步要致力于构建应用程序的程度。为此，该公司计划将该项目移交给有兴趣进一步“基于用例的探索”的“人员和组织”。 Mozilla 表示，它简化了持续集成流程，以最小的依赖性启动和运行 DeepSpeech。随着该公司清理文档并准备停止 Mozilla 员工维护代码库，Mozilla 表示将发布一个工具包，帮助人们、研究人员、公司和任何其他感兴趣的各方使用 DeepSpeech 构建基于语音的解决方案。

DeepSpeech：简史

Mozilla 在 DeepSpeech 方面的工作始于 2017 年底，目标是开发一种模型，将音频特征（语音）作为输入并直接输出字符。该团队希望设计一个可以通过监督学习使用 Google TensorFlow 框架进行训练的系统，其中模型学习从标记语音数据集中推断模式。

最新的 DeepSpeech 模型包含数千万个参数，或者是从历史训练数据中学习到的模型部分。 Mozilla 研究团队开始使用一台运行 8 个 Titan X Pascal GPU 的计算机对其进行训练，但最终将其迁移到两台服务器，每台服务器配有 XNUMX 个 Titan XP。在项目初期，训练一个高性能模型大约需要一周时间。

在接下来的几年里，Mozilla 致力于缩小 DeepSpeech 模型的规模，同时提高其性能并保持低于 10% 错误率的目标。英文模型从 188MB 缩小到 47MB，内存消耗下降了 22 倍。在 2019年十二月，该团队设法让 DeepSpeech 在 Raspberry Pi 4 的单核上运行“比实时更快”。

深度语音模型

Mozilla 最初使用免费数据集训练 DeepSpeech，例如泰德-刘姆和图书馆演讲以及付费语料库费舍尔和总机，但事实证明这些还不够。因此，该团队联系了公共电视台和广播电台、大学语言研究部门以及他们认为可能已标记语音数据以进行共享的其他部门。通过这一努力，他们能够将英语 DeepSpeech 模型的训练数据量增加一倍以上。

受到这些数据收集工作的启发，Mozilla 研究团队与 Mozilla 的开放创新团队合作推出了共同的声音项目，旨在收集和验证志愿者的演讲贡献。 Common Voice 不仅包含语音片段，还包含可用于训练语音引擎的自愿贡献的元数据，例如说话者的年龄、性别和口音。它还发展到包含用于特定目的和用例的数据集目标细分，例如数字“零”到“九”以及单词“是”、“否”、“嘿”和“Firefox”。

如今，Common Voice 是世界上最大的多语言公共领域语音语料库之一，拥有 9,000 种不同语言的 60 多个小时的语音数据，包括广泛使用的语言和较少使用的语言，如威尔士语和基尼亚卢旺达语。迄今为止，已有超过 164,000 人为该数据集做出了贡献。

为了支持该项目的发展，Nvidia 今天宣布将向 Common Voice 投资 1.5 万美元，以吸引更多社区和志愿者，并支持招聘新员工。 Common Voice 现在将在 Mozilla 基金会的保护下运营，作为其项目专注于让人工智能更值得信赖。

补助计划

Mozilla 表示，随着 DeepSpeech 的开发逐渐结束，其即将推出的资助计划将优先考虑有助于核心技术的项目，同时展示其“赋权和丰富”领域的潜力，否则这些领域可能没有可行的基于语音交互的途径。更多细节将于 XNUMX 月份公布，届时 Mozilla 会发布一本手册，指导人们如何使用 DeepSpeech 的代码库作为语音驱动应用程序的起点。

“我们看到成熟的开源语音引擎出现。然而，生态系统中仍然存在一个重要的差距：语音引擎——开放式和封闭式——不适用于世界上大量的语言、口音和语音模式。”Mozilla 基金会执行董事 Mark Surman 告诉 VentureBeat。通过电子邮件。 “对于数十亿互联网用户来说，语音技术根本无法使用。 Mozilla 决定将精力集中在这一方面，使语音技术具有包容性和易用性。这意味着投资语音数据集而不是我们自己的语音引擎。我们正在加倍努力开发 Common Voice，这是一个开源数据集，专注于目前语音技术生态系统中尚未出现的语言和口音。通用语音数据可用于提供[开放语音]框架……进而允许更多地方的更多人访问语音技术。我们还与 Nvidia 密切合作，以匹配包容性语音技术等式的这两方面。”