Meta 研究人员构建的人工智能能够从视觉、书面或口头材料中同样出色地学习

源节点: 1590449

人工智能领域的进步不断涌现,但它们往往仅限于单一领域:例如,一种用于生成合成语音的很酷的新方法并不是 一种识别人脸上表情的方法。 Meta(又名 Facebook)的研究人员正在研究更通用的东西:一种能够自行学习的人工智能,无论是口头、书面还是视觉材料。

训练人工智能模型正确解释某些事物的传统方法是为其提供大量(例如数百万)标记示例。一张猫的照片,猫的部分被标记,与说话者的对话和转录的单词等。但这种方法不再流行,因为研究人员发现手动创建下一步训练所需大小的数据库不再可行一代人工智能。谁想给 50 万张猫的照片贴上标签?好吧,可能有几个人 - 但谁愿意给 50 万张常见水果和蔬菜的图片贴上标签呢?

目前,一些最有前途的人工智能系统是所谓的自我监督:模型可以根据大量未标记的数据(例如人们互动的书籍或视频)进行工作,并建立自己对系统规则的结构化理解。例如,通过阅读一千本书,它可以学习单词和语法结构概念的相对位置,而无需任何人告诉它什么是宾语、冠词或逗号——它是通过从大量示例中进行推论而获得的。

从直觉上来说,这更像是人们的学习方式,这也是研究人员喜欢它的部分原因。但这些模型仍然倾向于单模态,而且你为语音识别建立半监督学习系统所做的所有工作根本不适用于图像分析——它们简直太不同了。这就是 Facebook/Meta 的最新研究, 名字朗朗上口的 data2vec, 进来。

data2vec 的想法是构建一个能够以更抽象的方式学习的人工智能框架,这意味着从头开始,你可以给它阅读书籍、扫描图像或发出声音,经过一些训练后,它会学习这些东西中的任何一个。这有点像从一粒种子开始,但根据你给它的植物养料,它会长成水仙花、三色堇或郁金香。

在让 data2vec 在各种数据集上进行训练后对其进行测试表明,它与该模式的类似大小的专用模型具有竞争力,甚至优于该模式。 (也就是说,如果模型都限制在 100 MB,data2vec 会做得更好——随着它们的增长,专用模型可能仍然会优于它。)

“这种方法的核心思想是更广泛地学习:人工智能应该能够学习完成许多不同的任务,包括那些完全不熟悉的任务,” 该团队在博客文章中写道。 “我们还希望 data2vec 能让我们更接近这样一个世界:计算机只需很少的标记数据即可完成任务。”

“人们通过视觉、声音和语言的结合来体验世界,这样的系统有一天可以像我们一样理解世界,”首席执行官马克扎克伯格在这项研究中评论道。

这仍处于早期研究阶段,因此不要指望传说中的“通用人工智能”会突然出现,但拥有一个具有通用学习结构、可处理各种领域和数据类型的人工智能似乎是更好的选择。比我们今天所采用的零散的微智能更优雅的解决方案。

data2vec的代码是开源的; 它和一些预训练模型可以在这里找到.

资料来源:https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-writing-or-spoken-materials/

时间戳记:

更多来自 Techcrunch的