你能教人工智能常识吗？

由柏拉图重新发布

关注： 0

Transform 2021 的所有会议现在都可以按需提供。立即观看。

甚至在他们说出第一句话之前，人类婴儿就已经形成了关于物体和人的心智模型。这是让我们人类学会社交生活和相互合作（或竞争）的关键能力之一。但对于人工智能来说，即使是最基本的行为推理任务仍然是一个挑战。

先进的深度学习模型可以完成复杂的任务，例如检测图像中的人和物体，有时甚至比人类做得更好。但他们努力超越图像的视觉特征，并推断其他代理人正在做什么或希望完成什么。

为了帮助填补这一空白，IBM、麻省理工学院和哈佛大学的科学家们开发了一系列测试，这些测试将有助于评估人工智能模型通过观察和理解世界来像孩子一样推理的能力。

“就像人类婴儿一样，机器代理必须具备足够的理解人类思想的能力，才能成功参与社交互动，”人工智能研究人员在一份报告中写道。新文介绍了称为 AGENT 的数据集。

AGENT 在今年的国际机器学习大会 (ICML) 上发表，它为衡量 AI 系统的推理能力提供了一个重要的基准。

观察和预测代理行为

在 AI 系统中测试常识和推理方面有大量工作。他们中的许多人都专注于自然语言理解，包括著名的图灵测试和 Winograd 模式. 相比之下，AGENT 项目侧重于人类在能够说话之前学习的推理能力。

“根据发展心理学的文献，我们的目标是创建一个基准来评估与直觉心理学相关的特定常识能力，婴儿在前语言阶段（在他们生命的前 18 个月）学习，”Dan Gutfreund，校长麻省理工学院-IBM 沃森人工智能实验室的研究员告诉 TechTalks.

作为孩子，我们学会通过观察我们的环境来区分物体和代理之间的区别。当我们观察事件的发展时，我们会发展出直觉的心理技能，通过观察他人的行为来预测他人的目标，并不断纠正和更新我们的心理。我们在很少或根本没有指导的情况下就学会了这一切。

AGENT（行动、目标、效率、约束、效用）测试背后的想法是评估人工智能系统可以模仿这种基本技能，他们可以培养什么心理推理能力，以及他们学习的表征在新情况下的泛化能力如何。该数据集包含短序列，这些序列显示代理正在朝着多个对象之一导航。这些序列是在 ThreeDWorld 中制作的，这是一个专为训练 AI 代理而设计的虚拟 3D 环境。

代理测试分两个阶段进行。首先，AI 会收到一个或两个描述代理行为的序列。这些例子应该让 AI 熟悉虚拟代理的偏好。例如，代理可能总是选择一种类型的对象，而不管挡在路上的障碍物，或者它可能选择最近和最容易接近的对象，而不管其类型。

在熟悉阶段之后，AI 会看到一个测试序列，它必须确定代理是否以预期或令人惊讶的方式行事。

总共 3,360 个测试跨越四种类型的场景，从非常简单的行为（无论环境如何，代理人都喜欢一种对象）到更复杂的挑战（代理人表现出成本回报估计，权衡实现的难度）一个目标与其将获得的奖励）。 AI 还必须考虑代理人的行动效率（例如，在没有障碍物的情况下，它不应该进行不必要的跳跃）。在一些挑战中，场景被部分遮挡，使得对环境的推理变得更加困难。

人工环境中的真实场景

测试的设计者包括了人类归纳偏差，这意味着代理和环境受对人类来说是理性的规则支配（例如，跳跃或攀爬障碍物的成本随着障碍物的高度而增加）。这个决定有助于使挑战更现实，更容易评估。研究人员还指出，这些类型的偏见对于帮助创建与人类行为更好地协调和兼容并且可以与人类同行合作的人工智能系统也很重要。

AI 研究人员通过 Amazon Mechanical Turk 测试了人类志愿者面临的挑战。他们的发现表明，平均而言，人类可以通过观察熟悉序列和判断测试示例来解决 91% 的挑战。这意味着人类使用他们关于世界和人类/动物行为的先验知识来理解代理人如何做出决策（例如，在所有其他条件相同的情况下，代理人将选择奖励更高的对象）。

人工智能研究人员有意限制数据集的大小，以防止使用不智能的捷径来解决问题。给定一个非常大的数据集，机器学习模型可能会在不获取有关代理行为的基础知识的情况下学习做出正确的预测。 “仅在我们的数据集上从头开始训练是行不通的。相反，我们建议，要通过测试，有必要通过架构中的归纳偏差或通过额外数据的训练来获取额外的知识，”研究人员写道。

然而，研究人员在测试中实施了一些捷径。 AGENT 数据集包括场景每一帧的深度图、分割图以及对象和障碍物的边界框。场景在视觉细节上也极其简单，由八种不同的颜色组成。所有这些都让 AI 系统更容易处理场景中的信息，并专注于挑战的推理部分。

当前的 AI 是否解决了 AGENT 挑战？

研究人员在两个基线 AI 模型上测试了 AGENT 挑战。第一个，贝叶斯逆向规划和核心知识（BIPaCK），是一个集成了物理模拟和规划的生成模型。

该模型使用数据集提供的完整地面实况信息，并将其输入其物理和规划引擎以预测代理的轨迹。研究人员的实验表明，当 BIPaCK 拥有有关场景的完整信息时，它能够表现出与人类相当甚至更好的表现。

然而，在现实世界中，人工智能系统无法访问精确标注的地面实况信息，必须执行复杂的任务来检测不同背景和光照条件下的物体，这是人类和动物很容易解决的问题，但对计算机来说仍然是一个挑战视觉系统。

在他们的论文中，研究人员承认 BIPaCK“需要 3D 状态的精确重建和物理动力学的内置模型，这在现实世界场景中不一定可用。”

研究人员测试的第二个模型代号为 ToMnet-G，是心智神经网络理论的扩展版本（互联网), 由科学家提出 DeepMind 2018 年。ToMnet-G 使用图神经网络对场景状态进行编码，包括物体、障碍物和代理的位置。然后它将这些编码输入长短期记忆网络 (LSTM) 来跟踪代理在帧序列中的轨迹。该模型使用它从熟悉视频中提取的表示来预测代理在测试视频中的行为，并将它们评级为预期或令人惊讶。

上图：ToMnet-G 模型使用图形神经网络和 LSTM 嵌入场景表示并预测代理行为

ToMnet-G 的优势在于它不需要 BIPaCK 的预制物理和常识知识。它从视频和之前在其他数据集上的训练中学习一切。另一方面，ToMnet-G 经常学习错误的表示，并且不能将其行为泛化到新场景或当它的熟悉信息有限时。

“在没有许多内置先验的情况下，ToMnet-G 在类似场景的训练和测试中展示了可喜的结果，但它在场景内和场景之间仍然缺乏强大的泛化能力，”研究人员在他们的论文中观察到。

两种模型之间的对比突出了人类在没有任何指导的情况下学习的最简单任务的挑战。

“我们必须记住，我们的基准在设计上描述了非常简单的合成场景，每次都解决常识的一个特定方面，”Gutfreund 说。 “在现实世界中，人类能够非常快速地解析复杂的场景，其中与物理、心理学、语言等相关的常识的许多方面同时在起作用。 AI 模型还远不能做到这一点。”

常识与人工智能的未来

“我们认为，从狭义人工智能到广义人工智能的道路必须包括具有常识的模型，”Gutfreund 说。 “常识能力是理解世界和与世界互动的重要组成部分，可以促进新能力的获得。”

许多科学家认为，常识和推理可以解决当前人工智能系统面临的许多问题，例如它们对大量训练数据的需求、它们与因果关系的斗争，以及它们在处理新情况时的脆弱性。常识和推理是 AI 社区的重要研究领域，它们已成为该领域一些最聪明的头脑的焦点，包括深度学习的先驱。

求解 AGENT 可能是朝着创建在不可预测的人类世界中表现稳健的 AI 代理迈出的一小步但很重要的一步。

“很难说服人们相信自主代理人不要以通常的理智方式行事”古特弗罗因德说。 “例如，考虑一个帮助老年人的机器人。如果那个机器人不遵循代理人有效追求目标的常识性原则，并且在被要求从冰箱取牛奶时会曲折而不是直线移动，那么它就不会很实用也不值得信赖。”

代理是的一部分机器常识美国国防高级研究计划局 (DARPA) 的 (MCS) 计划。 MCS 遵循两大目标。首先是创造可以像孩子一样学习推理物体、主体和空间的机器。代理人属于这一类。第二个目标是开发可以通过从网络上阅读结构化和非结构化知识来学习的系统，就像人类研究人员所做的那样。这与当前的自然语言理解方法不同，后者仅侧重于捕获非常大的文本语料库中单词和单词序列之间的统计相关性。

“我们现在正致力于使用 AGENT 作为婴儿的测试环境。我们计划与其他 DARPA MCS 计划执行者一起探索与多个代理相关的更复杂的常识场景（例如，互相帮助或阻碍）和使用工具来实现目标（例如，开门的钥匙） . 我们还致力于与直觉物理学和空间理解相关的其他核心知识领域，”Gutfreund 说。

Ben Dickson是一位软件工程师，并且是 TechTalks，该博客探讨了技术解决和制造问题的方式。