零样本学习,解释

零样本学习,解释

源节点: 1776319

零样本学习,解释
布鲁斯·沃灵顿 通过Unsplash
 

机器学习模型总体上变得更智能的原因是它们依赖于使用标记数据来帮助它们辨别两个相似的对象。 

但是,如果没有这些带标签的数据集,您在创建最有效和最值得信赖的机器学习模型时将遇到重大障碍。 模型训练阶段的标记数据集很重要。 

深度学习已被广​​泛用于解决诸如使用监督学习的计算机视觉等任务。 然而,与生活中的许多事情一样,它也有限制。 监督分类需要大量和高质量的标记训练数据才能生成稳健的模型。 这意味着分类模型无法处理看不见的类。 

而且我们都知道训练一个深度学习模型需要多少计算能力、再训练、时间和金钱。

但是,模型是否仍然能够在不使用训练数据的情况下区分两个对象? 是的,这叫做零样本学习。 零样本学习是模型能够在没有接收或使用任何训练示例的情况下完成任务的能力。 

人类天生就有能力进行零样本学习,而无需付出太多努力。我们的大脑已经存储了字典,并允许我们根据我们当前的知识库,通过查看它们的物理特性来区分对象。 我们可以利用这个知识库来查看对象之间的异同,找到它们之间的联系。

例如,假设我们正在尝试建立一个动物物种分类模型。 根据 我们的世界数据,2.13 年计算出的物种有 2021 万个。因此,如果我们要创建最有效的动物物种分类模型,我们需要 2.13 万个不同的类别。 还需要大量数据。 很难找到高质量的数据。

那么零样本学习是如何解决这个问题的呢?

因为零样本学习不需要模型已经学习了训练数据和如何分类,所以它可以让我们更少地依赖模型对标记数据的需求。 

以下是您的数据需要包含的内容,以便继续进行零样本学习。

看过的课

这包括以前用于训练模型的数据类。 

看不见的类

这包括尚未用于训练模型的数据类,新的零样本学习模型将进行概括。 

辅助信息

由于未见类别中的数据未标记,零样本学习将需要辅助信息才能学习并找到相关性、链接和属性。 这可以是词嵌入、描述和语义信息的形式。

零样本学习方法

零样本学习通常用于:

  • 基于分类器的方法
  • 基于实例的方法

实习

零样本学习用于为不使用标记数据训练的类构建模型,因此它需要以下两个阶段:

1。 训练

训练阶段是学习方法试图获取尽可能多的关于数据质量的知识的过程。 我们可以将此视为学习阶段。 

2.推理

在推理阶段,所有从训练阶段学到的知识都被应用和利用,以便将示例分类到一组新的类中。 我们可以将此视为做出预测阶段。 

它是如何工作的?

来自已见类的知识将转移到高维向量空间中的未见类; 这称为语义空间。 例如,在图像分类中,语义空间和图像将经历两个步骤:

1.联合嵌入空间

这是语义向量和视觉特征向量被投影到的地方。 

2.最高相似度

这是将特征与未见类的特征进行匹配的地方。 

为了帮助理解这两个阶段(训练和推理)的过程,让我们将它们应用到图像分类的使用中。

产品培训

零样本学习,解释
亚里·海托宁 通过Unsplash
 

作为一个人,如果你要阅读上图中右侧的文字,你会立即假设棕色篮子里有 4 只小猫。 但是假设您不知道“小猫”是什么。 你会假设有一个棕色的篮子,里面有 4 个东西,它们被称为“小猫”。 一旦您遇到更多包含看起来像“小猫”的东西的图像,您将能够将“小猫”与其他动物区分开来。 

这是您使用时发生的情况 对比语言-图像预训练 (CLIP) 由 OpenAI 提供,用于图像分类中的零样本学习。 它被称为辅助信息。 

您可能会想,“那只是标记数据”。 我理解你为什么会这么想,但事实并非如此。 辅助信息不是数据的标签,它们是在训练阶段帮助模型学习的一种监督形式。

当零样本学习模型看到足够数量的图像-文本配对时,它将能够区分和理解短语以及它们如何与图像中的某些模式相关联。 使用 CLIP 技术“对比学习”,零样本学习模型已经能够积累良好的知识库,从而能够对分类任务进行预测。 

这是 CLIP 方法的总结,他们一起训练图像编码器和文本编码器,以预测一批(图像、文本)训练示例的正确配对。 请看下图:

 

零样本学习,解释
从自然语言监督中学习可迁移视觉模型

推理

一旦模型完成了训练阶段,它就拥有了良好的图像-文本配对知识库,现在可以用来进行预测了。 但在我们开始进行预测之前,我们需要通过创建模型可以输出的所有可能标签的列表来设置分类任务。 

例如,坚持对动物种类的图像分类任务,我们将需要所有动物种类的列表。 这些标签中的每一个都将被编码,T? 到 T? 使用在训练阶段发生的预训练文本编码器。 

一旦标签被编码,我们就可以通过预训练的图像编码器输入图像。 我们将使用距离度量余弦相似度来计算图像编码和每个文本标签编码之间的相似度。

图像的分类是基于与图像最相似的标签来完成的。 这就是零样本学习的实现方式,特别是在图像分类中。 

数据稀缺

如前所述,大量和高质量的数据很难获得。 与已经具备零样本学习能力的人类不同,机器需要输入标记数据来学习,然后能够适应可能自然发生的差异。 

如果我们看一下动物物种的例子,就会发现有很多。 随着类别数量在不同领域不断增长,要跟上收集注释数据的步伐将需要大量工作。

因此,零样本学习对我们来说变得更有价值。 越来越多的研究人员对自动属性识别感兴趣,以弥补可用数据的不足。 

资料标示

零样本学习的另一个好处是它的数据标签属性。 数据标记可能是劳动密集型且非常乏味的,因此,它可能会导致过程中出现错误。 数据标记需要专家,例如处理生物医学数据集的医学专家,这是非常昂贵和耗时的。 

由于上述数据的限制,零样本学习变得越来越流行。 如果您对其功能感兴趣,我建议您阅读几篇论文:

 
 
妮莎·艾莉亚 是一名数据科学家和自由技术作家。 她对围绕数据科学提供数据科学职业建议或教程以及基于理论的知识特别感兴趣。 她还希望探索人工智能是/可以有益于人类长寿的不同方式。 一个热心的学习者,寻求拓宽她的技术知识和写作技巧,同时帮助指导他人。
 

时间戳记:

更多来自 掘金队