EMNLP 2021 上的知识图谱

由柏拉图重新发布

关注： 0

今年我没能去蓬塔卡纳但我很高兴（远程）为那些不顾所有旅行限制而设法到达那里的人！里面的优质内容。

秋天很忙，我想尝试一个更短的格式：每个大话题都有一个“焦点” 在我觉得特别有趣的主块中工作，以及一些描述较短的相关作品。

今天的计划：

KG 增强语言模型：分类
对话式人工智能：停止幻觉，兄弟
实体链接：在巨大的阴影下（实体）
KG建筑
KG问答：添加一些 SPARQL

如果这些深入的教育内容对您有用，订阅我们的AI研究邮件列表当我们发布新材料时被提醒。

KG 增强语言模型：分类

上下文语言模型中的关系世界知识表示：综述塔拉·萨法维和达奈·库特拉

如果您是此类摘要（或以前的帖子）的经验丰富的读者，那么您非常清楚每次会议上都会发布大量 KG 增强 LM，并每周上传到 arxiv。如果你感到迷失 ——我可以保证你不是唯一一个。

今年，我们终于有了 健全的框架 和各种 KG+LM 方法的分类！作者定义了 3 个大家族： 1⃣ 无 KG 监督，用完形填空提示探索 LM 参数中编码的知识； 2⃣ 实体和ID的KG监督； 3⃣ 使用关系模板和表面形式的KG监督。

每个家庭都有几个分支例如，让我们看一下下图所示的 4 个实体感知模型。不同于 “不那么具有象征意义” 至 “更具象征意义”，一些 LM 执行提及跨度掩蔽，或对比学习，或从已知词汇表中融合实体嵌入。作者根据框架对数十种现有架构进行了出色的分类，现在看起来组织得更好了。非常需要的工作！

一些简短的论文专注于用生物医学 KG 来丰富 LM，这是向 LM 教授特定领域的生物医学的长期努力 俚语。
孟等提供分区混合 (MoP)，一种基于适配器融合该技术减轻了从头开始预训练 LM 的需要。 MoP 接受了常见的生物医学词汇和本体 UMLS 和 SNOMED CT 的培训。
宋等人 问 “语言模型可以成为生物医学知识库吗？” 指的是 Petroni 等人著名的 EMNLP'19 论文. 答案主要是没有. 作者设计比奥拉马，用于探索基于 UMLS、CTD 和 Wikidata 构建的生物医学知识的基准。他们发现现代 LM 在这些探测上的准确度低于 10%，因此社区肯定需要更可靠的东西 .

对话式人工智能：停止幻觉，兄弟

神经路径猎人：通过路径接地减少对话系统中的幻觉作者：Nouha Dziri、Andrea Madotto、Osmar Zaiane、Avishek Joey Bose

使用具有 KG 背景的 ConvAI 系统生成响应非常棘手。在具有许多组件的管道系统中，您严格使用表面形式（实体名称），并且您主要使用模板，并且 模板很无聊 并且难以维护。另一方面，像 GPT-2 和 GPT-2 这样的 e3e 生成模型会产生更多独特的回复，但通常会产生幻觉，即在您不期望的时候插入错误的实体名称。

这项工作的作者开始了狩猎通过 KG 监督建议减少幻觉神经路径猎人. 首先，他们研究了几个 各种幻觉 ，它们来自哪里（主要来自 top-k 采样），以及如何量化它。

NPH 本身由两个模块组成： 1⃣ 一个对令牌执行二进制分类的评论家（非自回归 LM）； 2⃣ 用于修复实体错误的实体检索器：这本质上是一个实体内存，其中实体嵌入来自 GPT，并使用图结构使用 CompGCN 进行更新。最合理的候选者来自应用 DistMult 评分功能。瞧！

NPH 可以与任何预训练的 LM 配对，在开放拨号KG 以 GPT2-KG 为基准， GPT2-KE及适配器机器人显示显着减少幻觉和增加在忠诚中。一项用户研究报告说，人类测量的幻觉在 NPH 模型中减少了约 2 倍

在这方面的另一项相关工作： 霍诺维奇等人 在对话系统中研究相同的问题，但没有背景知识图谱并提出新的基准 Q² 衡量问题生成和问题回答的事实一致性（如果您询问，两个 Q 的来源）。

如果您喜欢 ConvAI 和常识知识库——请务必通过以下方式检查 CLUE（对话式多跳推理器） 阿拉沙希、李等人包含的概念 if-(state), then-(action), 因为-(goal) 模式逻辑规则和符号推理。

实体链接：在巨像的阴影下

使用先验探针对实体消歧的鲁棒性评估：实体遮蔽案例 by 维拉·普罗瓦托娃、斯维特拉娜·瓦库连科、萨玛斯·巴尔加夫、伊万杰洛斯·卡努拉斯

当您为语言任务插入真实世界的 KG 时，您将不可避免地遇到 不同的实体 确切地说同名 . 不幸的是，人类并未对世界上所有实体使用唯一的哈希，因此实体消歧仍然是实体链接的重要步骤。

例如，维基数据有至少有 18 个实体名为“迈克尔·乔丹”. 通常，EL 系统依赖于基本统计数据和人气分数，因此最受欢迎的“篮球运动员迈克尔乔丹”会掩盖不那么出名的人（至少在流行文化中）。

作者解决了这个问题并引入了一个新的数据集，影联, 来衡量现代 EL 系统的混乱程度。结果最高的 F1 分数勉强达到 0.35（最近生成类型在最难的部分产生 0.26)。所有系统在长尾稀有实体上的得分都达到饱和，并且还应对更常见的实体。主要挑战被表述为“使这项任务具有挑战性的是模棱两可和不寻常的结合”。我建议作者将数据集上传到 HuggingFace 数据集增加他们酷项目的知名度 .

阿罗拉等人 从另一个方向处理实体链接问题。主要思想是 true 命名实体在一个文件中（联合处理，而不是一个接一个）跨度低级 子空间 在包括候选人在内的所有实体的空间中（查看下面的视觉示例）。这主题如果您有预训练的实体嵌入，则该方法是无监督的——作者在 Wikidata 的英文子集上使用 DeepWalk（或者，他们尝试了词嵌入，但效果不佳）。

概念上相似的基于实体的冲突问题被研究 朗普雷等人，即知识替换——如果你将段落中的真实实体翻转为随机实体（或自相矛盾的实体），模型会改变答案吗？换句话说，QA 模型会依赖阅读上下文还是记忆知识？事实证明，当使用这种替换训练 QA 模型时，您可以大幅提高 OOD 泛化能力！

最后，看看调查问卷 特德斯基等人 on “用于实体链接的 NER：什么有效，下一步是什么”. 作者确定了 EL 的关键挑战并尝试解决与 NER 相关的挑战 NER4EL 旨在缩小大型预训练 LM 与较小模型之间的性能差距，这在资源匮乏的情况下尤其重要 .

KG建筑

我没有设法在这里想出一个吸引人的台词：/ 如果您喜欢 OpenIE 和 KG Construction，那么以下论文可能是相关的。

多宁等人 提供 再生基因，一种微调 LM 以执行 Text2Graph 和 Graph2Text 任务（或微调专用模型）的方法。关键成分除了标准交叉熵 (CE) 之外，还添加了 RL 损失（自临界序列训练）。它可以很容易地添加到任何预训练的 LM 中——作者尝试使用 T5-Large（770M 参数）和 T5-base（220M 参数）。实验上， 再生基因 显着改进了 Text2Graph WebNLG 基线（3-10 个绝对点，具体取决于指标），并且适用于许多大 TekGen 数据集（6M 训练对）。

破折号等 研究 规范化 OpenIE 中的问题——当实体具有不同的表面形式时 （纽约市，纽约市） 参考同一个原型。以一种无监督的方式，我们希望 IE 系统自动将这些提及聚集在一起。方法，鼓，诉诸变分自动编码器（VAE）来识别集群（实体和关系由高斯参数化）。除了 VAE 的标准 重建损失, CUVA 采用了额外的 链接预测 离基于 HolE 评分函数。此外，作者还介绍了一部小说 佳能NELL 数据集！

KG问答：添加一些 SPARQL

来自中间问题分解的 SPARQLing 数据库查询 by 伊琳娜·萨帕丽娜和安东·奥索金

不幸的是，*CL 域中没有那么多 SPARQL 应用。我认为它值得在 NLP 中得到更广泛的采用。当它被一个很酷的应用程序支持时——我在 .
大多数结构化 QA 数据集或使用语义解析的数据集以 SQL 作为主要输出格式。 SQL管道之外还有生命吗？

Saparina 和 Osokin 通过 1⃣ 首先使用问题分解意义表示（QDMR）将问题转换为与语法无关的逻辑形式的框架； 2⃣ 这种形式可以翻译成任何结构化格式，这里作者使用 SPARQL 表明以图形格式查询数据库要容易得多。它确实需要将输入表转换为 RDF，但对于蜘蛛缩放它可以很容易地完成。

可训练模块包括大鼠变压器带有生成 QDMR 令牌的 LSTM 解码器的编码器。 QDMR -> SPARQL 是基于少数规则的直接转换。
与 SOTA 相当的结果；
代码可用 ;
SPARQL 比 SQL 工作得更好；
一篇好论文还需要什么？

另一个令人兴奋的工作 Das 等人的“基于案例的基于知识库的自然语言查询的推理” 将 SPARQL 与 基于案例的推理 (CBR)。早在 80 年代，CBR 就深深植根于专家系统，但最近又凭借表征学习的力量得以复兴。 TLDR 对 2021 年 CBR 的解释：它在概念上接近于组合泛化，即，在看过一些基本示例后，您可以针对以前未见过的实体构建更复杂的查询。

看看下面的例子。我们有一个输入查询 “霍比特人中吉姆利父亲的兄弟是谁？”. 在训练数据中，我们可能没有关于 Gimli 或 Hobbit 的任何信息，但我们可能有“相对相似” 例在我们可以找到对我们的查询有用的关系上，例如， “查理辛的爸爸是谁？” 与 Freebase 关系 people.person_parents 和 “蕾哈娜的兄弟姐妹是谁？” 有关系 people.person.sibling_s . 为我们的问题组合它们，我们构造了一个对数据库的 SPARQL 查询。

建议的 CBR-KBQA 方法结合了 1⃣ 一个 DPR 风格的可训练神经检索器（监督基于重叠关系），2⃣ 一个线性变换器（他们使用 BigBird），因为连接的相关问题和查询很长，3⃣ 几个重新排序机制来清理预测。他们使用现成的 NER 和实体链接模块，并且还使用预训练的 TransE 关系嵌入进行重新排序。 CBR-KBQA 在几个 KBQA 数据集上展示了令人印象深刻的性能，包括 CFQ. 一个小提示：我有点怀疑最好的可用 SOTA 模型（67.3 MCD-Mean）的表现优于 78.1 并且没有提交到基准测试，代码也还不可用。