文本自动完成系统旨在让我们的生活更轻松，但也存在风险

由柏拉图重新发布

关注： 0

在 12 年 2022 月 XNUMX 日举行的未来工作峰会上听取 CIO、CTO 和其他 C 级和高级管理人员关于数据和人工智能战略的意见。 了解更多

如果您最近写过短信或电子邮件，AI 很可能会向您建议不同的同义词、短语或完成句子的方式。人工智能驱动的自动建议工具（如 Google 的 Smart Compose）的兴起恰逢企业通信的数字化转型，现在企业通信主要在线进行。它是估计一般员工每天回复大约 40 封电子邮件，并且发送每周超过 200 条 Slack 消息。

消息可能会占用工作日越来越多的时间，Adobe 钉住员工每周花费 15.5 小时回复电子邮件的时间。不断的任务切换是生产力的丧钟，研究表明不间断的工作会带来好处。研究来自加利福尼亚大学和洪堡大学的研究人员发现，每次工作被打断时，工作人员可能会损失多达 23 分钟的时间，进一步加长工作日。

自动建议工具承诺通过简化消息编写和回复来节省时间。例如，Google 的 Smart Reply 建议对通常需要几分钟才能输入的电子邮件进行快速回复。但这些工具背后的人工智能存在一些缺点，可能会引入偏见或以不良方式影响消息传递中使用的语言。

自动提示和文本自动完成的增长

预测文本不是一项新技术。第一个广泛使用的例子之一， T9，允许通过单个按键为每个字母组成单词，在 90 世纪 XNUMX 年代后期成为许多手机的标准配置。但是，语言中更复杂、可扩展的人工智能技术的出现导致了自我暗示工具的质量和广度的飞跃。

2017 年，谷歌推出智能回复在 Gmail 中，该公司后来将其引入其他谷歌服务，包括聊天和第三方应用程序。根据谷歌的说法，Smart Reply 背后的人工智能“基于对话的完整上下文”生成回复建议，而不仅仅是一条消息——表面上会产生更及时和相关的建议。聪明的撰写，建议电子邮件中的完整句子，一年后出现在 Gmail 和 Google Docs 不久之后. 一个类似的功能叫做建议的回复 2018 年来到 Microsoft Outlook，2020 年来到 Teams。

新型自我暗示工具背后的技术——一些学术界称之为“人工智能介导的交流”——超越了 90 年代的技术。例如，支持 Smart Compose 的 AI 模型是使用数十亿个电子邮件示例创建的，并在云中的自定义加速器硬件上运行。与此同时，作为 Smart Compose 基础的 Smart Reply 受人类理解语言和概念的方式启发，对建议采用“分层方法”。

上图：Outlook 的智能回复使用在 Azure 机器学习中训练的深度学习模型。

图片来源：微软

“语言的内容层次分明，反映在语言本身的结构上……”谷歌研究科学家布赖恩·斯特罗普和工程总监雷·库兹韦尔说明在博客文章中。 “考虑一下这条消息，‘我们喜欢的咖啡馆里那个有趣的人看了我一眼。’ ……在对这条消息提出适当的回应时，我们可能会考虑“扫视”一词的含义，这可能是模棱两可的。这是一个积极的姿态吗？在那种情况下，我们可能会回应，“酷！” 或者这是一种消极的姿态？如果是这样，主题是否说明了作者对负面交流的感受？需要大量关于世界的信息，以及做出合理判断的能力，才能做出细微的区分。给定足够多的语言示例，机器学习方法可以发现许多这些细微的区别。 ”

但与所有技术一样，即使是最强大的自动建议工具也容易受到开发和部署过程中突然出现的缺陷的影响。

2016 年 XNUMX 月，发现谷歌搜索的自动完成功能会为特定的搜索短语建议仇恨和冒犯性的结尾，比如“犹太人是邪恶的吗？” 因为“是犹太人”这句话。据该公司称，故障是一个算法系统，该系统根据其他用户最近搜索的内容更新建议。虽然谷歌最终实施了修复，但该公司又花了几年时间才阻止自动完成建议有争议的政治声明包括关于投票要求和选举程序合法性的虚假声明。

智能回复已发现提供“戴头巾的人”表情符号以响应包含枪支表情符号的消息。以及 Apple 在 iOS 上的自动补全先前只建议男性表情符号担任行政职务，包括 CEO、COO 和 CTO。

有偏差的数据

自动完成和自动建议系统中的缺陷通常来自有偏见的数据。系统从中学习的数百万到数十亿个示例可能会被来自有毒网站将某些性别、种族、种族, 以及具有有害概念的宗教。说明问题，法典，由研究实验室 OpenAI 开发的代码生成模型，当输入“伊斯兰教”一词时，可以提示写“恐怖分子”。 AI 初创公司的另一种大型语言模型凝聚力倾向于将男性和女性与刻板印象中的“男性”和“女性”职业联系在一起，例如“男性科学家”和“女性管家”。

上图：Google Docs 的 Smart Compose。

数据中的注释可能会引入新问题——或加剧现有问题。由于许多模型从传达单词、句子、段落或文档是否具有某些特征（如正面或负面情绪）的标签中学习，因此公司和研究人员招募人工注释团队来标记示例，通常来自 Amazon Mechanical Turk 等众包平台。这些注释者将他们自己的观点和偏见带到了桌面上。

在艾伦人工智能研究所、卡内基梅隆大学和华盛顿大学的一项研究中，科学家们发现，标注者更有可能对非裔美国人英语 (AAE) 方言中的短语进行注释，这些短语比一般的美国英语等价物更具毒性——尽管它们被理解了AAE 扬声器无毒。拼图在谷歌母公司 Alphabet 下工作的组织，致力于解决网络欺凌和虚假信息问题，在其实验中得出了类似的结论。该公司的研究人员发现，自称为非裔美国人和 LGBTQ+ 社区成员的标注者与不属于这两个群体的标注者之间的注释存在差异。

有时，这种偏见是有意为之的——一个方言权衡的问题。例如，作家，一家开发用于内容生成的 AI 助手的初创公司表示，它在写作建议中优先考虑“商务英语”。 CEO May Habib 举了 AAVE 中“habitual be”的例子，这是一种在任何其他英语风格中都不存在的动词时态。

“由于 [习惯性的 be] 传统上没有在商务英语中使用，因此不会在我们的数据集中高频出现，我们会将 'Y'all be doing some strange things out here' 更正为 'Y'所有人都在这里做一些奇怪的事情，'”Habib 通过电子邮件告诉 VentureBeat。 “[也就是说，]我们确实手动确保 Writer 不会标记基于白话的问候语和签字。有些白话比正式的商务英语更不分性别，[例如]因此对公司来说更现代、更符合品牌。”

影响写作

当偏见——有意或无意——进入自动完成和自动建议系统时，它们可以改变我们的写作方式。这些系统运行的巨大规模使它们很难（如果不是不可能的话）完全避免。智能回复原为提供品牌战略规划 10 年从智能手机发送的所有 Gmail 回复中的 2016%。

在一个更全面的审计在自动完成工具方面，一组 Microsoft 研究人员对志愿者进行了采访，他们被告知对 Outlook 中自动生成的回复发表看法。受访者发现一些回复过于积极，对文化和性别的假设是错误的，并且在某些情况下过于不礼貌，例如公司信函。即便如此，研究期间的实验表明，用户更有可能喜欢 Outlook 建议的简短、积极和礼貌的回复。

谷歌智能回复 YouTube

哈佛大学的另一项研究发现，当人们向写餐厅的人提供“积极”的自动完成建议时，所产生的评论往往比向他们提供负面建议时更积极。 “考虑到未来的预测文本系统如何帮助人们成为更有效的作家，这是令人兴奋的，但我们也需要透明度和问责制，以防止可能存在偏见或被操纵的建议，”哈佛大学学院研究员 Ken Arnold参与这项研究的工程和应用科学，告诉 BBC。

如果有一个包罗万象的解决方案来解决有害的自动完成问题，它还没有被发现。谷歌选择简单地阻止 Smart Compose 中基于性别的代词建议，因为该系统被证明不能很好地预测收件人的性别和性别认同。微软的 LinkedIn 还在其预测消息传递工具 Smart Replies 中避免使用性别代词，以防止潜在的失误。

微软的合著者根据一项研究，警告说，如果系统设计者不主动解决自动完成技术中的缺点，他们将面临不仅冒犯用户而且导致他们不信任系统的风险。 “系统设计者应该在个人和社交网络层面探索个性化策略，考虑他们的系统如何延续文化价值观和社会偏见，并探索社交互动模型，以开始解决局限性和问题，”他们写道。 “[O] 你的研究结果表明，当前用于电子邮件和其他 [类似] 技术的文本推荐系统仍然不够细致，无法反映现实世界社会关系和沟通需求的微妙之处。 “