一位数学家走进酒吧(虚假信息)

源节点: 1865101

虚假信息、错误信息、信息娱乐、算法战争——如果说过去几十年关于媒体未来的争论有任何意义,那么它们至少在英语中留下了刺鼻的印记。 从我们的个人心理和神经学到对民主社会力量的更广泛关注,社交媒体对我们的影响一直存在很多谩骂和恐惧。 正如约瑟夫伯恩斯坦最近所说,从“群众的智慧”到“虚假信息”的转变确实是突然的。

什么是虚假信息? 它存在吗?如果存在,它在哪里?我们怎么知道我们在看它? 当我们最喜欢的平台努力挤压我们的注意力时,我们是否应该关心它们向我们展示的算法? 正是那些复杂的数学和社会科学问题 诺亚·詹西拉库萨 对主题感兴趣。

Giansiracusa 是波士顿本特利大学的教授,受过数学训练(他的研究重点是代数几何等领域),但他也喜欢通过数学视角来看待社会话题,例如连接 计算几何向最高法院. 最近,他出版了一本名为“算法如何制造和防止假新闻” 探讨当今媒体领域的一些具有挑战性的问题,以及技术如何加剧和改善这些趋势。

我最近在 Twitter 空间上主持了 Giansiracusa,由于 Twitter 之后听这些谈话并不容易(短暂!),我想我会为您和后代提取我们谈话中最有趣的部分。

为了清楚起见,本次采访已被编辑和压缩。

丹尼·克里顿:您是如何决定研究假新闻并写这本书的?

诺亚·詹西拉库萨:我注意到的一件事是,有很多关于假新闻和这类事情的非常有趣的社会学、政治学讨论。 然后在技术方面,你会看到像马克扎克伯格这样的人说人工智能将解决所有这些问题。 似乎弥合这一差距有点困难。

每个人可能都听过拜登最近的这句话,“他们在杀人”,关于社交媒体上的错误信息。 所以我们有政治家谈论这些事情,他们很难真正掌握算法的一面。 然后我们有非常了解细节的计算机科学人员。 所以我有点介于两者之间,我不是一个真正的计算机科学专家。 所以我认为退后一步并获得鸟瞰图对我来说更容易一些。

归根结底,我只是觉得我有点想探索与社会的更多互动,那里的事情变得混乱,数学不是那么干净。

克里顿:来自数学背景,你正在进入这个有争议的领域,很多人从很多不同的角度写过。 人们在这个领域做对了什么,人们可能错过了什么细微差别?

吉安锡拉库萨:有很多令人难以置信的新闻报道; 我对很多记者真正能够处理相当技术性的东西感到震惊。 但我要说一件事,也许他们没有弄错,但让我印象深刻的是,很多时候学术论文发表,甚至是谷歌或 Facebook 或其中一家科技公司的公告,而且他们会提到一些事情,记者可能会摘录一段话,并尝试对其进行描述,但他们似乎有点害怕真正尝试去理解它。 而且我不认为他们做不到,这更像是一种恐吓和恐惧。

作为一名数学老师,我经历过很多的一件事是人们非常害怕说错话和犯错误。 这也适用于必须写技术文章的记者,他们不想说错话。 因此,仅引用 Facebook 的新闻稿或引用专家的话会更容易。

纯数学的一个有趣和美丽的地方是,你不必真正担心会出错,你只需尝试想法,看看它们会导致什么结果,然后你就会看到所有这些相互作用。 当你准备好写论文或发表演讲时,你会检查细节。 但大多数数学是你探索的创造性过程,你只是看到想法如何相互作用。 你认为我作为一名数学家的训练会让我担心犯错误并且非常精确,但它产生了相反的效果。

其次,很多这些算法的东西,它们并不像看起来那么复杂。 我不会坐在那里实施它们,我敢肯定对它们进行编程很难。 但总的来说,现在所有这些算法,其中很多都是基于深度学习的。 所以你有一些神经网络,作为一个局外人,对我来说他们使用什么架构并不重要,真正重要的是,预测变量是什么? 基本上,您为该机器学习算法提供的变量是什么? 它试图输出什么? 这些是任何人都可以理解的事情。

克里顿:我认为分析这些算法的一大挑战是缺乏透明度。 例如,与致力于解决问题的学者社区的纯数学世界不同,这些公司中的许多实际上可能非常反对向更广泛的社区提供数据和分析。

吉安锡拉库萨: 似乎任何人仅通过某种来自外部的推断就可以推断出什么。

YouTube 就是一个很好的例子——学术团队想要探索 YouTube 推荐算法是否会让人们陷入极端主义的这些阴谋论兔子洞。 挑战在于,因为这是推荐算法,它使用深度学习,它基于成百上千的预测因素,这些预测因素基于您的搜索历史、人口统计数据、您观看的其他视频以及观看时长——所有这些。 它是为您和您的体验量身定制的,以至于我能找到的所有研究都使用隐身模式。

所以他们基本上是一个没有搜索历史、没有信息的用户,他们会去看一个视频,然后点击第一个推荐的视频,然后点击下一个。 让我们看看算法将人们带往何方。 这与具有历史的实际人类用户的体验截然不同。 这真的很困难。 我认为没有人想出一种从外部通过算法探索 YouTube 算法的好方法。

老实说,我认为你能做到的唯一方法就像是一项老式的研究,你招募了一大群志愿者,然后在他们的电脑上放了一个追踪器,然后说,“嘿,按照你的方式生活通常会处理你的历史和一切,然后告诉我们你正在观看的视频。” 所以很难克服这样一个事实,即很多这些算法,我想说的几乎所有算法,都非常依赖于你的个人数据。 我们不知道如何从总体上研究它。

因为我们没有数据而遇到麻烦的不仅仅是我或其他任何人。 甚至是这些公司内部的人构建了算法,他们知道算法在纸面上是如何工作的,但他们不知道它的实际表现如何。 这就像弗兰肯斯坦的怪物:他们建造了这个东西,但他们不知道它会如何运作。 因此,我认为您真正可以研究它的唯一方法是让拥有这些数据的内部人员竭尽全力并花费时间和资源来研究它。

克里顿:有很多指标用于评估错误信息和确定平台上的参与度。 根据您的数学背景,您认为这些措施是否可靠?

吉安锡拉库萨:人们试图揭穿错误信息。 但在这个过程中,他们可能会发表评论,他们可能会转发或分享它,这就是参与度。 所以很多这些参与度衡量标准,他们真的是在看积极的还是只是所有的参与度? 你知道,这一切都混为一谈。

这也发生在学术研究中。 引用是衡量研究成功程度的通用指标。 好吧,像韦克菲尔德最初的自闭症和疫苗论文这样的伪造文章被大量引用,其中很多人引用它是因为他们认为它是正确的,但也有很多是科学家在揭穿它,他们在论文中引用它以比如说,我们证明这个理论是错误的。 但不知何故,引文就是引文。 所以这一切都计入成功指标。

所以我认为这就是参与度正在发生的事情。 如果我在评论中说“嘿,这太疯狂了”,算法如何知道我是否支持它? 他们可以使用一些 AI 语言处理来尝试,但我不确定他们是否这样做,而且这样做需要付出很多努力。

克里顿:最后,我想谈谈 GPT-3 以及对合成媒体和假新闻的担忧。 很多人担心人工智能机器人会用虚假信息淹没媒体——我们应该有多害怕或不害怕?

吉安锡拉库萨:因为我的书真的是从经验中成长起来的,所以我想尽量保持公正,只是告知人们并让他们做出自己的决定。 我决定尝试打断这场辩论,让双方都发言。 我认为新闻源算法和识别算法确实放大了很多有害的东西,这对社会是毁灭性的。 但是,在有效且成功地使用算法来限制假新闻方面也取得了很多惊人的进展。

有这些技术乌托邦主义者,他们说 AI 会解决一切问题,我们将有说真话、事实核查和可以检测错误信息并将其删除的算法。 有一些进展,但那些事情不会发生,也永远不会完全成功。 它总是需要依靠人类。 但我们拥有的另一件事是一种非理性的恐惧。 有这种双曲线 AI 反乌托邦,其中算法非常强大,有点像奇点类型的东西,它们会摧毁我们。

当 deep fakes 在 2018 年首次出现在新闻中,而 GPT-3 几年前发布时,有很多人担心,“哦,该死,这将使我们对假新闻和理解真实情况的所有问题这个世界要困难得多。” 而且我认为现在我们有几年的距离,我们可以看到他们让事情变得更难了,但并没有我们预期的那么严重。 主要问题比任何事情都更具心理和经济意义。

所以 GPT-3 的原作者有一篇介绍该算法的研究论文,他们所做的其中一件事是他们粘贴了一些文本并将其扩展为一篇文章,然后他们让一些志愿者评估并猜测哪个是算法生成的文章,哪篇文章是人工生成的。 他们报告说他们的准确率非常非常接近 50%,这意味着仅略高于随机猜测。 所以这听起来,你知道,既惊人又可怕。

但如果你看一下细节,它们就像一行标题一样延伸到一段文字。 如果你试图写一篇完整的、大西洋篇幅或纽约客篇幅的文章,你会开始看到差异,想法会曲折。 这篇论文的作者没有提到这一点,他们只是做了他们的实验然后说,“嘿,看看它有多成功。”

所以看起来很有说服力,他们可以做出这些令人印象深刻的文章。 但归根结底,这就是为什么 GPT-3 在假新闻和错误信息以及所有这些方面都没有那么具有变革性的主要原因。 这是因为假新闻大多是垃圾。 它写得不好,质量低,制作起来又便宜又快,你可以花钱让你 16 岁的侄子在几分钟内制作出一堆假新闻文章。

并不是数学帮助我看到了这一点。 只是不知何故,我们在数学中试图做的主要事情是持怀疑态度。 所以你必须质疑这些事情并且有点怀疑。

来源:https://techcrunch.com/2021/08/20/a-mathematician-walks-into-a-bar-of-disinformation/

时间戳记:

更多来自 Techcrunch的