承诺和陷阱回顾 – 第一部分 » CCC 博客

承诺和陷阱回顾 – 第一部分 » CCC 博客

源节点: 2518634

CCC 在今年的 AAAS 年会上支持了三场科学会议,如果您无法亲自参加,我们将回顾每场会议。本周,我们将总结本届会议的亮点,“科学中的生成人工智能:前景与陷阱”。在第一部分中,我们将总结 Rebecca Willett 博士的介绍和演讲。

CCC 2024 年年会的第一次 AAAS 小组于 16 月 XNUMX 日星期五,即会议第二天举行。该小组由 CCC 自己主持 马修·特克博士芝加哥丰田技术研究所所长由将人工智能应用于各个科学领域的专家组成。 丽贝卡·威利特博士芝加哥大学统计和计算机科学教授,她的演讲重点讨论了如何在科学中使用生成模型以及为什么现成的模型不足以应用于科学研究。 马库斯·布勒博士麻省理工学院工程学教授谈到了应用于材料科学的生成模型,以及 邓肯·沃森-帕里斯博士, 加州大学圣地亚哥分校斯克里普斯海洋学研究所和 Halıcıoğlu 数据科学研究所助理教授,讨论了如何使用生成模型来研究气候科学。

Turk 博士是计算机视觉和人机交互方面的专家,他在小组讨论开始时将生成式人工智能与所有人工智能区分开来。 “生成式人工智能应用的核心是由深度神经网络组成的生成模型,这些模型可以学习大量训练数据的结构,然后根据所学知识生成新数据。”

特克博士还概述了人们对生成系统的普遍担忧,这既是由于系统本身的故障,例如那些引用不存在的法律摘要的系统,也是由于不良行为者使用它们来生成虚假内容,例如虚假音频或虚假内容。政治家或名人的视频。

“具体来说,”特克博士说,“本次会议将重点关注生成式人工智能在科学中的应用,它既是追求科学的变革力量,也是潜在的颠覆风险。”

Rebecca Willett 博士在演讲开始时概述了如何利用生成式人工智能来支持科学发现过程。她首先关注生成模型的工作原理。 Willett 博士的幻灯片中的下图显示了语言模型(例如 ChatGPT)如何在给定先前一组单词的情况下评估单词出现的概率,以及图像生成模型(例如 DALL-E 2)如何生成图像根据给定的提示,使用在训练期间从数十亿张图像中学到的概率分布。

“利用作为所有生成模型基础的概率分布原理,这些模型可以应用于科学中的登月想法,例如根据当前气候和潜在政策生成可能的气候情景,或者生成具有目标功能的新微生物组,例如威利特博士说:“一种在分解塑料方面特别有效的物质”。

然而,仅使用现成的生成工具(例如 ChatGPT 或 DALL-E 2)进行科学研究是不够的。这些工具是在与科学家工作环境非常不同的环境中创建的。现成的生成模型和科学模型之间的一个明显区别是数据。在科学领域,可供假设的数据通常很少。科学数据通常来自模拟和实验,这两者通常既昂贵又耗时。由于这些限制,科学家必须仔细选择要运行的实验以及如何最大限度地提高这些系统的效率和实用性。相比之下,现成的模型对数据来源​​的重视程度要低得多,而更注重最大化它们可以操作的数据量。在科学中,数据集及其来源的准确性非常重要,因为科学家需要用强有力的经验证据来证明他们的研究合理。

“此外,在科学领域,我们的目标不仅仅是生产看似合理的东西”,威利特博士说。 “我们必须了解事物的运作方式,超出我们迄今为止观察到的范围。”这种方法与生成人工智能模型不一致,生成人工智能模型将数据视为所有可能观察结果的代表。将物理模型和约束纳入生成人工智能有助于确保它更好地代表物理现象。

科学模型还必须能够捕捉罕见事件。 “当我们训练 ChatGPT 时,我们可以安全地忽略许多罕见事件,但相比之下,罕见事件往往是我们在科学背景下最关心的,例如在预测罕见天气事件的气候模型中。如果我们使用避免罕见事件的生成模型,例如从不预测飓风,那么这个模型在实践中不会很有用。”

一个相关的挑战是为混沌过程开发生成人工智能模型,该模型对初始条件敏感。威利特博士展示了下面的视频,其中显示了两个粒子根据洛伦兹 63 方程在太空中移动。这些方程是确定性的,而不是随机的,但给定两个略有不同的起始位置,您可以看到在任何给定时间这两个粒子可能位于非常不同的位置。开发生成人工智能模型来预测气候科学、湍流和网络动力学中出现的此类过程的确切过程从根本上来说是困难的,但生成建模的新颖方法可以确保生成的过程与真实的科学数据共享关键的统计特征。

[嵌入的内容]

最后,威利特博士指出了这样一个事实:科学数据通常跨越巨大的空间和时间尺度。例如,在材料科学中,研究人员研究纳米尺度的材料,一直到大型系统,例如整架飞机。 “这个尺度范围与现成模型中使用的数据非常不同,我们需要考虑如何以准确影响尺度之间相互作用的方式构建这些生成模型”。

“生成模型是科学的未来”,Willett 博士说,“但为了确保它们得到有效使用,我们需要在人工智能方面取得根本性进展,而不仅仅是将数据插入 ChatGPT”。

非常感谢您的阅读,请明天收看 Markus Buehler 博士关于机械生物学中的生成人工智能演讲的回顾。

时间戳记:

更多来自 CCC 博客