人工智能驱动的创造力终于为超强的电脑提供了一些值得做的事情

由柏拉图重新发布

关注： 0

柱直到最近，个人计算机硬件似乎已经超越了软件可能对其提出的任何要求。即使是高端游戏——传统上是用户对性能需求的领先优势——也几乎不会对可用的大规模超高性能芯片征税。然后人工智能艺术出现了。

Apple 的 M1 Ultra 微处理器拥有超过 100 亿个晶体管。英伟达刚刚发布了旗舰 RTX 4090 GPU，拥有76亿个晶体管——比上一代增加了三倍，最新工艺节点的产物，对功耗持不折不扣的态度。接近 500W TDP？今年冬天把它开起来，给你的家供暖。

但为了什么目的？ 300fps 的堡垒之夜大逃杀？在四月份我写的：“这些怪物需要被驯服、训练和工作。” 技术厌恶真空——该领域的 XNUMX 年经验告诉了我这一点。哪里有能力，就会有东西来使用它。

另一只鞋在九月初掉落，当时拥抱人工智能 – 一家私营公司，开发利用尖端人工智能技术的软件工具 – 发布稳定扩散.

类似于 DALL•E 和中途，Stable Diffusion 将数以十亿计的图像缩小为象征性加权的标记，这些标记可以通过适当制作的文本提示变回可见性。整个事情就在巫术的这一边——但它运作得非常好。

与 DALL•E 或 Midjourney 不同，Stable Diffusion 既是完全独立的——能够在任何足够强大的机器上运行——又是纯 FOSS。这意味着虽然最初的版本需要一些 Nvidia 的最高端 GPU，但在一周之内，项目贡献者已经剥离了它的代码并降低了对硬件的要求。当前版本可以在我六年前购买的用于探索新重生的虚拟现实世界的强大 PC 上非常舒适地运行，也可以在几乎任何基于 M1 的 Mac 上运行。许多游戏 PC 和笔记本电脑都可以很好地运行 Stable Diffusion，以将其用于基于项目的创意需求——或者只是为了好玩。

然后是一组研究人员发表了一篇论文在他们称之为 Dreamfusion 的东西上——能够从文本提示中召唤出无限系列的完全实现的 3D 模型。输入 pineapple，然后计算机会进行思考，然后生成该模型应该是什么样子的最佳近似值。尽管该小组尚未发布其代码，但该论文为雄心勃勃的编码人员提供了足够的蓝图，以适应 Stable Diffusion 代码库以创建稳定的梦想融合 – 这又需要相当强大的硬件。

由 Stable Diffusion 生成的图像，来自文本提示“机器人在跑步机上跑步时在画画”……点击放大

特拉维夫大学的另一个小组也不甘示弱，以震惊世界的人体运动扩散模型. 本文展示了研究人员如何使用基于 Diffusion 的 AI 技术来转换提示，例如“the person walks forward two steps and does a cartwheel”变成了一个拟人化的动画。一周后，研究人员自己发布了他们的代码作为 FOSS。

对于人工智能能力的这种指数级增长，我们还为时过早，无法知道其中的任何一个将走向何方。 Canva 和微软已经在他们的创意工具中集成了基于提示的图像生成器。元，谷歌，和其他人已经展示了专有的视频提示生成器。按照目前的趋势，我们不必等待很长时间，直到我们可以使用 FOSS 等价物。

视觉艺术拥有强大的新工具，这些工具并不是谷歌或 OpenAI 等巨头的专属领域——后者是一家承诺在其基础上实现人工智能民主化的公司，但似乎反常地专注于创建自己的专有帝国，以微软为非官方所有者。

在我的第一个专栏中注册我指出结束 PC 无休止的升级周期。没有更多的跑步机：足够好，它们只有在磨损时才会被更换。除了一系列升级以适应大流行驱动的视频会议事实证明，这一预测是正确的。

但是个人电脑已经蜕皮，展现出它作为创意超级计算机的光滑新形态：扩散驱动，并以旧电脑无法企及的方式发挥创造力。这些质量不同的工具并没有提供另一种新的手写笔或画笔，而是建立了一种新的创造性合作伙伴关系。

XNUMX 月，我购买了一台高规格的 PC 笔记本电脑——并立即为此感到内疚，以为我从未真正将它投入使用。今天，我充分利用了一台既能做日常又能做不可思议的机器。回想起来，随着 PC 重生，开始工作，那次购买看起来像是一次聪明的交易——真正复兴的预兆。 ®

时间戳记： 2022 年 10 月 26 日2022 年 10 月 26 日