把AI视为人？错了！DeepMind研究科学家：“模型即计算机”才是未来新范式|deepmind|人工智能|命令提示符|应用程序|计算机

图｜Will Whitney，Google DeepMind 研究科学家，研究方向为可学习物理世界的模型。

【编者按】人类科学家、企业家一直在按照人类的思考方式训练人工智能（AI）系统，希望机器可以像人类一样学习，并为人类解决现实生活中的问题。

然而，在 Google DeepMind 研究科学家Will Whitney看来，把模型当作一个人，会极大地限制我们与它互动的思维方式，阻碍我们探索大模型的全部潜力。在一篇题为“Computing inside an AI”的文章中，Whitney 分析了“模型即人”（model-as-person）的不足，并提出了“模型即计算机”（model-as-computer）的概念。

他以构建网站为例比较了二者的不同：在“模型即人”的隐喻下，大模型被视为一个承包商或合作者，会在一长串越来越吹毛求疵的需求中不断“修改”网站的样式、内容和功能，通信成本较高；而“模型即计算机”的交互方式不同，大模型不会直接构建网站，而是提供一个「生成式用户界面」，实时互动、按需生成，帮助你更有效地交流，在更短的时间内对最终产品进行更多的控制权。

部分观点如下：

“模型即人”会在用户和模型之间制造距离，就像两个人之间的沟通鸿沟一样，可以缩小，但永远无法完全弥合。
有了通信的开销，当“模型即人”系统可以独立完成一整块工作时，它们才是最有用的。
一个好的工具会告诉人类它可以被用来做什么，直接操作比用文字编写请求更快捷。
在“模型即计算机”的隐喻下，“计算机应用程序”将是模型向我们展示自己的一种方式，你可以在更短的时间内对最终产品进行更多的控制权。
生成式用户界面有可能完全取代操作系统，根据需要即时生成并管理界面和窗口。

学术头条在不改变原文大意的情况下，对部分访谈内容做了精编。内容如下：

自 ChatGPT 推出以来，业内在人工智能（AI）领域的两个方向上的探索进入了高潮。

第一个方向是技术能力。我们能训练出多大的模型？它能多好地回答 SAT（学术评估测试）问题？我们为它提供服务的效率如何？

第二个方向是交互设计。我们如何与模型交流？我们如何利用它进行有用的工作？我们用什么隐喻（metaphor）来推理它？

第一个方向受到广泛关注和大量投资，这是有道理的：技术能力的进步是一切可能应用的基础。但是，第二个方向对该领域同样至关重要，而且存在着巨大的未知数。我们进入大模型时代不过几年时间。我们有多大可能已经找到了使用它们的最佳方法？

我提出了一种新的交互模式，即模型扮演计算机（如手机）应用程序的角色：提供图形界面、解释用户输入并更新其状态。在这种模式下，人工智能不再是代表人类使用计算机的“智能体”，而是可以为我们提供更丰富、更强大的计算环境。

交互的隐喻

交互的核心是隐喻，它引导用户对系统的预期。早期的计算将“桌面”、“打字机”、“电子表格”和“信件”等隐喻转化为数字等价物，让用户对自己的行为进行推理。你可以把东西放在桌面上，然后再回来看；你需要一个地址才能寄信。随着我们对这些设备的文化知识的发展，对这些特殊隐喻的需求消失了，随之消失的还有强化这些隐喻的拟物化界面设计。就像垃圾桶或铅笔一样，计算机现在也是一种隐喻。

如今，大模型的主流隐喻是“模型即人”（model-as-person）。这是一个有效的隐喻，因为人具有广泛的能力，而我们对这些能力有着强烈的直觉。这意味着我们可以与模型对话，向它提问；模型可以与我们合作完成一份文档或一段代码；我们可以给它一个任务，让它自己去完成。

然而，把模型当作一个人，却极大地限制了我们与它互动的思维方式。人与人之间的互动本来就是缓慢而线性的，受限于说话的带宽和轮流发言的特性。我们都有过这样的经历，在对话中交流复杂的想法既困难又有信息丢失。当我们追求精确时，我们会求助于工具，使用直接操作和高带宽可视化界面来制作图表、编写代码和设计 CAD 模型。由于我们将模型概念化为人，我们通过缓慢的对话来使用它们，尽管它们完全能够接受快速的直接输入并产生可视化结果。我们所使用的隐喻限制了我们所构建的体验，而“模型即人”正在阻碍我们探索大模型的全部潜力。

对于许多用例，尤其是生产性工作，我更相信另一种隐喻：“模型即计算机”（model-as-computer）。

把人工智能当作计算机使用

在“模型即计算机”的隐喻下，我们将根据对计算机应用程序（无论是台式机、平板电脑还是手机......）的直觉与大模型进行交互。请注意，这并不意味着模型将成为一个传统的应用程序。“计算机应用程序”将是模型向我们展示自己的一种方式。模型将不再像一个“人”，而是像一台“计算机”。

而像计算机一样运行，就意味着要产生一个图形界面。替代 ChatGPT 提供的迷人的电传线性文本流，“模型即计算机”系统将生成类似于现代应用程序界面的东西：按钮、滑块、选项卡、图像、绘图和其他所有东西。这就解决了“模型即人”聊天界面的主要局限性：

发现性。一个好的工具会告诉人类它可以被用来做什么。当唯一的界面是一个空文本框时，用户就有责任弄清楚该做什么，并理解系统的边界。Lightroom 中的编辑侧边栏是学习照片编辑的好方法，因为它不仅告诉你这个程序能对照片做什么，还告诉你可能想做什么。同样，DALL-E 的“模型即计算机”界面也能为你的图像生成带来新的可能性。如果你要求生成一幅素描风格的图像，那么它可以为绘画媒介（铅笔、马克笔、粉彩......）生成单选按钮，为素描的细节程度生成滑块，在彩色和黑白之间切换，并生成一些图解按钮，来选择透视（2D、同构、两点透视......）。
效率。直接操作比用文字编写请求更快捷。继续以 Lightroom 为例，如果要编辑一张照片，告诉别人要移动哪个滑块、移动多少，那是不可想象的。你会整天在那里要求曝光率低一点、鲜艳度高一点，就为了看看效果如何。在“模型即计算机”的隐喻中，模型可以创建工具，让你更有效地表达自己的想法，从而更快地完成任务。在 DALL-E 的例子中，通过点击这些选项和拖动这些滑块，你就可以实时探索生成草图的空间。

与传统的应用程序不同，这个图形界面是由模型按需生成的。这就意味着你所看到的界面的每一部分都与你现在正在做的事情相关，包括你的作品的具体内容（这幅画的主题、这段文字的基调）。这也意味着，如果你想要更多或不同的界面，你可以直接提出要求。你可以要求 DALL-E 为其设置制作一些可编辑的预设，这些预设的灵感来自著名的素描艺术家。当你点击达芬奇预设时，它会将滑块设置为高度精细的黑色墨水透视画。如果点击 Charles Schulz，则会选择低细节的科技彩色 2D 漫画。

思维的多变自行车

“模型即人”有一种奇怪的倾向，就是在用户和模型之间制造距离，这就像两个人之间的沟通鸿沟一样，可以缩小，但永远无法完全弥合。由于用语言交流既困难又昂贵，人们倾向于将任务分成尽可能独立的大块（large chunk）。“模型即人”的界面也遵循这种模式：如果自己编写返回语句更快，就不太值得告诉模型在函数中添加返回语句。有了通信的开销，当“模型即人”系统可以独立完成一整块工作时，它们才是最有用的。它们为你做事。

这与我们与计算机或其他工具的交互方式形成了鲜明的对比。工具会实时产生视觉反馈，并通过直接操作进行控制。这些工具的通信开销很小，因此没有必要指定一个独立的工作块。更有意义的做法是，让人始终处于环路中，并随时指挥工具。就像七里靴一样，工具让你每一步都走得更远，但你仍然是做这些工作的人。它们让你更快地完成任务。

想想使用大模型建立网站的任务。使用现在的界面，你可以把模型当作一个承包商或合作者。你可以尽量用文字写下你希望网站的样式、内容和功能。模型会生成一个初版，你会运行它，然后你会得到一些反馈。你会说，“把徽标做大一点”，“把第一张英雄图片放在中间”，“在页眉处应该有一个登录按钮”。为了让一切完全符合你的要求，你会发送一长串越来越吹毛求疵的需求。

“模型即计算机”的交互方式看起来会有所不同：模型不会直接构建网站，而是生成一个界面供你构建网站，用户在该界面中的每一次输入都会调动界面背后的大模型。也许当你描述你的需求时，它会生成一个带有侧边栏和预览窗口的界面。起初，侧边栏只包含一些布局草图，你可以选择它们作为起点。你可以点击每一个草图，模型就会使用该布局编写网页的 HTML，并将其显示在预览窗口中。现在你已经有了一个可以使用的页面，侧边栏增加了影响整个页面的其他选项，如字体搭配和配色方案。预览就像一个所见即所得的编辑器，允许你抓取元素并移动它们，编辑它们的内容等。所有这些都由模型提供动力，它可以看到用户的这些操作，并根据用户所做的更改重写页面。因为模型可以生成一个界面，帮助你更有效地交流，所以你可以在更短的时间内对最终产品进行更多的控制权。

“模型即计算机”鼓励我们把模型当作一个实时互动的工具，而不是一个布置任务的合作者。与其说它代替了实习生或辅导员，不如说它是一种思维的多变自行车，它总是为你和你计划穿越的地形量身定制。

计算的新范式？

可按需生成界面的模型，是计算领域的一个全新领域。通过绕过现有应用模式的方式，它们可能完全是一种新范式。赋予终端用户即时创建和修改应用程序的能力，从根本上改变了我们与计算机的交互方式。模型将取代开发人员构建的单一静态应用程序，为用户及其即时需求生成定制的应用程序。模型将取代用代码实现的业务逻辑，解释用户的输入并更新用户界面。这种生成式用户界面甚至有可能完全取代操作系统，根据需要即时生成并管理界面和窗口。

起初，生成式用户界面只是一个“玩具”，只对创意探索和其他一些小众应用真正有用。毕竟，没有人会想要一个偶尔会把邮件误发给你的前任，并对你收件箱情况撒谎的电子邮件应用。但渐渐地，这些模型将会变得更好。即使它们进一步推进到全新体验的空间，它们也会逐渐变得足够可靠，可以用作真正的工作。

这种未来的雏形已经显现。几年前，Jonas Degrave 就展示了 ChatGPT 可以像模像样地模拟 Linux 命令行。与此类似，websim.ai 利用 LLM 在你浏览网站时按需生成网站。Oasis、GameNGen 和 DIAMOND 在单个视频游戏上训练动作条件视频模型，让你在大模型中玩《毁灭战士》等游戏。而 Genie 2 则能根据文字提示生成可玩的视频游戏。生成式用户界面可能仍然是一个疯狂的想法，但并没有那么疯狂。

关于它将会是什么样子，还有很多问题有待解决。生成式用户界面首先会在哪里发挥作用？如果我们通过与模型合作获得的体验只存在于大模型的上下文中，我们将如何分享这些体验？我们是否愿意这样做？会有哪些新的体验？这一切将如何实际运作？模型应该以代码的形式生成用户界面，还是直接生成原始像素？

我还不知道这些答案。我们必须通过实验来找出答案！

https://willwhitney.com/computing-inside-ai.html

翻译：李雯靖

本文仅为作者观点，不代表学术头条的立场。

如需转载或投稿，请直接在公众号内留言