大多数人工智能基准测试给我们提供的有用信息并不多。

因此,一些人工智能爱好者正在将游戏作为测试人工智能解决问题能力的一种方式。

身为自由职业者的人工智能开发者保罗·卡尔克拉夫特(Paul Calcraft)开发了一款应用程序,在其中两个人工智能模型可以相互玩类似画图猜词的游戏。一个模型涂鸦,而另一个模型试图猜测涂鸦代表什么。

“我觉得从模型能力这个角度来看,这听起来超级有趣,还可能很有意义,”卡尔克拉夫特在接受 TechCrunch 采访时表示。“所以我在一个阴天的星期六待在室内把它完成了。”

卡尔克拉夫特的灵感来自英国程序员西蒙·威利森(Simon Willison)的一个类似项目,该项目要求模型绘制一幅骑自行车的鹈鹕的矢量图。和卡尔克拉夫特一样,威利森选择了一个他认为会迫使模型“思考”超出其训练数据内容的挑战。

“这个想法是要设定一个无法作弊的基准,”卡尔克拉夫特说。“一个不能通过记住训练期间以前见过的特定答案或简单模式来击败的基准。”

16 岁的阿多尼斯·辛格(Adonis Singh)也认为《我的世界》属于这种“难以游戏化”的类别。

他创建了一个名为 Mcbench 的工具,这个工具能让模型控制《我的世界》中的角色,并测试其设计结构的能力,类似于微软的Project Malmo项目。

“我觉得《我的世界》考验了模型的应变能力,并赋予了它们更多的自主性,”他告诉 TechCrunch。“它不像(其他)基准那样受到严格的限制,也没有那么饱和。”

使用游戏来对人工智能进行基准测试并不是什么新鲜事。这个想法可以追溯到几十年前:数学家克劳德·香农在 1949 年认为,像国际象棋这样的游戏对于“智能”软件来说是一个有价值的挑战。最近,Alphabet 的 DeepMind 开发了一个模型,可以玩《Pong》和《Breakout》;OpenAI 训练人工智能参加Dota 2比赛;Meta 设计了一个算法,可以与专业的德州扑克玩家抗衡。

但现在不同的是,爱好者们正在将大型语言模型(LLMs)——能够分析文本、图像等的模型——与游戏连接起来,以探究它们在逻辑方面的表现有多好。

有很多的 LLMs,从Gemini和Claude到GPT-4o,可以说它们都有着不同的“氛围”。它们在一次交互到下一次交互中“感觉”不同——这种现象可能难以量化。

“大家都知道大型语言模型对提问的特定方式很敏感,而且通常不可靠且难以预测,”卡尔克拉夫特说。

艾伯塔大学的人工智能研究员兼教授马修·古兹迪尔表示,与基于文本的基准测试相比,游戏提供了一种直观的视觉方式来比较模型的表现情况和行为方式。

“我们可以认为每个基准测试都给我们提供了针对特定类型问题(如推理或交流)的现实的不同简化,”他说。“游戏只是可以用人工智能进行决策的其他方式,所以人们像使用任何其他方法一样使用它们。”

熟悉生成式人工智能历史的人会注意到画图猜词与生成对抗网络(GANs)有多相似,在这个过程中,创建者模型向判别器模型发送图像,然后由判别器模型对其进行评估。

卡尔克拉夫特认为,画图猜词可以捕捉大型语言模型理解形状、颜色和介词(例如,“in”与“on”的含义)等概念的能力。他不会说这个游戏是推理的可靠测试,但他认为获胜需要策略和理解线索的能力——这两点模型都不容易做到。

“我也真的很喜欢画图猜词游戏近乎对抗性的本质,类似于生成对抗网络(GANs),在这个游戏中,存在两种不同的角色:一个负责画图,另一个负责猜测,”他说。“画图最好的人并非是最具艺术感的,而是能够最为清晰地向其他语言模型(包括速度更快但能力差很多的模型!)的受众传达想法的那个人”

“卡尔克拉夫特警告道:‘画图猜词是一个并非马上实用或者现实的玩具式问题。’“话虽这么说,我着实认为空间理解和多模态属于人工智能进步的关键要素,所以语言模型的画图猜词或许是这一进程中的一小步、早期的一步。”

辛格觉得《我的世界》也是一个有用的基准,而且能够衡量语言模型中的推理能力。“从我到目前为止测试的模型来看,结果与我在与推理相关的事情上对模型的信任程度完全一致,”他说。

其他人则不太确定。

专门从事人工智能研究的玛丽女王大学研究员迈克·库克觉得,《我的世界》作为人工智能测试平台并非特别特殊。

“我认为《我的世界》的部分魅力来自游戏领域之外的人,他们可能认为,因为它看起来像‘现实世界’,所以它与现实世界的推理或行动联系更为紧密,”库克告诉 TechCrunch。“从解决问题的角度来看,它与像《堡垒之夜》、《星露谷物语》或《魔兽世界》这样的视频游戏差异不大。它只是在外观上有着不同的装点,使其看起来更像是日常的一系列任务,比如建造东西或探索。”

就库克的观点而言,即使是最好的游戏人工智能系统通常也不能很好地适应新环境,并且不能轻易解决以前从未见过的问题。例如,一个在《我的世界》中表现出色的模型不太可能在《毁灭战士》中展现出任何真正的技艺。

“我认为从人工智能的角度来看,《我的世界》所具备的良好品质为极其微弱的奖励信号和一个程序性的世界,这意味着不可预测的挑战,”库克继续说道。“但它并不比其他任何视频游戏更能体现现实世界的情况。”

即便如此,观看大型语言模型建造城堡肯定存在一些迷人的地方。