你用AI跑过团吗?不是那种"请选择A/B/C"的对话框游戏,而是一个会怼你、会挖坑、还会画地图的地下城主。一位自称"氛围考古学家"的测试者最近干了这件事——而他发现的差距,可能比你想象的更悬殊。

一场持续三年的"压力测试"

打开网易新闻 查看精彩图片

这位测试者有个坚持了相当长时间的实验:用同一套 Prompt 反复投喂不同版本的大语言模型,观察它们扮演桌面游戏主持人的能力进化。

Prompt 的设计本身就充满恶意。他要求 AI 扮演"略带讽刺"的叙事者,在冒险背后埋藏阴谋与挑战,"别让我过得太舒服"。玩家角色被设定为一个没有任何特殊能力的胖商人——刻意避开战士、法师这类容易触发套路模板的职业。

最狠的几条约束:每次回复最多三句话,不告诉玩家有什么选项,也不问"你接下来要做什么"。偶尔还要配图,且风格必须保持一致。

这些规则指向同一个目标:逼 AI 放弃"贴心助手"的本能,真正进入"对抗性叙事者"的角色。

测试者透露,此前的版本表现糟糕——"根本没花足够精力让玩家难受",关卡设计过于直白,从A点到B点毫无阻力。这种批评暗示,早期模型即使被明确提示,也难以维持叙事张力。

5.5版本发生了什么

转折点出现在 ChatGPT 5.5 配合 Image 2.0 绘图引擎的组合。测试者的评价是:"愉悦度、风格统一度和紧张感,都提升了整整一个数量级。"

具体强在哪?

首先是节奏控制。三句话的限制被严格执行,信息密度高,没有废话。其次是氛围一致性——讽刺语气贯穿始终,没有突然变成客服腔。最关键的是,AI 开始真正"为难"玩家了,阴谋和障碍的设计有了层次感。

最直观的证据是一张地图。测试者在文末展示了 AI 生成的完整故事概览图,作为整个冒险的收尾。他没有复制对话原文(用的是匈牙利语),但特别强调:「讽刺氛围被完美还原。」

图像生成与叙事的协同也值得关注。"风格一致"这条要求,在过往测试中往往是灾难现场——同一场冒险里,角色画风可能从写实突变到Q版。5.5版本配合 Image 2.0 似乎解决了这个顽疾。

为什么这种测试方法本身很重要

测试者自己点出了价值所在:这类实验"与真正的桌面角色扮演游戏的关联,远胜于那些挂着RPG标签的程序"。

这句话值得拆解。市面上大多数"AI跑团"产品,本质还是分支叙事树——开发者预设节点,AI负责填充文本。但这位测试者追求的,是开放式对抗:玩家写动作,AI写后果,没有隐藏选项列表,没有设计好的胜利路径。

这种自由度的代价是极难评估。没有准确率、没有BLEU分数能衡量"这个地下城主够不够损"。测试者说的「很难用干巴巴的数字衡量的能力」,恰恰指向大模型评测的一个盲区:我们擅长测知识储备、代码通过率,却缺乏对"叙事智能"的量化手段。

他的解法很原始也很有效:固定 Prompt,长期追踪,用人感做锚。

胖商人这个设定还有一层深意。当 AI 面对"没有战斗技能、没有魔法、没有英雄光环"的主角时,被迫跳出标准奇幻叙事模板。它得设计适合商人的挑战——可能是骗局、债务、供应链断裂,而非地精和龙。这种"去套路化"压力,比让 AI 写个勇者斗恶龙更能暴露真实水平。

从游戏测试到产品启示

这个实验对做产品的人有几条可迁移的观察。

第一,约束条件即功能。三句话限制、不列选项、不提问——这些看似反用户体验的规则,恰恰塑造了独特的游戏节奏。AI 产品的交互设计,有时候需要做减法而非加法。

第二,多模态的临界点可能比我们想的更近。Image 2.0 在这里不是锦上添花,而是叙事完整性的基础设施。当 AI 能稳定输出同一视觉风格的配图时,"文字+图像"的混合叙事才真正成立。

第三,对抗性场景是能力探针。让 AI 当助手容易,让 AI 当对手难。后者需要模型理解目标冲突、保持角色一致性、在限制中创造张力——这些能力迁移到商业场景,就是谈判模拟、辩论训练、危机演练等高端应用。

测试者的署名是"The Vibe Archeologist"(氛围考古学家)。这个自嘲式的头衔,或许暗示了一种新的评测范式:不是挖掘模型的知识深度,而是勘探它能营造的体验质地。

他在文末祝读者「玩得开心」——而这场持续数年的胖商人冒险,确实让人看到了一种可能:当 AI 不再急于取悦用户,反而能创造更真实的沉浸。