一个胖商人的冒险，测出了大模型的新天花板

灰度测试中

2026-05-06 16:35 ·北京

你用AI跑过团吗？不是那种"请选择A/B/C"的对话框游戏，而是一个会怼你、会挖坑、还会画地图的地下城主。一位自称"氛围考古学家"的测试者最近干了这件事——而他发现的差距，可能比你想象的更悬殊。

一场持续三年的"压力测试"

这位测试者有个坚持了相当长时间的实验：用同一套 Prompt 反复投喂不同版本的大语言模型，观察它们扮演桌面游戏主持人的能力进化。

Prompt 的设计本身就充满恶意。他要求 AI 扮演"略带讽刺"的叙事者，在冒险背后埋藏阴谋与挑战，"别让我过得太舒服"。玩家角色被设定为一个没有任何特殊能力的胖商人——刻意避开战士、法师这类容易触发套路模板的职业。

最狠的几条约束：每次回复最多三句话，不告诉玩家有什么选项，也不问"你接下来要做什么"。偶尔还要配图，且风格必须保持一致。

这些规则指向同一个目标：逼 AI 放弃"贴心助手"的本能，真正进入"对抗性叙事者"的角色。

测试者透露，此前的版本表现糟糕——"根本没花足够精力让玩家难受"，关卡设计过于直白，从A点到B点毫无阻力。这种批评暗示，早期模型即使被明确提示，也难以维持叙事张力。

5.5版本发生了什么

转折点出现在 ChatGPT 5.5 配合 Image 2.0 绘图引擎的组合。测试者的评价是："愉悦度、风格统一度和紧张感，都提升了整整一个数量级。"

具体强在哪？

首先是节奏控制。三句话的限制被严格执行，信息密度高，没有废话。其次是氛围一致性——讽刺语气贯穿始终，没有突然变成客服腔。最关键的是，AI 开始真正"为难"玩家了，阴谋和障碍的设计有了层次感。

最直观的证据是一张地图。测试者在文末展示了 AI 生成的完整故事概览图，作为整个冒险的收尾。他没有复制对话原文（用的是匈牙利语），但特别强调：「讽刺氛围被完美还原。」

图像生成与叙事的协同也值得关注。"风格一致"这条要求，在过往测试中往往是灾难现场——同一场冒险里，角色画风可能从写实突变到Q版。5.5版本配合 Image 2.0 似乎解决了这个顽疾。

为什么这种测试方法本身很重要

测试者自己点出了价值所在：这类实验"与真正的桌面角色扮演游戏的关联，远胜于那些挂着RPG标签的程序"。

这句话值得拆解。市面上大多数"AI跑团"产品，本质还是分支叙事树——开发者预设节点，AI负责填充文本。但这位测试者追求的，是开放式对抗：玩家写动作，AI写后果，没有隐藏选项列表，没有设计好的胜利路径。

这种自由度的代价是极难评估。没有准确率、没有BLEU分数能衡量"这个地下城主够不够损"。测试者说的「很难用干巴巴的数字衡量的能力」，恰恰指向大模型评测的一个盲区：我们擅长测知识储备、代码通过率，却缺乏对"叙事智能"的量化手段。

他的解法很原始也很有效：固定 Prompt，长期追踪，用人感做锚。

胖商人这个设定还有一层深意。当 AI 面对"没有战斗技能、没有魔法、没有英雄光环"的主角时，被迫跳出标准奇幻叙事模板。它得设计适合商人的挑战——可能是骗局、债务、供应链断裂，而非地精和龙。这种"去套路化"压力，比让 AI 写个勇者斗恶龙更能暴露真实水平。

从游戏测试到产品启示

这个实验对做产品的人有几条可迁移的观察。

第一，约束条件即功能。三句话限制、不列选项、不提问——这些看似反用户体验的规则，恰恰塑造了独特的游戏节奏。AI 产品的交互设计，有时候需要做减法而非加法。

第二，多模态的临界点可能比我们想的更近。Image 2.0 在这里不是锦上添花，而是叙事完整性的基础设施。当 AI 能稳定输出同一视觉风格的配图时，"文字+图像"的混合叙事才真正成立。

第三，对抗性场景是能力探针。让 AI 当助手容易，让 AI 当对手难。后者需要模型理解目标冲突、保持角色一致性、在限制中创造张力——这些能力迁移到商业场景，就是谈判模拟、辩论训练、危机演练等高端应用。

测试者的署名是"The Vibe Archeologist"（氛围考古学家）。这个自嘲式的头衔，或许暗示了一种新的评测范式：不是挖掘模型的知识深度，而是勘探它能营造的体验质地。

他在文末祝读者「玩得开心」——而这场持续数年的胖商人冒险，确实让人看到了一种可能：当 AI 不再急于取悦用户，反而能创造更真实的沉浸。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴