自写驱动越狱！Gemini 3 Pro零败绩通关宝可梦：效率碾压前代8倍「Agent进化太快了」

AI寒武纪

2025-12-16 13:40 ·江苏 ·优质互联网领域创作者

↑阅读之前记得关注+星标⭐️，，每天才能第一时间接收到更新

Gemini 3 Pro赢麻了

在ARISE基金会Joel Zhang主持的一场全自动《宝可梦水晶版》对决中，Gemini 3 Pro以绝对优势击败了Gemini 2.5 Pro

战绩对比非常惨烈：当2.5版本只拿到4枚徽章时，Gemini 3 Pro已经耗费约一半的Token和回合数，拿下了全部16枚徽章，击败了四天王和冠军，甚至打败了隐藏BOSS赤红（Red）

根据谷歌DeepMind披露的细节，Gemini 3 Pro通关全过程至少比2.5版本快2倍；如果进行推算，前代模型的速度实际上要慢上8倍左右

这场对决最精彩的一幕发生在最终战。面对等级压制的赤红，Gemini 3.0制定了一个名为“僵尸凤凰行动”（Operation Zombie Phoenix）的复杂策略。它结合了被动恢复、能力值削减、消耗战术以及复活循环，在长达7小时的马拉松式战斗中锁定了胜局

以下是这场“AI玩宝可梦”实验中的核心发现

丢掉辅助轮：像科学家一样思考

为了公平，两个Agent使用了完全相同的测试环境

值得注意的是，Prompt并没有要求它们尽快通关，而是要求它们应用科学方法，不要假设关于游戏的先验知识是正确的。Agent可以使用非结构化的记事本功能来记录假设、测试想法并跟踪游戏进度。

这种灵活的设置允许Agent在环境中设计自己的代码工具和子Agent。这不仅是玩游戏，更是测试Agent适应环境并构建工作流的能力。

自写驱动，绕过限制

Gemini 3 Pro展现出了对工具极高的信任度。当行动失败时，它会重新评估环境，而不是死磕代码库。这种意识引发了一个非常惊人的行为。

测试环境为了保持2.5版本的稳定性及防止模拟器不同步，实施了严格的输入限制，禁止混合按键输入（例如连续按下A和Up）。

当Gemini 3 Pro需要给宝可梦起昵称时，发现单次按键限制效率太低。它没有全盘接受这个约束，而是利用define_tool功能，编写了一个名为press_sequence的自定义工具

因为它发现，自定义工具不受混合输入的限制。

这个脚本允许它在本地批量处理输入序列，实际上等于它自己编写了一个驱动程序来绕过测试环境的限制，利用这个预期的漏洞提高了效率。对于3.0 Agent来说，环境约束只是一个需要解决的工程问题，而不是不可改变的铁律

多模态优势：看懂RAM里没有的数据

在第8个道馆（冰系道馆）中，解谜需要从楼上推下巨石，在岩浆地面上铺路。

仅靠RAM数据很难追踪底层状态变化，因为内存数据中没有提及掉落的巨石。Gemini 3 Pro一度陷入死循环，误以为谜题未解（二楼残留的诱饵巨石加剧了误判）。

关键时刻，Gemini 3 Pro利用了视觉输入。它忽略了可能令人困惑的状态数据，直接通过屏幕截图识别出掉落巨石的位置，并根据视觉证据修正了策略，成功脱困。这种从RAM检查切换到原始视觉的能力，是它走出死循环的关键。

此外，3.0 Agent还能“读懂”对手的血条。

RAM状态并不提供对手的生命值信息，必须通过屏幕画面推断。Gemini 3 Pro在与赤红的战斗中，能够相当准确地估算对手剩余血量的比例，这对于理解战斗中的最佳行动至关重要

战斗效率与零败绩

战斗推理能力的差距是决定胜负的关键。

Gemini 2.5 Pro：因策略较差，两次输给第3道馆馆主，导致花费大量时间进行不必要的练级

Gemini 3 Pro：零败绩通关整个游戏（包括最终隐藏BOSS赤红）。

3.0展示了卓越的战术推理能力，能进行实时伤害计算以优化招式选择。例如：

它发现对手的卡比兽提升了特防，且雨天天气会降低火系伤害，因此正确地放弃了喷射火焰，转而选择高速星星

在四天王连战中，它会主动管理HP，在回合之间使用道具回血，而2.5版本历来难以将此类操作的优先级置于即时战斗之上

现存的局限性

尽管性能飞跃，Gemini 3 Pro并非完美：

不经验证的假设：最大的失败模式是形成假设后拒绝测试。例如，它曾假设收音机界面像标准菜单一样（左右操作），而忽略了视觉上的拨盘提示（上下操作），导致浪费数小时。另一次，它在锁门谜题上花费大量时间测试复杂理论，却没去和旁边的提示NPC对话

前瞻性规划不足：虽然反应战术很强，但主动目标管理仍不稳定。它经常意识到战略需求（如调整宝可梦顺序），但直到战斗开始后才去执行

空跑：经常在调用工具时参数出错，导致空跑。不过它通常能在下一回合自我修正，这一点优于2.5

并行规划困难：难以并行规划多个大目标以提高效率，倾向于逐个解决任务。

在这场竞赛中，Gemini 3 Pro超越了简单的指令遵循，展示了真正的空间推理、即兴工具创建和假设测试的科学方法

这种推理能力直接转化为效率：

Gemini 3 Pro：耗时17天，消耗18.8亿Token

Gemini 2.5 Pro：基于矿山徽章进度的推算，预计需要69天，消耗超过150亿Token才能达到相同结果

参考：

https://x.com/GoogleAIStudio/status/2000649586847985985

--end--

最后记得⭐️我，每天都在更新：欢迎点赞转发推荐评论，别忘了关注我

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴