打开网易新闻 查看精彩图片

↑阅读之前记得关注+星标⭐️,,每天才能第一时间接收到更新

Gemini 3 Pro赢麻了

在ARISE基金会Joel Zhang主持的一场全自动《宝可梦 水晶版》对决中,Gemini 3 Pro以绝对优势击败了Gemini 2.5 Pro

战绩对比非常惨烈:当2.5版本只拿到4枚徽章时,Gemini 3 Pro已经耗费约一半的Token和回合数,拿下了全部16枚徽章,击败了四天王和冠军,甚至打败了隐藏BOSS赤红(Red)

根据谷歌DeepMind披露的细节,Gemini 3 Pro通关全过程至少比2.5版本快2倍;如果进行推算,前代模型的速度实际上要慢上8倍左右

打开网易新闻 查看精彩图片

这场对决最精彩的一幕发生在最终战。面对等级压制的赤红,Gemini 3.0制定了一个名为“僵尸凤凰行动”(Operation Zombie Phoenix)的复杂策略。它结合了被动恢复、能力值削减、消耗战术以及复活循环,在长达7小时的马拉松式战斗中锁定了胜局

打开网易新闻 查看精彩图片

以下是这场“AI玩宝可梦”实验中的核心发现

丢掉辅助轮:像科学家一样思考

为了公平,两个Agent使用了完全相同的测试环境

值得注意的是,Prompt并没有要求它们尽快通关,而是要求它们应用科学方法,不要假设关于游戏的先验知识是正确的。Agent可以使用非结构化的记事本功能来记录假设、测试想法并跟踪游戏进度。

这种灵活的设置允许Agent在环境中设计自己的代码工具和子Agent。这不仅是玩游戏,更是测试Agent适应环境并构建工作流的能力。

自写驱动,绕过限制

Gemini 3 Pro展现出了对工具极高的信任度。当行动失败时,它会重新评估环境,而不是死磕代码库。这种意识引发了一个非常惊人的行为。

测试环境为了保持2.5版本的稳定性及防止模拟器不同步,实施了严格的输入限制,禁止混合按键输入(例如连续按下A和Up)。

当Gemini 3 Pro需要给宝可梦起昵称时,发现单次按键限制效率太低。它没有全盘接受这个约束,而是利用define_tool功能,编写了一个名为press_sequence的自定义工具

因为它发现,自定义工具不受混合输入的限制。

这个脚本允许它在本地批量处理输入序列,实际上等于它自己编写了一个驱动程序来绕过测试环境的限制,利用这个预期的漏洞提高了效率。对于3.0 Agent来说,环境约束只是一个需要解决的工程问题,而不是不可改变的铁律

多模态优势:看懂RAM里没有的数据

在第8个道馆(冰系道馆)中,解谜需要从楼上推下巨石,在岩浆地面上铺路。

仅靠RAM数据很难追踪底层状态变化,因为内存数据中没有提及掉落的巨石。Gemini 3 Pro一度陷入死循环,误以为谜题未解(二楼残留的诱饵巨石加剧了误判)。

关键时刻,Gemini 3 Pro利用了视觉输入。它忽略了可能令人困惑的状态数据,直接通过屏幕截图识别出掉落巨石的位置,并根据视觉证据修正了策略,成功脱困。这种从RAM检查切换到原始视觉的能力,是它走出死循环的关键。

此外,3.0 Agent还能“读懂”对手的血条。

RAM状态并不提供对手的生命值信息,必须通过屏幕画面推断。Gemini 3 Pro在与赤红的战斗中,能够相当准确地估算对手剩余血量的比例,这对于理解战斗中的最佳行动至关重要

战斗效率与零败绩

战斗推理能力的差距是决定胜负的关键。

Gemini 2.5 Pro:因策略较差,两次输给第3道馆馆主,导致花费大量时间进行不必要的练级

Gemini 3 Pro: 零败绩通关整个游戏(包括最终隐藏BOSS赤红)。

3.0展示了卓越的战术推理能力,能进行实时伤害计算以优化招式选择。例如:

它发现对手的卡比兽提升了特防,且雨天天气会降低火系伤害,因此正确地放弃了喷射火焰,转而选择高速星星

在四天王连战中,它会主动管理HP,在回合之间使用道具回血,而2.5版本历来难以将此类操作的优先级置于即时战斗之上

现存的局限性

尽管性能飞跃,Gemini 3 Pro并非完美:

不经验证的假设:最大的失败模式是形成假设后拒绝测试。例如,它曾假设收音机界面像标准菜单一样(左右操作),而忽略了视觉上的拨盘提示(上下操作),导致浪费数小时。另一次,它在锁门谜题上花费大量时间测试复杂理论,却没去和旁边的提示NPC对话

前瞻性规划不足:虽然反应战术很强,但主动目标管理仍不稳定。它经常意识到战略需求(如调整宝可梦顺序),但直到战斗开始后才去执行

空跑:经常在调用工具时参数出错,导致空跑。不过它通常能在下一回合自我修正,这一点优于2.5

并行规划困难:难以并行规划多个大目标以提高效率,倾向于逐个解决任务。

在这场竞赛中,Gemini 3 Pro超越了简单的指令遵循,展示了真正的空间推理、即兴工具创建和假设测试的科学方法

这种推理能力直接转化为效率:

Gemini 3 Pro:耗时17天,消耗18.8亿Token

Gemini 2.5 Pro:基于矿山徽章进度的推算,预计需要69天,消耗超过150亿Token才能达到相同结果

参考:

https://x.com/GoogleAIStudio/status/2000649586847985985

--end--

最后记得⭐️我,每天都在更新:欢迎点赞转发推荐评论,别忘了关注我