谷歌 Gemini 3.0 Pro 即将发布,从刚刚曝光的模型卡与早期评测来看,这一代终于不是小修小补,而是能力上的整体跨越。以下几个核心升级值得关注:

【多模态不止于“看图”,真正理解视频内容】
Gemini 3.0 Pro在“Video-MMMU”视频理解基准上得分约87.6%,显著高于GPT-5.1的80.4%。这意味着它不仅能识别静态图像,还可能能分析视频中人物动作、推断前后因果关系、理解场景语境,向真正“看懂视频”迈出了一大步。

【推理、数学、知识库能力肉眼可见的进步】
在允许调用代码执行的情况下,该模型在AIME等高难度数学测试中接近顶尖水平(AIME得分约95.0%)。实际使用中,其推理链更完整稳定,图文混合输入的逻辑判断也更准确。
有评测指出,它在处理复杂问题时“更像在思考”,而不只是机械回应。

【长上下文能力更实用了,128k终于不是虚标】
泄露资料显示其支持长达1000000 token的上下文窗口,并且是“原生多模态”(文字、图像、视频、音频均支持)模型。
虽然上一代也支持长上下文,但3.0 Pro在以下方面有实质改进:长文档处理中信息丢失率降低、跨段落信息整合能力更强、幻觉率显著下降,输出更可靠。
这意味着长上下文不再只是“能读长文本”,而是真正能用于复杂知识推理。

【智能体与代码能力全面而均衡】
在LiveCodeBench、SWE-Bench等编程与工具调用测试中,3.0 Pro整体优于前代,执行更稳定、响应更可靠。
不过,在SWE-Bench Verified等专项中,Claude 4.5仍略有优势。这说明它属于“全能型选手”,但并非在所有单项上都碾压对手。

值得注意的是,这些成绩尚未获得官方全面验证,公测环境中的用户反馈也相对有限。因此,数据看起来很有说服力,但在“实装”还需更多验证。

打开网易新闻 查看精彩图片