Gemini 3.0 Pro模型卡曝光，多模态、知识库能力大幅超越GPT与Claude|gemini|上下文|模态|深度思考模型|知识库|编程|调用

Gemini 3.0 Pro模型卡曝光，多模态、知识库能力大幅超越GPT与Claude

硅基观察Pro

2025-11-18 22:19 ·北京 ·优质互联网领域创作者

谷歌 Gemini 3.0 Pro 即将发布，从刚刚曝光的模型卡与早期评测来看，这一代终于不是小修小补，而是能力上的整体跨越。以下几个核心升级值得关注：

【多模态不止于“看图”，真正理解视频内容】
Gemini 3.0 Pro在“Video-MMMU”视频理解基准上得分约87.6%，显著高于GPT-5.1的80.4%。这意味着它不仅能识别静态图像，还可能能分析视频中人物动作、推断前后因果关系、理解场景语境，向真正“看懂视频”迈出了一大步。

【推理、数学、知识库能力肉眼可见的进步】
在允许调用代码执行的情况下，该模型在AIME等高难度数学测试中接近顶尖水平（AIME得分约95.0%）。实际使用中，其推理链更完整稳定，图文混合输入的逻辑判断也更准确。
有评测指出，它在处理复杂问题时“更像在思考”，而不只是机械回应。

【长上下文能力更实用了，128k终于不是虚标】
泄露资料显示其支持长达1000000 token的上下文窗口，并且是“原生多模态”（文字、图像、视频、音频均支持）模型。
虽然上一代也支持长上下文，但3.0 Pro在以下方面有实质改进：长文档处理中信息丢失率降低、跨段落信息整合能力更强、幻觉率显著下降，输出更可靠。
这意味着长上下文不再只是“能读长文本”，而是真正能用于复杂知识推理。

【智能体与代码能力全面而均衡】
在LiveCodeBench、SWE-Bench等编程与工具调用测试中，3.0 Pro整体优于前代，执行更稳定、响应更可靠。
不过，在SWE-Bench Verified等专项中，Claude 4.5仍略有优势。这说明它属于“全能型选手”，但并非在所有单项上都碾压对手。

值得注意的是，这些成绩尚未获得官方全面验证，公测环境中的用户反馈也相对有限。因此，数据看起来很有说服力，但在“实装”还需更多验证。