著名独立评测机构Artificial Analysis最新模型排名来了,Kimi K2.5总体排名第五,GPT5.2high=51,Claude opus 4.5=50,GPT5.2codexhigh=49,Gemini3 prohigh=48,Kimi k2.5=47

要点总结:

➤在智能体任务上表现出色:

Kimi K2.5 在GDPval-AA 评估中取得了 1309 的 Elo 评分,仅次于 OpenAI 和 Anthropic 的模型。Kimi K2.5 的表现远超 GLM-4.7、DeepSeek V3.2 和 Gemini 3 Pro。GDPval-AA 是衡量通用智能体性能的主要指标,用于评估模型在实际知识工作任务(例如准备演示文稿和进行分析)上的表现。模型通过我们名为 Stirrup 的参考智能体框架,在一个智能体循环中获得了 shell 访问权限和网页浏览功能。

➤原生多模态首次实现:Kimi K2.5 是 Moonshot 首款支持多模态(图像和视频)输入的旗舰模型。这是领先的开源权重模型首次支持图像输入,消除了开源权重模型相对于前沿实验室专有模型应用的关键障碍。与其他领先的开源权重模型(例如 DeepSeek V3.2、GLM-4.7、MiniMax M2.1 和 MiMo-V2-Flash)相比,Kimi K2.5 的这一特性使其脱颖而出。Kimi K2.5 在 MMMU Pro 视觉推理基准测试中得分 75%,略低于 Gemini 3 Pro,但与 GPT-5.2 和 Claude Opus 4.5 持平。

➤运行人工智能分析智能指数的中等成本:

Kimi K2.5 在运行人工智能分析智能指数中得分为 371 美元,比 Claude Opus 4.5 和 GPT-5.2 便宜 4 倍以上,但比 DeepSeek V3.2 和 gpt-oss-120b 贵 5 倍以上。

➤适中的令牌使用量:

Kimi K2.5 的token使用量与其他同智能级别的模型相当,在人工智能分析智能指数评估套件中使用了约 8200 万个推理token。这略低于 Kimi K2 Thinking(约 9500 万个推理令牌),远低于 GLM 4.7(约 1.6 亿个推理令牌)。

➤混合推理:

Kimi K2.5 将 Moonshot 的推理模型和非推理模型统一到一个模型中。已经对开启推理功能的 K2.5 进行了评估(并将很快分享关闭推理功能后的结果)。

➤低幻觉率:

Kimi K2.5 在 AA 全知指数(我们的知识评估指标,同时衡量准确性和幻觉率)中得分为 -11。这一分数主要源于其相对较低的幻觉率,仅为 64%(低于 Kimi K2 Thinking 的 74% %) ,表明当模型不确定时,Kimi K2.5 更倾向于回避而非捏造知识。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片