人工智能模型评估大模型竞技场刚刚发布重磅消息,由 DeepSeek AI 开发的 DeepSeek-R1 模型强势崛起,一举冲入排行榜前三甲!

LM Arena (原 lmsys.org) 在官方账号 @lmarena_ai 上激动地宣布了这一消息,称 DeepSeek-R1 的表现令人瞩目,并称赞其为社区带来了一份“令人难以置信的里程碑和礼物”。

**DeepSeek-R1 的亮点包括:**

综合排名第三:DeepSeek-R1 目前在 LM Arena 综合榜单上排名第三,与顶尖推理模型 o1 并列,展现了强大的通用能力

技术领域表现卓越:在 "Hard Prompts" (高难度提示词)、 "Coding" (代码能力) 和 "Math" (数学能力) 等技术性极强的领域,DeepSeek-R1 更是拔得头筹,位列第一

风格控制并列第一:在 "Style Control" (风格控制) 方面,DeepSeek-R1 也展现了惊人的实力,与 o1 并列第一,意味着模型在理解和遵循用户指令,并按照特定风格生成内容方面表现出色

推文还指出,在 "Hard Prompt with Style Control" (高难度提示词与风格控制结合)的测试中,DeepSeek-R1 更是与 o1 并列第一,进一步证明了其在复杂任务和精细化控制方面的强大能力。

虽然目前的排名是基于早期的结果,更多投票正在收集中以确保排名的稳定性,但 DeepSeek-R1 已经展现出在各个领域都非常强劲的潜力。