2025 年大模型盘点：DeepSeek 时刻、Llama 失宠、刷榜泛滥...|deepseek|代码|大模型|正式版模型|编程|调用

测试集发布之后，它就无效了

首先，感谢 minghao 老司机，阅篇无数，精准推荐

本文基于老司机推荐的年终盘点《The State Of LLMs 2025: Progress, Problems, and Predictions》

https://magazine.sebastianraschka.com/p/state-of-llms-2025

这篇文章的原始作者叫 Raschka，长期在 Substack 输出技术内容。他的书被翻译成 9种 语言，被多所大学用作教材

以下这些，是他对 2025 年大模型领域的观察和判断，在这里我做了一些重写&删改

推理模型、RLVR 与 GRPO 之年

2025 年 1 月，DeepSeek R1 发布，带来两个简单但重要的发现：

• 模型先说思路再给答案，准确率更高
• 这种习惯，可以用强化学习养成

短回答 vs. 包含中间推理步骤的长回答 DeepSeek 时刻

R1 引发关注，原因有三

其一
R1 以开源权重发布，性能与当时最好的闭源模型相当

其二
R1 论文让投资者和媒体重新审视 2024 年 12 月的 DeepSeek V3 论文

结论被修正：训练顶级模型的成本可能接近 $500万，而非 $5000万 或 $5亿

R1 的补充材料显示：在 V3 基础上训练 R1，只需额外 $29.4万

当然，$500万 只算了最终跑模型的算力，不包括研究人员薪资和实验成本

其三
论文同时提出了 RLVR + GRPO 这套新方法

此前不管是 SFT 还是 RLHF，都绑定在人工标注上，成本高、规模有限

RLVR 换了个思路：如果答案本身可以被验证，就不需要人来判断对错

数学和代码是最典型的场景，但这个逻辑可以延伸

强化学习应用时机概览

可验证奖励的简单示例

今年大模型开发基本被 RLVR 和 GRPO 主导。几乎每个主要玩家，都在 R1 之后发布了推理版本的模型

大模型发展重心演变

如果要简洁总结每年大模型开发的重点：

• 2022 RLHF + PPO
• 2023 LoRA SFT
• 2024 中期训练
• 2025 RLVR + GRPO

历年大模型开发的重点领域，这是累积的

那么下一步是什么？

Raschka 认为 2026 年会看到更多 RLVR 相关的工作。目前 RLVR 主要用在数学和代码上，下一步是扩展到其他领域

另一个方向是「解释评分」：不光看最终答案对不对，还要评判中间推理过程。这在过去叫「过程奖励模型」（PRM），但目前还不太成功

Raschka 对 2026、2027 的预判：

• 2026 RLVR 扩展 + 更多推理时扩展
• 2027 持续学习

推理时扩展的意思是：训练完之后，在生成答案时花更多时间和算力

这是一个权衡：延迟、成本、准确率之间的取舍。但在某些场景，准确率比延迟更重要，极端的推理扩展完全值得

比如 DeepSeekMath-V2 在数学竞赛基准上达到了金牌级表现

持续学习是指在新数据上训练模型，不从头来。挑战是灾难性遗忘：学新东西会忘旧东西。今年同行讨论很多，但还没有实质性突破

2. GRPO：年度研究宠儿

在大模型昂贵的时代，学术研究不太好做。但仍能做出重要发现

近年典型例子：LoRA（2021）用于参数高效微调，DPO 用于无奖励模型对齐

基于代码的 LoRA 教程

基于代码的 DPO 教程

今年的亮点是 GRPO。虽然出自 DeepSeek R1 论文，但对研究者来说仍是激动人心的一年：RLVR 和 GRPO 概念上有趣，实验成本也还能接受

今年大模型文献中出现了很多 GRPO 的改进，后来被纳入顶级大模型的训练流程

Olmo 3 采用的改进：

零梯度信号过滤、主动采样、Token 级别损失、无 KL 损失、更高的裁剪阈值、截断重要性采样、无标准差归一化

DeepSeek V3.2 采用的改进：

领域特定 KL 强度的 KL 调优（数学为零）、重新加权的 KL、离策略序列掩码、保持 top-p / top-k 的采样掩码、保持原始 GRPO 优势归一化

Raschka 确认这些修改在实践中影响巨大。采用后，坏的更新不再破坏训练，不再需要定期重载检查点

顶级模型仍然用经典的 Decoder 风格 Transformer

但今年，开源大模型基本趋同于：MoE（混合专家）层 + 至少一种效率优化的注意力机制（GQA、滑动窗口注意力或 MLA）

更激进的效率优化也出现了，目标是让注意力机制的复杂度随序列长度线性增长。比如 Qwen3-Next 和 Kimi Linear 中的 Gated DeltaNets，以及 NVIDIA Nemotron 3 中的 Mamba-2 层

Raschka 的预测：至少在顶级性能方面，未来几年仍会继续用 Transformer

但效率和工程优化会越来越多，如 Gated DeltaNet 和 Mamba 层。在大模型的规模下，从财务角度看这是必然

替代方案也有。比如文本扩散模型，目前属于实验性。但 Google 宣布将发布 Gemini Diffusion 模型，不追求顶级建模质量，但会非常快，适合低延迟场景

两周前开源的 LLaDA 2.0 发布，最大的 1000亿 参数版本是迄今最大的文本扩散模型，与 Qwen3 30B 持平

4. 推理扩展和工具调用之年

通过扩展训练数据和架构来改进大模型，是一个持续有效的公式

但今年，这不再是唯一有效的方法

GPT 4.5（2025 年 2 月）就是例子。传言它比 GPT 4 大得多，但单纯扩展不是最明智的方向。GPT 4.5 的能力可能比 GPT 4 更好，但增加的训练预算被认为「性价比不高」

相反，更好的训练流程（更多关注中期和后训练）以及推理扩展，驱动了今年的大部分进展

另一个主要改进来自工具调用

幻觉是大模型最大的问题之一。幻觉率在持续改善，Raschka 认为这很大程度上归功于工具调用

比如被问到 1998 年世界杯谁赢了，大模型可以用搜索引擎查，从可靠网站抓取信息，而不是靠记忆

OpenAI 的 gpt-oss 是今年早些时候发布的专门为工具调用开发的开源模型之一

遗憾的是，开源生态还没完全跟上，很多工具仍默认以非工具调用模式跑这些大模型

一个原因是这是新范式，工具需要适配。另一个原因是安全：给大模型不受限制的工具调用权限，可能出问题

Raschka 认为，未来几年本地跑大模型时启用工具调用会越来越普遍

5. 年度词汇：刷榜

如果要选一个描述今年大模型开发的词，那就是「刷榜」（benchmaxxing）

刷榜意味着强烈关注推高排行榜数字，有时到了 benchmark 表现本身成为目标的程度

典型例子是 Llama 4，在很多 benchmark 上得分极高。但用户和开发者上手后发现，这些分数并不反映实际能力

如果测试集是公开的，它就不是真正的测试集

现在的问题是，测试集数据不仅成为训练语料的一部分，还经常在大模型开发过程中被直接优化

2019 年 Do ImageNet Classifiers Generalize to ImageNet? 论文的注释图

过去，即使公开测试集上的分数被夸大，至少模型排名还是保持的

在大模型开发中，这已经到了 benchmark 数字不再是性能可靠指标 的地步

但 Raschka 认为 benchmark 仍是必要门槛：如果一个大模型在某 benchmark 上得分低于 X，就知道它不行。但如果得分高于 X，这并不意味着它比另一个得分高于 X 的大模型好多少

另一个问题是：图像分类器只有一个任务。但大模型用于翻译、总结、写代码、头脑风暴、解数学题等等。评估起来复杂得多

除了在实践中尝试和不断生成新 benchmark，暂时没有解决方案

6. AI 用于编程、写作和研究

Raschka 把大模型视为给某些职业的人「超能力」的工具。用好的话，可以显著提高生产力，消除日常工作中的摩擦

编程

Raschka 仍然自己写大部分他关心的代码

比如设置一个大模型训练脚本，他会自己实现并仔细检查训练逻辑。这是为了确保它在做正确的事，同时保持自己在这个任务上的专长

但他现在用大模型来添加周围更琐碎的代码，比如 argparse 样板

使用提示词「给 training-script.py 所有超参数选项添加 argparse」

他也越来越依赖大模型来发现问题、建议改进或检验想法

大模型对核心专长以外的任务极其有价值。他最近写了工具来提取和备份 Substack 文章为 Markdown，大模型还帮他清理了网站的 CSS

诀窍是识别何时用、何时不用

代码库

大模型写代码越来越好了，但 Raschka 不认为代码会变得短暂或过时

大模型给人们超能力来生成某些编程项目。但纯大模型生成的代码库，不能取代专家精心打造的代码库

一个了解好的设计模式和权衡、研究过、见过、构建过很多平台的专家全栈 Web 开发者，能够构建比一个随机人员提示大模型更好的平台

精彩的是：现在一个随机人员也能构建一个平台，即使不是最好的

但用大模型只能走这么远，平台质量可能会停滞

技术写作和研究

Raschka 不认为大模型会让技术写作过时

写一本好的技术书需要数千小时和对主题的深刻熟悉。核心工作仍然依赖人类的判断和专业知识

从读者角度，用大模型学习一个话题对快速问题和入门级解释效果不错。但当你想建立更深层理解时，这种方法很快变得混乱

到那时，不如跟随专家设计的结构化学习路径

也许经验法则是：

• 如果这篇文章完全由人类生成，它本可以进一步改进
• 如果这篇文章可以仅通过提示大模型生成，那它可能不够新颖和深入

大模型与倦怠

Raschka 认为有一个较少被讨论的缺点：如果模型做所有事情而人类主要是监督，工作可能开始感觉空洞

有些人喜欢专注于管理系统和编排工作流。但对于喜欢亲自动手做事的人，这种工作模式可能加速倦怠

与一个难题搏斗最终看到它成功，有一种特殊的满足感。当大模型一次搞定答案时，没有同样的感觉

也许一个类比是国际象棋

国际象棋引擎几十年前就超过了人类棋手，但人类玩的职业国际象棋仍然活跃且繁荣

现代棋手用 AI 来探索不同想法、挑战直觉、以前所未有的深度分析错误

这是思考 AI 在其他智力工作中如何使用的有用模型

用得好，AI 可以加速学习、扩展单个人能合理承担的范围。应该更多地把它当作伙伴而不是替代品

但如果 AI 被用来完全外包思考和编程，它有破坏动机和长期技能发展的风险

大模型的通用编程、知识问答和写作能力在持续提升

这很大程度上是因为扩展仍然带来正向投资回报

但这在某个时候会开始停滞，除非不断发明新的训练方法和架构

大模型目前能解决很多通用任务和相对容易的问题。但要在某些行业深入扎根，需要更多领域专业化

大模型提供商很想获得高质量的领域专用数据。目前看来这将是一个挑战

大多数被接洽的公司都拒绝了数据交易，正是因为数据是专有的、是其业务差异化的核心

把有价值的专有数据卖给 OpenAI 或 Anthropic，可能有点短视

目前大模型开发在规模上成本高昂且有挑战，这就是为什么只有少数大公司开发顶级大模型

但 Raschka 认为大模型开发正变得越来越商品化

大模型开发者频繁在雇主之间轮换，最终会被更大的金融机构、生物技术公司等有预算的企业雇用，开发受益于其私有数据的内部大模型

这些大模型甚至不需要完全从头训练；许多顶级大模型如 DeepSeek V3.2、Kimi K2 和 GLM 4.7 正在发布，可以被适配和进一步后训练

8. 2025 年的意外与 2026 年预测 2025 年值得注意的意外

1. 几个推理模型已在主要数学竞赛中达到金牌水平（OpenAI 的一个未命名模型、Gemini Deep Think、开源的 DeepSeekMath-V2）。Raschka 不惊讶这发生，但惊讶这在 2025 年就发生了，而不是 2026 年
2. Llama 4（或整个 Llama 系列）在开源社区几乎完全失宠，Qwen 在流行度上超过了 Llama
3. Mistral AI 在其最新旗舰 Mistral 3 模型中用了 DeepSeek V3 架构（2025 年 12 月宣布）
4. 除了 Qwen3 和 DeepSeek R1/V3.2，开源顶级模型竞赛中出现了许多其他竞争者：Kimi、GLM、MiniMax、Yi
5. 更便宜、高效的混合架构已成为领先实验室的更大优先级（Qwen3-Next、Kimi Linear、Nemotron 3），而不是由独立实验室开发
6. OpenAI 发布了开源权重模型（gpt-oss）
7. MCP 已成为 Agent 风格大模型系统中工具和数据访问的标准。Raschka 预期生态系统在 2025 年会保持更碎片化，至少到 2026 年

2026 年预测

1. 很可能会看到一个工业规模的、面向消费者的扩散模型，用于廉价、可靠、低延迟的推理，Gemini Diffusion 可能会先行
2. 开源社区会缓慢但稳定地采用本地工具调用和越来越多 Agent 能力的大模型
3. RLVR 会更广泛地扩展到数学和代码以外的领域 （比如化学、生物等）
4. 传统 RAG 会逐渐不再是文档查询的默认解决方案。开发者会更多依赖更好的长上下文处理，尤其是随着更好的「小型」开源模型出现
5. 大量大模型 benchmark 和性能进展将来自改进的工具和推理时扩展，而非训练或核心模型本身 。看起来大模型在变得更好，但这主要是因为周围应用在改进

如果 2025 年有一个元教训，那就是大模型的进展不是关于单一突破

改进是通过多条独立路径在多个方面进行的：架构调整、数据质量改进、推理训练、推理扩展、工具调用

同时，评估仍然困难，benchmark 不完美，对何时以及如何使用这些系统的良好判断仍然至关重要