测试集发布之后,它就无效了

首先,感谢 minghao 老司机,阅篇无数,精准推荐

本文基于老司机推荐的年终盘点《The State Of LLMs 2025: Progress, Problems, and Predictions》

 https://magazine.sebastianraschka.com/p/state-of-llms-2025
打开网易新闻 查看精彩图片
https://magazine.sebastianraschka.com/p/state-of-llms-2025

这篇文章的原始作者叫 Raschka,长期在 Substack 输出技术内容。他的书被翻译成 9种 语言,被多所大学用作教材

以下这些,是他对 2025 年大模型领域的观察和判断,在这里我做了一些重写&删改

推理模型、RLVR 与 GRPO 之年

2025 年 1 月,DeepSeek R1 发布,带来两个简单但重要的发现:

  • • 模型先说思路再给答案,准确率更高

  • • 这种习惯,可以用强化学习养成

打开网易新闻 查看精彩图片
短回答 vs. 包含中间推理步骤的长回答 DeepSeek 时刻

R1 引发关注,原因有三

其一
R1 以开源权重发布,性能与当时最好的闭源模型相当

其二
R1 论文让投资者和媒体重新审视 2024 年 12 月的 DeepSeek V3 论文

结论被修正:训练顶级模型的成本可能接近 $500万,而非 $5000万$5亿

 DeepSeek V3 论文中的训练成本估算
打开网易新闻 查看精彩图片
DeepSeek V3 论文中的训练成本估算

R1 的补充材料显示:在 V3 基础上训练 R1,只需额外 $29.4万

 R1 训练成本估算
打开网易新闻 查看精彩图片
R1 训练成本估算

当然,$500万 只算了最终跑模型的算力,不包括研究人员薪资和实验成本

其三
论文同时提出了 RLVR + GRPO 这套新方法

此前不管是 SFT 还是 RLHF,都绑定在人工标注上,成本高、规模有限

RLVR 换了个思路:如果答案本身可以被验证,就不需要人来判断对错

数学和代码是最典型的场景,但这个逻辑可以延伸

打开网易新闻 查看精彩图片
强化学习应用时机概览
打开网易新闻 查看精彩图片
可验证奖励的简单示例

今年大模型开发基本被 RLVR 和 GRPO 主导。几乎每个主要玩家,都在 R1 之后发布了推理版本的模型

大模型发展重心演变

如果要简洁总结每年大模型开发的重点:

  • 2022 RLHF + PPO

  • 2023 LoRA SFT

  • 2024 中期训练

  • 2025 RLVR + GRPO

打开网易新闻 查看精彩图片
历年大模型开发的重点领域,这是累积的

那么下一步是什么?

Raschka 认为 2026 年会看到更多 RLVR 相关的工作。目前 RLVR 主要用在数学和代码上,下一步是扩展到其他领域

另一个方向是「解释评分」:不光看最终答案对不对,还要评判中间推理过程。这在过去叫「过程奖励模型」(PRM),但目前还不太成功

Raschka 对 2026、2027 的预判:

  • 2026 RLVR 扩展 + 更多推理时扩展

  • 2027 持续学习

推理时扩展的意思是:训练完之后,在生成答案时花更多时间和算力

这是一个权衡:延迟、成本、准确率之间的取舍。但在某些场景,准确率比延迟更重要,极端的推理扩展完全值得

比如 DeepSeekMath-V2 在数学竞赛基准上达到了金牌级表现

 两种推理时扩展方法的结合:自一致性和自优化
打开网易新闻 查看精彩图片
两种推理时扩展方法的结合:自一致性和自优化

持续学习是指在新数据上训练模型,不从头来。挑战是灾难性遗忘:学新东西会忘旧东西。今年同行讨论很多,但还没有实质性突破

2. GRPO:年度研究宠儿

在大模型昂贵的时代,学术研究不太好做。但仍能做出重要发现

近年典型例子:LoRA(2021)用于参数高效微调,DPO 用于无奖励模型对齐

打开网易新闻 查看精彩图片
基于代码的 LoRA 教程
打开网易新闻 查看精彩图片
基于代码的 DPO 教程

今年的亮点是 GRPO。虽然出自 DeepSeek R1 论文,但对研究者来说仍是激动人心的一年:RLVR 和 GRPO 概念上有趣,实验成本也还能接受

今年大模型文献中出现了很多 GRPO 的改进,后来被纳入顶级大模型的训练流程

Olmo 3 采用的改进:

零梯度信号过滤、主动采样、Token 级别损失、无 KL 损失、更高的裁剪阈值、截断重要性采样、无标准差归一化

DeepSeek V3.2 采用的改进:

领域特定 KL 强度的 KL 调优(数学为零)、重新加权的 KL、离策略序列掩码、保持 top-p / top-k 的采样掩码、保持原始 GRPO 优势归一化

Raschka 确认这些修改在实践中影响巨大。采用后,坏的更新不再破坏训练,不再需要定期重载检查点

 从零开始 GRPO 训练代码的部分结果 3. 大模型架构:分叉口?
打开网易新闻 查看精彩图片
从零开始 GRPO 训练代码的部分结果 3. 大模型架构:分叉口?

顶级模型仍然用经典的 Decoder 风格 Transformer

但今年,开源大模型基本趋同于:MoE(混合专家)层 + 至少一种效率优化的注意力机制(GQA、滑动窗口注意力或 MLA)

更激进的效率优化也出现了,目标是让注意力机制的复杂度随序列长度线性增长。比如 Qwen3-Next 和 Kimi Linear 中的 Gated DeltaNets,以及 NVIDIA Nemotron 3 中的 Mamba-2 层

 大模型架构大比较
打开网易新闻 查看精彩图片
大模型架构大比较

Raschka 的预测:至少在顶级性能方面,未来几年仍会继续用 Transformer

但效率和工程优化会越来越多,如 Gated DeltaNet 和 Mamba 层。在大模型的规模下,从财务角度看这是必然

替代方案也有。比如文本扩散模型,目前属于实验性。但 Google 宣布将发布 Gemini Diffusion 模型,不追求顶级建模质量,但会非常快,适合低延迟场景

两周前开源的 LLaDA 2.0 发布,最大的 1000亿 参数版本是迄今最大的文本扩散模型,与 Qwen3 30B 持平

4. 推理扩展和工具调用之年

通过扩展训练数据和架构来改进大模型,是一个持续有效的公式

但今年,这不再是唯一有效的方法

GPT 4.5(2025 年 2 月)就是例子。传言它比 GPT 4 大得多,但单纯扩展不是最明智的方向。GPT 4.5 的能力可能比 GPT 4 更好,但增加的训练预算被认为「性价比不高」

相反,更好的训练流程(更多关注中期和后训练)以及推理扩展,驱动了今年的大部分进展

另一个主要改进来自工具调用

幻觉是大模型最大的问题之一。幻觉率在持续改善,Raschka 认为这很大程度上归功于工具调用

比如被问到 1998 年世界杯谁赢了,大模型可以用搜索引擎查,从可靠网站抓取信息,而不是靠记忆

OpenAI 的 gpt-oss 是今年早些时候发布的专门为工具调用开发的开源模型之一

 gpt-oss 模型卡论文的表格
打开网易新闻 查看精彩图片
gpt-oss 模型卡论文的表格

遗憾的是,开源生态还没完全跟上,很多工具仍默认以非工具调用模式跑这些大模型

一个原因是这是新范式,工具需要适配。另一个原因是安全:给大模型不受限制的工具调用权限,可能出问题

Raschka 认为,未来几年本地跑大模型时启用工具调用会越来越普遍

5. 年度词汇:刷榜

如果要选一个描述今年大模型开发的词,那就是「刷榜」(benchmaxxing)

刷榜意味着强烈关注推高排行榜数字,有时到了 benchmark 表现本身成为目标的程度

典型例子是 Llama 4,在很多 benchmark 上得分极高。但用户和开发者上手后发现,这些分数并不反映实际能力

如果测试集是公开的,它就不是真正的测试集

现在的问题是,测试集数据不仅成为训练语料的一部分,还经常在大模型开发过程中被直接优化

 2019 年 Do ImageNet Classifiers Generalize to ImageNet? 论文的注释图
打开网易新闻 查看精彩图片
2019 年 Do ImageNet Classifiers Generalize to ImageNet? 论文的注释图

过去,即使公开测试集上的分数被夸大,至少模型排名还是保持的

在大模型开发中,这已经到了 benchmark 数字不再是性能可靠指标 的地步

但 Raschka 认为 benchmark 仍是必要门槛:如果一个大模型在某 benchmark 上得分低于 X,就知道它不行。但如果得分高于 X,这并不意味着它比另一个得分高于 X 的大模型好多少

另一个问题是:图像分类器只有一个任务。但大模型用于翻译、总结、写代码、头脑风暴、解数学题等等。评估起来复杂得多

除了在实践中尝试和不断生成新 benchmark,暂时没有解决方案

6. AI 用于编程、写作和研究

Raschka 把大模型视为给某些职业的人「超能力」的工具。用好的话,可以显著提高生产力,消除日常工作中的摩擦

编程

Raschka 仍然自己写大部分他关心的代码

比如设置一个大模型训练脚本,他会自己实现并仔细检查训练逻辑。这是为了确保它在做正确的事,同时保持自己在这个任务上的专长

但他现在用大模型来添加周围更琐碎的代码,比如 argparse 样板

 使用提示词「给 training-script.py 所有超参数选项添加 argparse」
打开网易新闻 查看精彩图片
使用提示词「给 training-script.py 所有超参数选项添加 argparse」

他也越来越依赖大模型来发现问题、建议改进或检验想法

大模型对核心专长以外的任务极其有价值。他最近写了工具来提取和备份 Substack 文章为 Markdown,大模型还帮他清理了网站的 CSS

诀窍是识别何时用、何时不用

代码库

大模型写代码越来越好了,但 Raschka 不认为代码会变得短暂或过时

大模型给人们超能力来生成某些编程项目。但纯大模型生成的代码库,不能取代专家精心打造的代码库

一个了解好的设计模式和权衡、研究过、见过、构建过很多平台的专家全栈 Web 开发者,能够构建比一个随机人员提示大模型更好的平台

精彩的是:现在一个随机人员也能构建一个平台,即使不是最好的

但用大模型只能走这么远,平台质量可能会停滞

技术写作和研究

Raschka 不认为大模型会让技术写作过时

写一本好的技术书需要数千小时和对主题的深刻熟悉。核心工作仍然依赖人类的判断和专业知识

 大模型帮 Raschka 在之前的文章中发现并修复错误
打开网易新闻 查看精彩图片
大模型帮 Raschka 在之前的文章中发现并修复错误

从读者角度,用大模型学习一个话题对快速问题和入门级解释效果不错。但当你想建立更深层理解时,这种方法很快变得混乱

到那时,不如跟随专家设计的结构化学习路径

也许经验法则是:

  • • 如果这篇文章完全由人类生成,它本可以进一步改进

  • • 如果这篇文章可以仅通过提示大模型生成,那它可能不够新颖和深入

大模型与倦怠

Raschka 认为有一个较少被讨论的缺点:如果模型做所有事情而人类主要是监督,工作可能开始感觉空洞

有些人喜欢专注于管理系统和编排工作流。但对于喜欢亲自动手做事的人,这种工作模式可能加速倦怠

与一个难题搏斗最终看到它成功,有一种特殊的满足感。当大模型一次搞定答案时,没有同样的感觉

也许一个类比是国际象棋

国际象棋引擎几十年前就超过了人类棋手,但人类玩的职业国际象棋仍然活跃且繁荣

现代棋手用 AI 来探索不同想法、挑战直觉、以前所未有的深度分析错误

这是思考 AI 在其他智力工作中如何使用的有用模型

用得好,AI 可以加速学习、扩展单个人能合理承担的范围。应该更多地把它当作伙伴而不是替代品

但如果 AI 被用来完全外包思考和编程,它有破坏动机和长期技能发展的风险

 大模型降低了入门门槛,让程序员更有生产力 7. 优势:私有数据
打开网易新闻 查看精彩图片
大模型降低了入门门槛,让程序员更有生产力 7. 优势:私有数据

大模型的通用编程、知识问答和写作能力在持续提升

这很大程度上是因为扩展仍然带来正向投资回报

但这在某个时候会开始停滞,除非不断发明新的训练方法和架构

大模型目前能解决很多通用任务和相对容易的问题。但要在某些行业深入扎根,需要更多领域专业化

大模型提供商很想获得高质量的领域专用数据。目前看来这将是一个挑战

大多数被接洽的公司都拒绝了数据交易,正是因为数据是专有的、是其业务差异化的核心

把有价值的专有数据卖给 OpenAI 或 Anthropic,可能有点短视

 有用的行业和数据类型示例
打开网易新闻 查看精彩图片
有用的行业和数据类型示例

目前大模型开发在规模上成本高昂且有挑战,这就是为什么只有少数大公司开发顶级大模型

但 Raschka 认为大模型开发正变得越来越商品化

大模型开发者频繁在雇主之间轮换,最终会被更大的金融机构、生物技术公司等有预算的企业雇用,开发受益于其私有数据的内部大模型

这些大模型甚至不需要完全从头训练;许多顶级大模型如 DeepSeek V3.2、Kimi K2 和 GLM 4.7 正在发布,可以被适配和进一步后训练

8. 2025 年的意外与 2026 年预测 2025 年值得注意的意外

  1. 1. 几个推理模型已在主要数学竞赛中达到金牌水平(OpenAI 的一个未命名模型、Gemini Deep Think、开源的 DeepSeekMath-V2)。Raschka 不惊讶这发生,但惊讶这在 2025 年就发生了,而不是 2026 年

  2. 2. Llama 4(或整个 Llama 系列)在开源社区几乎完全失宠,Qwen 在流行度上超过了 Llama

  3. 3. Mistral AI 在其最新旗舰 Mistral 3 模型中用了 DeepSeek V3 架构(2025 年 12 月宣布)

  4. 4. 除了 Qwen3 和 DeepSeek R1/V3.2,开源顶级模型竞赛中出现了许多其他竞争者:Kimi、GLM、MiniMax、Yi

  5. 5. 更便宜、高效的混合架构已成为领先实验室的更大优先级(Qwen3-Next、Kimi Linear、Nemotron 3),而不是由独立实验室开发

  6. 6. OpenAI 发布了开源权重模型(gpt-oss)

  7. 7. MCP 已成为 Agent 风格大模型系统中工具和数据访问的标准。Raschka 预期生态系统在 2025 年会保持更碎片化,至少到 2026 年

2026 年预测
  1. 1. 很可能会看到一个工业规模的、面向消费者的扩散模型,用于廉价、可靠、低延迟的推理,Gemini Diffusion 可能会先行

  2. 2. 开源社区会缓慢但稳定地采用本地工具调用和越来越多 Agent 能力的大模型

  3. 3. RLVR 会更广泛地扩展到数学和代码以外的领域 (比如化学、生物等)

  4. 4. 传统 RAG 会逐渐不再是文档查询的默认解决方案。开发者会更多依赖更好的长上下文处理,尤其是随着更好的「小型」开源模型出现

  5. 5. 大量大模型 benchmark 和性能进展将来自改进的工具和推理时扩展,而非训练或核心模型本身 。看起来大模型在变得更好,但这主要是因为周围应用在改进

如果 2025 年有一个元教训,那就是大模型的进展不是关于单一突破

改进是通过多条独立路径在多个方面进行的:架构调整、数据质量改进、推理训练、推理扩展、工具调用

同时,评估仍然困难,benchmark 不完美,对何时以及如何使用这些系统的良好判断仍然至关重要

 新年快乐
打开网易新闻 查看精彩图片
新年快乐