打开网易新闻 查看精彩图片

图源:LMArena官网

打开网易新闻 查看精彩图片

纯数学推理(AIME26)和通用知识问答(MMLU-Pro)在四款模型中均排名末位,与头部模型差距相对明显。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

以下是我们的完整体验过程:

指令一:请为一个悬疑故事写出前三章大纲,每章150字左右。

打开网易新闻 查看精彩图片

总体来看这个悬疑故事的大纲挺完整,叙事结构比较规整,逻辑层次也清晰。人物行动动机比较合理,线索设置具象可落地,最后的身份反转颠覆感比较强,伏笔呼应也相对完整。不过,与现在市面上的流行的悬疑推理小说还有一定差距,对于模型本身来讲,这个水准还不错。

打开网易新闻 查看精彩图片

可以看到,第二篇在切入点、恐怖感上更有新意。对于短篇惊悚故事,这篇的“循环替身”更适合直接收尾,有《恐怖游轮》的循环压迫感。不过普通租客为何能查物业记录这一点可能是个bug。

指令二:写一篇500-600字的科幻微小说。

打开网易新闻 查看精彩图片

对于常读同类科幻故事的读者来说,剧情走向和结局伏笔可能略显套路化,缺少出人意料的设定创新。

打开网易新闻 查看精彩图片

从情感共鸣和叙事感染力看,第一篇相对更好。从科幻构思的新颖度和哲学深度看,第二篇略胜一筹。

案例二:给高考数学题,看它能不能按步骤算明白

用户在使用AI解决数学问题时,痛点比较明确:怕AI没有逻辑硬算,也担心AI编造解题步骤和错误答案。

题目为:一个箱子里有5个球,分别以1~5标号,若有放回取三次,记至少取出一次的球的个数为X,则E(X)为?

打开网易新闻 查看精彩图片

案例三:问两款大模型怎么选,看它能不能替普通人做信息整合

问题为:我想了解DeepSeek-V4-Pro、Claude-Opus-4.6到底各有什么强项和短板,普通人该怎么选、各自适合拿来干什么。

打开网易新闻 查看精彩图片

同时贴合了普通人使用习惯,做成表格对比、场景匹配、分人群推荐,最后还点明两款模型的隐藏短板和使用误区,给到务实的组合使用建议。

案例四:电子表格与职场数据分析能力测试

需求为:我是门店运营,统计了本店10名销售人员的当月个人成交业绩:12.3万、18.6万、9.2万、25.8万、16.5万、11.8万、20.4万、8.7万、22.1万、14.6万。

你按照Excel分析数据帮我处理:整理成规范员工业绩数据表,计算全员业绩平均值、中位数,筛选出业绩高于平均值的优秀员工,最后结合整体数据做简单的团队绩效分析。

于是我们再调整指令为:把这些数据仅用同一张表格来显示。

打开网易新闻 查看精彩图片

案例五:

打开网易新闻 查看精彩图片

要求:

-玩家可进行跳跃、二段跳和下滑

-地图自动向前滚动,包含屋顶缺口、广告牌、电箱、无人机等障碍

-路上有可收集的能量电池和金币

-玩家可以拾取临时道具,例如护盾、加速和磁铁吸附

-敌人为巡逻无人机和机械警卫,碰撞后会扣血-分数根据生存时间、移动距离和收集物计算-淑戏失败后可重新开始

-需要有开始界面、暂停功能和简单UI(血量、分数、速度)

打开网易新闻 查看精彩图片

针对第二个指令,该模型耗时3分钟生成600余行代码,但无法打开,界面一片漆黑。可见,该模型在复杂游戏编程代码可运行性上仍存在明显短板。

其背后的主要技术更新,是一套叫Once-for-All的弹性训练方法。

打开网易新闻 查看精彩图片

首先是分离式架构。以前训练、推理、奖励计算、智能体循环四个环节耦合在一起,一个环节慢了会拖累整个系统。

现在百度将它们完全拆开,各自独立部署、独立扩缩容。比如推理算力不够就只扩推理,不用动其他模块。各模块之间通过高性能网络传数据,控制流和数据流分开,流水线可以重叠执行,训练整体耗时更短。

其次是FP8训推方面。由于模型训练时和推理时用的精度不一致,会导致效果下降,尤其在MoE结构里路由偏差更明显。

传统大语言模型的后训练是串行流程:先做监督微调(SFT),再做多阶段混合强化学习。

这种方式存在两个问题:一是慢,一个阶段等一个阶段拖慢整体迭代;二是能力会“打架”,想在一次训练里同时提升代码、推理、对话等多个能力,往往提升一个另一个就下降。

第一阶段统一SFT。先用高质量的多领域指令数据做一次基础微调,让模型具备基本的指令遵循和工具调用能力,作为后续能力扩展的起点。

第二个阶段,并行训练多个领域的专家模型,比如对代码、推理、智能体等方向分别独立训练。每个方向用自己专属的奖励信号和算法,互相不干扰。

第三个阶段是在线策略蒸馏(OPD)。把上一步训练好的多个专家模型当老师,统一SFT模型当学生。学生按照自己的策略采样,通过token级KL方法同时学习多个老师的能力,把不同专家的能力融合进同一个模型里。

最后是通用在线强化学习。并不是所有任务都适合用蒸馏来融合,比如开放式聊天、创意写作这类高熵分布的任务,蒸馏反而效率低,输出会变得过于平滑。所以这类任务不做蒸馏,而是在蒸馏后的模型上单独做在线强化学习,保证对话多样性、指令遵循能力和人类偏好对齐。

可以简单总结为,代码、推理这类确定性强的能力,通过蒸馏从专家模型融进主模型;聊天、写作这类需要多样性的能力不适合蒸馏,单独做强化学习。两套方式配合,既缩短了训练周期,又避免了能力互相拖累。

打开网易新闻 查看精彩图片

纵观行业,主流模型逐渐呈现能力差异化、使用场景分层化的发展趋势。对普通用户而言,成熟的基础模型能够降低内容创作、问题解答、数据整理的门槛,提升日常使用效率;对技术厂商而言,低成本、高性能的迭代方案,也将为国产大模型轻量化落地、规模化应用提供了可行路径。