AI 的竞争继续白热火,但衡量 AI 实力的标准也在发生微妙的变化:不只是训练算力和模型的参数规模,更要看 AI 在复杂应用场景中,能不能像人一样思考与行动。

1 月 30 日,千问 C 端应用团队宣布,其四篇人工智能领域研究论文正式入选 2026 国际学习表征会议(ICLR 2026)。

打开网易新闻 查看精彩图片

图片来源:阿里

作为机器学习领域公认的三大顶级会议之一,ICLR 的入选难度本身就高,今年 ICLR 2026 的竞争之激烈更可以用「惨烈」来形容。本届会议投稿量超过 1.9 万篇,再次刷新纪录。然而,投稿数量暴增的同时,平均得分却出现了滑坡,28.18% 的录用率更是创下近年新低。

在严苛的筛选机制下,千问团队能够连中四元,不仅证明了其科研成果在理论层面的前瞻性,更体现了其研究方向与当下行业急需解决的「可靠性、可用性」高度契合。

这次入选的四篇论文,核心逻辑非常一致,都是让 AI 在复杂场景下更加聪明、可靠、实用:

1. 不再是「抽盲盒」:提高扩散模型稳定性
2. 学会「主动问诊」:多轮对话决策的突破
3. AI 自我进化:无需人工标注的检索验证
4. 拒绝「废话文学」:模型价值观对齐的新思路

目前的 AI 生成(如绘图或长文)有时像抽盲盒,输出质量忽高忽低。千问团队在关于扩散语言模型(Diffusion Models)的研究中,针对 dLLM 掩码训练的不稳定性,提出了一套帕累托最优的无偏训练算法。

根据公开介绍,算法显著降低了 dLLM 训练波动,提升了图文生成质量。这意味着未来的内容生成工具将进一步告别「神经质」,输出结果也会更加符合预期。

另一方面,现在的 AI 助手有些「被动」,问一句答一句,这种沟通效率在医疗咨询等专业领域极低。而围绕医疗多轮对话中的复杂推理任务,千问团队提出了自适应树策略优化(ATPO)方法,让 AI 根据对话的不确定性动态调整决策路径。

简言之,AI 学会了「主动追问」。当信息不足时,它会精准提问获取关键信息;线索清晰时则快速给出判断。这让 AI 助手在复杂咨询场景中像经验丰富的专业人士一样,只问关键问题,避免无效对话。

此外,千问团队还打造了「提问—解答—验证」的自博弈强化学习框架,让 AI 在不需要额外人工标注的情况下,能实现自我核验与进化。在学习辅助、研究支持等知识密集型场景中,AI 能够自主核实资料,表现得更为可靠。

同时团队引入了信息论偏见消除方法,引导奖励模型关注真正与人类偏好相关的信号。相比过去为了迎合人类偏好,很多模型学会了写冗长但空洞的套话,这能有效减少冗长、格式化但信息密度低的输出,让 AI 更关注能帮助用户的核心要点,避免出现「废话文学」。

更重要的是,千问团队这次在 ICLR 2026 的表现,其实也释放了一个明确的信号:大模型的竞争重心已经悄然转移。

打开网易新闻 查看精彩图片

图片来源:雷科技

早期的竞争是暴力的,比拼的是参数规模和算力堆叠。但过去一年,行业内其实在逐步形成共识,竞争正从「参数规模」转向「算法深度与工程实效」。单纯的大已经不再代表强,真正的核心竞争力在于,谁能在基础算法上进行更系统性的探索,谁能把 AI 真正带入复杂、高频的实际应用场景中。

值得注意的是,此次千问团队入选的四篇论文相关代码均已开源。通过开放核心技术细节,这种「以应用导向研究」的模式,或许能为整个行业在提升 AI 可靠性方面提供新的范式。