智通财经APP获悉,中金发布研报称,2025年全球大模型技术能力向前演进,逐步攻克生产力场景,在推理、编程、Agentic以及多模态等能力方向取得明显进步,但模型通用能力在稳定性、幻觉率等方面仍存在短板。展望2026年,该行认为大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破,从短context生成到长思维链任务,从文本交互到原生多模态,并向实现AGI长期目标更进一步。

中金主要观点如下:

该行预计2026年预训练Scaling-Law重现,旗舰模型参数量更上一个台阶

架构方面,基于Transformer的模型架构延续,平衡性能与效率的MoE成为共识,不同注意力机制路线仍在优化与切换。范式方面,预训练阶段Scaling-Law+高质量数据+强化学习将共同提高模型能力。2026年期待之一就是随着英伟达GB系列芯片成熟及推广,模型将基于更高性能的万卡集群在预训练阶段Scaling-Law,模型参数量和智能上限都将进一步提升。

强化学习重要性提升,成为解锁模型高级能力的关键

强化学习的引入提高了模型的智能上限,让模型可以更有逻辑、更符合人类偏好进行思考和推理,其本质是“自我生成数据+多轮迭代”,强化学习的关键在于大规模算力+高质量数据。海外OpenAI、Gemini等模型厂商对于强化学习非常重视,国内DeepSeek、阿里千问等也在跟进,该行预计2026年海内外模型厂商强化学习占比将进一步提升。

持续学习、模型记忆、世界模型等新路线将迎来核心突破

持续学习和模型记忆本质上是解决大模型“灾难性遗忘”问题,让模型具备选择性记忆机制。Google提出的Titans、MIRAS、Nested Learning等算法和架构核心是让模型可以根据任务的时间跨度和重要性动态调整学习和记忆的方式,从而实现持续学习甚至终身学习。此外,聚焦理解物理世界因果规律的世界模型在Genie 3和Marble等不同模型路径的探索下具备突破机遇。

风险

技术迭代不及预期;现有模型架构和训练范式被颠覆。