回看2025，AI的系统工程时刻：重构智能的底座与边界|大模型|智能体|模态|算法|系统工程时刻

本文摘自《云栖战略参考》，这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来，与思考同样问题的“数智先行者”共同探讨、碰撞，希望这些内容能让你有所启发。

文/阿里云研究院

站在2026年的节点回望，2025年无疑是人工智能发展史上的关键转折之年，在算力狂欢和参数规模的军备竞赛之后，人工智能技术开始全面扎根，经历了一场从单点突破向系统重构的深刻质变。

这一年，多模态技术走向成熟，超长上下文成为标配，智能体（Agent）开始尝试解决复杂的现实任务。但与此同时，效率瓶颈、路径分歧、成本压力与场景落地等深层次挑战也接踵而至。面对这些挑战，单纯依赖模型参数的堆叠已面临边际效益递减。我们清晰地看到，破解难题的钥匙，在于“系统工程”——即从底层基础设施到上层应用范式的全链路协同创新。不仅要追求更聪明的模型，更要构建更高效的算力、更严谨的逻辑、更安全的防线以及更自主的执行力。

正是在这种系统工程思维的指引下，阿里云对AI技术栈进行了全方位的重构与升级。在模型架构的底层革新、基础设施与训推体系的工业化升级、内生安全与指令遵循的可信构建、多模态感官的全面打通，以及智能体自主认知的范式跃迁等五大维度取得了系统性突破。本文将深度复盘这些关键技术进展，勾勒中国科技企业如何以系统工程思维，推动AI从技术验证迈向规模化产业应用的深水区。

架构重塑：打破认知的物理瓶颈

模型架构是AI的大脑结构，它定义了信息处理的效率上限。随着大模型进入长序列、多任务并行的深水区，传统架构在处理海量信息时面临着计算复杂度呈平方级增长、有效信息被淹没等本质难题。阿里云在2025年的一系列架构创新，旨在从根源上释放模型的认知潜力。

告别“注意力沉没”，重构信息筛选逻辑

注意力机制是Transformer的核心，但在处理长序列时，传统模型普遍存在“注意力沉没”现象——即模型倾向于过度关注序列开头的几个词，导致后续关键信息被忽略。这不仅浪费了宝贵的算力，更限制了模型对长文档的理解深度。

阿里云在NeurIPS 2025发表的研究中提出了门控注意力机制。它如同给模型的“眼睛”装上了一个智能且动态的“瞳孔”，能在计算注意力时实时过滤噪声。数据显示，该机制将平均每层对初始Token的无效关注比例从46.7%压缩至4.8%。这不仅大幅提升了计算的有效性，更让模型在长文档分析、代码库级编程等场景下的性能提升超过27%。

与此同时，为了解决超长序列带来的计算负担，阿里云在Qwen3-Next等模型中引入了线性注意力机制。通过数学分解将计算复杂度从二次方降低到线性，使得模型在处理数万乃至数十万Token时，内存占用和时延显著下降，使处理整本书级别的长文本变得既快又省。

释放MoE的专精潜力

混合专家模型（MoE）是提升模型容量的关键路径，但如何让成百上千个专家高效分工一直是行业难题。传统的负载平衡策略往往为了追求计算均匀，导致专家泛而不精。

阿里云创新性地提出了全局批次负载平衡策略。不再苛求每一个微小批次的数据都平均分配，而是着眼于全局数据的均衡。这种策略赋予了路由器更大的自由度，使得模型内部自发涌现出了清晰的专业化分工。结果显示，这种内生性的专业化，让模型在同等规模下获得了显著更强的知识深度与任务处理能力。

工业化闭环：基础设施、后训练与推理服务的协同进阶

如果说架构是设计图，那么基础设施、后训练与推理服务则构成了AI的流水线。只有这三个环节实现工业化级别的协同，AI才能打破“高成本、低效率”的诅咒，真正实现普惠。

基础设施：从盲测到精益制造与极致调度

在大模型研发与服务的全生命周期中，基础设施的效率直接决定了创新的成本。

在研发侧，试错成本是最大的拦路虎。阿里云研发的SimAI高精度训练模拟器，通过无缝接入主流框架，能以98.1%的对齐度在单机环境下模拟分布式训练的真实负载。这意味着，在动用昂贵的GPU集群前，架构师就能精准预测性能瓶颈，将硬件选型从经验驱动升级为数据驱动。而DataMan数据管理器，则实现了从数据源头到训练终点的智能化治理，仅用60%的高质量筛选数据即可达到全量训练效果。

在服务侧，资源调度的颗粒度决定了成本的下限。阿里云推出的Aegaeon多模型服务系统，是一次对云上资源利用率的极致挖掘。传统系统按请求调度，容易阻塞；Aegaeon则实现了“Token粒度”的自动扩缩容，允许GPU在生成一个Token的微小间隙即刻切换服务对象。结合高效的组件复用与内存管理，该系统将GPU资源池的利用率从不足34%提升至48%，在内部部署中显著减少了GPU需求，使得同时部署千百个模型成为经济可行的现实。

后训练：赋予模型逻辑与理性

预训练让模型获得了知识，但后训练才是决定其逻辑严密性的关键。阿里云在2025年推动了一场从结果导向到过程监督的范式革命。

针对复杂数学与逻辑任务，阿里云引入了过程级价值评估（PRM）。不同于只看最终答案，该机制能对推理链条的每一步进行审核。在Qwen数学模型的训练中，这种技术使其能精准定位微小的逻辑偏差，从而在极具挑战的AIME 2024大赛中成功解出21道难题，证明了AI从依靠概率猜测进化为具备严密推导能力的“理科生”。此外，针对MoE模型在强化学习中易发散的难题，GSPO（组序列策略优化）与CHORD动态协同机制提供了理论完备的解决方案。这些创新平衡了模仿专家与自我探索的关系，确保模型在不断进化的同时，不会遗忘已有的知识，实现了工业级可靠性的能力跃迁。

推理服务：测试时扩展与智能压缩技术的跃升

在模型落地环节，除了成本，性能与准确率的平衡同样关键。阿里云通过一系列算法创新，不仅让模型跑得快，更让模型在推理阶段能多想一步。

针对高精度需求，阿里云引入了测试时扩展（Test-Time Scaling）技术。这就好比让考生在考试时多花时间检查。而通过自截断N选优（ST-BoN）算法，模型在生成早期就能通过内部状态预判路径优劣，快速锁定最优解并截断其他路径。这种“早预判、早放弃”的策略，在相同计算成本下可将准确率提升3-4个百分点，且无需依赖额外的奖励模型。此外，TeaCache技术通过缓存视频生成中的冗余计算，实现了4.41倍的提速；而AsymKV非对称量化技术，则精准区分Key与Value的敏感度，大幅降低了长文本推理的显存占用。这些技术组合拳，构建了一个高性能、低成本的推理服务体系。

可信基石：内生安全与指令遵循的深度对齐

随着AI深入金融、医疗等关键领域，安全与听话变得比聪明更重要。阿里云不再满足于外挂式的过滤，而是深入模型机理，构建内生的免疫系统与精准的执行能力。

内生安全：解密“安全注意力头”与神经元级调控

安全不能是黑盒。阿里云研究团队在深入探究模型内部机理时发现，模型中存在特定的“安全注意力头（Safety Attention Heads）”。这些特殊的结构单元就像电路中的保险丝，在处理潜在风险内容时起着决定性的阻断作用。实验数据表明，仅移除模型中极小比例的关键安全头，就会导致模型的防御成功率大幅下降。基于这一发现，阿里云实现了神经元级的安全调控。在应用层，Qwen3Guard安全护栏系统引入了创新的三分类机制（安全、不安全、有争议），打破了非黑即白的僵化审核，让业务方能根据场景灵活定义边界。同时，STAIR框架赋予了模型三思而后行的内省能力，在回复高危问题前先进行思维链推理，分析用户意图与合规边界，显著提升了面对隐晦攻击时的防御力。

指令遵循：自我博弈下的极致执行

为了让模型更精准地执行复杂指令，阿里云推出了AutoIF自我博弈机制。针对代码生成与复杂任务规划中“静态数据不足以覆盖动态错误”的痛点，该机制引入了由模型主导的“生成-执行-验证”闭环。模型化身出题人与判卷人，通过生成代码并执行单元测试获取反馈，在没有人工标注的情况下自主进化。这种机制让Qwen模型在代码生成与复杂任务规划上的表现大幅提升。针对“写一首诗，不包含字母E，且每行字数相同”这类包含多重限制的苛刻指令，IOPO（输入-输出联合偏好优化）技术将优化的视野扩展到了输入-输出的联合空间。它迫使模型细致研读输入中的每一个约束条件，解决了长指令中的遗忘与顾此失彼问题。而SymDPO则通过符号化演示，解决了多模态少样本学习中的逻辑断层，让模型真正看懂演示中的规律。

全感融合：多模态理解与生成的双向奔赴

2025年，AI正在打通感知的任督二脉。阿里云在多模态领域的突破，不仅在于让AI看得见、听得清，更在于赋予其专业级的创造力，实现了从感知世界到创造世界的完整闭环。

理解：全双工交互与长时程细粒度感知

在交互体验上，Qwen3-Omni模型搭载了“Thinker-Talker”架构，通过MoE分工确保理解深度，并利用Talker模块实现了毫秒级的实时语音交互。这种全双工能力让AI能像人类一样插话、打断、共情，彻底改变了人机对话的节奏。

在深度感知上，针对多图推理和小时级长视频分析的痛点，mPLUG-Owl3引入了Hyper Attention（超注意力）模块。它在模型内部增加“图文交叉注意力”，与文字注意力并行工作，既不占用文字上下文空间，又能精准匹配问题需要的图像信息。这使得模型能轻松看懂2小时的电影，并精准回答关于细节的提问。而LLMDet则打破了目标检测的类别限制，利用大模型能力实现了对开放世界物体的精准识别，为具身智能提供了敏锐的眼睛。

生成：生产力工具的范式升级

生成不仅仅是娱乐，更是生产力。Wan视频大模型的升级发布，是视频生成工业化的里程碑。它创新性地采用了“4×8×8倍时空压缩”技术，统一了文生视频、图生视频与视频编辑任务，且1.3B轻量版让消费级显卡也能进行专业创作。针对视频中角色互动的难题，MIMO空间解耦技术将视频解构为角色、场景、遮挡物等独立层进行编码，终于解决了角色动作僵硬、互动失真的顽疾。在图像与3D领域，Qwen-Image攻克了中文复杂排版（如竖排、双语混排）的难题，ACE++框架则实现了基于自然语言的全能修图。AniGS与HybridGS技术的出现，让从单张照片生成可实时驱动的3D数字人、从充满动态干扰的视频中重建纯净3D场景成为现实。这些技术正在将内容产业从手工作坊推向智能制造，大幅降低了元宇宙与数字孪生的构建门槛。

自主进化：RAG与智能体的认知跃迁

如果说前述技术是AI的器官，那么RAG（检索增强生成）与智能体（Agent）则是其手脚。2025年，AI正在从被动问答走向主动探索，展现出更强的自主规划与社会适应力。

RAG：主动探索、逻辑内化与零成本训练

传统的搜索智能体训练依赖昂贵的商业API。阿里云提出的ZeroSearch打破了这一僵局，构建了一个虚拟检索环境，让模型通过自我博弈学会如何搜索、搜什么，将Search Agent的训练成本降低了数个数量级。

不仅如此，阿里云还致力于解决模型懂知识但不会用的问题。KG-SFT（知识图谱微调）技术将外部知识的严谨结构内化为模型的思维直觉，显著增强了模型在处理复杂知识时的逻辑操纵能力。同时，StructRAG与AirRAG赋予了模型在推理过程中动态重组信息结构、

利用蒙特卡洛树搜索（MCTS）进行战略规划的能力，让AI在面对海量碎片信息时不再迷失，而是能进行“三思而后行”的深度决策。

智能体：从工具到具备社会属性的数字劳动力

为了解决长周期调研任务，WebResearcher提出了一种迭代式研究范式。它将深度调研重构为马尔可夫决策过程，让Agent能像人类研究员一样，周期性整理中间报告，清理冗余上下文。这种机制赋予了Agent理论上无边界的信息吞吐能力，能连续进行数十轮深度搜索，产出逻辑连贯的万字深度研报。

在移动端，Mobile-Agent-v3引入了“反思者（Reflector）”模块，实时监控屏幕状态，具备了操作失败后的自我纠错能力。更有前瞻性的是GenSim社会模拟平台，它通过标准化的“档案-记忆-行动”架构，支持十万级智能体并发运行。我们在平台上成功复现了信息茧房、群体情绪传播等社会现象。这不仅证明了智能体群体的演化规律，更为政策推演、舆情分析及社会治理提供了一个可控、可复现的数字平行世界。

结语

2025年，是AI技术去伪存真、深蹲起跳的一年。回顾过去这一年的技术演进，我们看到的不仅是单点算法的突破，更是一幅波澜壮阔的系统工程画卷。从底层的注意力机制到上层的社会模拟，从极致的推理优化到内生的安全机理，阿里云正在用全栈技术的系统性整合，回答一个终极命题：如何将简单、经济、可靠的智能能力，真正赋予千行百业。

这其中，开源与普惠始终是贯穿其中的主线。截至目前，千问（Qwen）系列大模型全球累计下载量已突破10亿次，衍生模型数量超过20万个。这组庞大的数字背后，是一个由全球开发者共同参与、蓬勃生长的创新生态。这证明了真正伟大的技术突破，不仅闪耀于论文，更生长于开放创新、共塑产业升级的广阔实践之中。

本文核心观点与技术细节均提炼自最新发布的《阿里云年度AI技术进展》报告（点击获取）。

本文摘自《云栖战略参考》总第21期

扫码查看最新杂志