本文摘自《云栖战略参考》,这本刊物由阿里云与钛媒体联合策划。目的是为了把各个行业先行者的技术探索、业务实践呈现出来,与思考同样问题的“数智先行者”共同探讨、碰撞,希望这些内容能让你有所启发。
文/阿里云研究院
站在2026年的节点回望,2025年无疑是人工智能发展史上的关键转折之年,在算力狂欢和参数规模的军备竞赛之后,人工智能技术开始全面扎根,经历了一场从单点突破向系统重构的深刻质变。
这一年,多模态技术走向成熟,超长上下文成为标配,智能体(Agent)开始尝试解决复杂的现实任务。但与此同时,效率瓶颈、路径分歧、成本压力与场景落地等深层次挑战也接踵而至。面对这些挑战,单纯依赖模型参数的堆叠已面临边际效益递减。我们清晰地看到,破解难题的钥匙,在于“系统工程”——即从底层基础设施到上层应用范式的全链路协同创新。不仅要追求更聪明的模型,更要构建更高效的算力、更严谨的逻辑、更安全的防线以及更自主的执行力。
正是在这种系统工程思维的指引下,阿里云对AI技术栈进行了全方位的重构与升级。在模型架构的底层革新、基础设施与训推体系的工业化升级、内生安全与指令遵循的可信构建、多模态感官的全面打通,以及智能体自主认知的范式跃迁等五大维度取得了系统性突破。本文将深度复盘这些关键技术进展,勾勒中国科技企业如何以系统工程思维,推动AI从技术验证迈向规模化产业应用的深水区。
架构重塑:打破认知的物理瓶颈
模型架构是AI的大脑结构,它定义了信息处理的效率上限。随着大模型进入长序列、多任务并行的深水区,传统架构在处理海量信息时面临着计算复杂度呈平方级增长、有效信息被淹没等本质难题。阿里云在2025年的一系列架构创新,旨在从根源上释放模型的认知潜力。
告别“注意力沉没”,重构信息筛选逻辑
注意力机制是Transformer的核心,但在处理长序列时,传统模型普遍存在“注意力沉没”现象——即模型倾向于过度关注序列开头的几个词,导致后续关键信息被忽略。这不仅浪费了宝贵的算力,更限制了模型对长文档的理解深度。
阿里云在NeurIPS 2025发表的研究中提出了门控注意力机制。它如同给模型的“眼睛”装上了一个智能且动态的“瞳孔”,能在计算注意力时实时过滤噪声。数据显示,该机制将平均每层对初始Token的无效关注比例从46.7%压缩至4.8%。这不仅大幅提升了计算的有效性,更让模型在长文档分析、代码库级编程等场景下的性能提升超过27%。
与此同时,为了解决超长序列带来的计算负担,阿里云在Qwen3-Next等模型中引入了线性注意力机制。通过数学分解将计算复杂度从二次方降低到线性,使得模型在处理数万乃至数十万Token时,内存占用和时延显著下降,使处理整本书级别的长文本变得既快又省。
释放MoE的专精潜力
混合专家模型(MoE)是提升模型容量的关键路径,但如何让成百上千个专家高效分工一直是行业难题。传统的负载平衡策略往往为了追求计算均匀,导致专家泛而不精。
阿里云创新性地提出了全局批次负载平衡策略。不再苛求每一个微小批次的数据都平均分配,而是着眼于全局数据的均衡。这种策略赋予了路由器更大的自由度,使得模型内部自发涌现出了清晰的专业化分工。结果显示,这种内生性的专业化,让模型在同等规模下获得了显著更强的知识深度与任务处理能力。
工业化闭环:基础设施、后训练与推理服务的协同进阶
如果说架构是设计图,那么基础设施、后训练与推理服务则构成了AI的流水线。只有这三个环节实现工业化级别的协同,AI才能打破“高成本、低效率”的诅咒,真正实现普惠。
基础设施:从盲测到精益制造与极致调度
在大模型研发与服务的全生命周期中,基础设施的效率直接决定了创新的成本。
在研发侧,试错成本是最大的拦路虎。阿里云研发的SimAI高精度训练模拟器,通过无缝接入主流框架,能以98.1%的对齐度在单机环境下模拟分布式训练的真实负载。这意味着,在动用昂贵的GPU集群前,架构师就能精准预测性能瓶颈,将硬件选型从经验驱动升级为数据驱动。而DataMan数据管理器,则实现了从数据源头到训练终点的智能化治理,仅用60%的高质量筛选数据即可达到全量训练效果。
在服务侧,资源调度的颗粒度决定了成本的下限。阿里云推出的Aegaeon多模型服务系统,是一次对云上资源利用率的极致挖掘。传统系统按请求调度,容易阻塞;Aegaeon则实现了“Token粒度”的自动扩缩容,允许GPU在生成一个Token的微小间隙即刻切换服务对象。结合高效的组件复用与内存管理,该系统将GPU资源池的利用率从不足34%提升至48%,在内部部署中显著减少了GPU需求,使得同时部署千百个模型成为经济可行的现实。
后训练:赋予模型逻辑与理性
预训练让模型获得了知识,但后训练才是决定其逻辑严密性的关键。阿里云在2025年推动了一场从结果导向到过程监督的范式革命。
针对复杂数学与逻辑任务,阿里云引入了过程级价值评估(PRM)。不同于只看最终答案,该机制能对推理链条的每一步进行审核。在Qwen数学模型的训练中,这种技术使其能精准定位微小的逻辑偏差,从而在极具挑战的AIME 2024大赛中成功解出21道难题,证明了AI从依靠概率猜测进化为具备严密推导能力的“理科生”。此外,针对MoE模型在强化学习中易发散的难题,GSPO(组序列策略优化)与CHORD动态协同机制提供了理论完备的解决方案。这些创新平衡了模仿专家与自我探索的关系,确保模型在不断进化的同时,不会遗忘已有的知识,实现了工业级可靠性的能力跃迁。
推理服务:测试时扩展与智能压缩技术的跃升
在模型落地环节,除了成本,性能与准确率的平衡同样关键。阿里云通过一系列算法创新,不仅让模型跑得快,更让模型在推理阶段能多想一步。
针对高精度需求,阿里云引入了测试时扩展(Test-Time Scaling)技术。这就好比让考生在考试时多花时间检查。而通过自截断N选优(ST-BoN)算法,模型在生成早期就能通过内部状态预判路径优劣,快速锁定最优解并截断其他路径。这种“早预判、早放弃”的策略,在相同计算成本下可将准确率提升3-4个百分点,且无需依赖额外的奖励模型。此外,TeaCache技术通过缓存视频生成中的冗余计算,实现了4.41倍的提速;而AsymKV非对称量化技术,则精准区分Key与Value的敏感度,大幅降低了长文本推理的显存占用。这些技术组合拳,构建了一个高性能、低成本的推理服务体系。
可信基石:内生安全与指令遵循的深度对齐
随着AI深入金融、医疗等关键领域,安全与听话变得比聪明更重要。阿里云不再满足于外挂式的过滤,而是深入模型机理,构建内生的免疫系统与精准的执行能力。
内生安全:解密“安全注意力头”与神经元级调控
安全不能是黑盒。阿里云研究团队在深入探究模型内部机理时发现,模型中存在特定的“安全注意力头(Safety Attention Heads)”。这些特殊的结构单元就像电路中的保险丝,在处理潜在风险内容时起着决定性的阻断作用。实验数据表明,仅移除模型中极小比例的关键安全头,就会导致模型的防御成功率大幅下降。基于这一发现,阿里云实现了神经元级的安全调控。在应用层,Qwen3Guard安全护栏系统引入了创新的三分类机制(安全、不安全、有争议),打破了非黑即白的僵化审核,让业务方能根据场景灵活定义边界。同时,STAIR框架赋予了模型三思而后行的内省能力,在回复高危问题前先进行思维链推理,分析用户意图与合规边界,显著提升了面对隐晦攻击时的防御力。
指令遵循:自我博弈下的极致执行
为了让模型更精准地执行复杂指令,阿里云推出了AutoIF自我博弈机制。针对代码生成与复杂任务规划中“静态数据不足以覆盖动态错误”的痛点,该机制引入了由模型主导的“生成-执行-验证”闭环。模型化身出题人与判卷人,通过生成代码并执行单元测试获取反馈,在没有人工标注的情况下自主进化。这种机制让Qwen模型在代码生成与复杂任务规划上的表现大幅提升。针对“写一首诗,不包含字母E,且每行字数相同”这类包含多重限制的苛刻指令,IOPO(输入-输出联合偏好优化)技术将优化的视野扩展到了输入-输出的联合空间。它迫使模型细致研读输入中的每一个约束条件,解决了长指令中的遗忘与顾此失彼问题。而SymDPO则通过符号化演示,解决了多模态少样本学习中的逻辑断层,让模型真正看懂演示中的规律。
全感融合:多模态理解与生成的双向奔赴
2025年,AI正在打通感知的任督二脉。阿里云在多模态领域的突破,不仅在于让AI看得见、听得清,更在于赋予其专业级的创造力,实现了从感知世界到创造世界的完整闭环。
理解:全双工交互与长时程细粒度感知
在交互体验上,Qwen3-Omni模型搭载了“Thinker-Talker”架构,通过MoE分工确保理解深度,并利用Talker模块实现了毫秒级的实时语音交互。这种全双工能力让AI能像人类一样插话、打断、共情,彻底改变了人机对话的节奏。
在深度感知上,针对多图推理和小时级长视频分析的痛点,mPLUG-Owl3引入了Hyper Attention(超注意力)模块。它在模型内部增加“图文交叉注意力”,与文字注意力并行工作,既不占用文字上下文空间,又能精准匹配问题需要的图像信息。这使得模型能轻松看懂2小时的电影,并精准回答关于细节的提问。而LLMDet则打破了目标检测的类别限制,利用大模型能力实现了对开放世界物体的精准识别,为具身智能提供了敏锐的眼睛。
生成:生产力工具的范式升级
生成不仅仅是娱乐,更是生产力。Wan视频大模型的升级发布,是视频生成工业化的里程碑。它创新性地采用了“4×8×8倍时空压缩”技术,统一了文生视频、图生视频与视频编辑任务,且1.3B轻量版让消费级显卡也能进行专业创作。针对视频中角色互动的难题,MIMO空间解耦技术将视频解构为角色、场景、遮挡物等独立层进行编码,终于解决了角色动作僵硬、互动失真的顽疾。在图像与3D领域,Qwen-Image攻克了中文复杂排版(如竖排、双语混排)的难题,ACE++框架则实现了基于自然语言的全能修图。AniGS与HybridGS技术的出现,让从单张照片生成可实时驱动的3D数字人、从充满动态干扰的视频中重建纯净3D场景成为现实。这些技术正在将内容产业从手工作坊推向智能制造,大幅降低了元宇宙与数字孪生的构建门槛。
自主进化:RAG与智能体的认知跃迁
如果说前述技术是AI的器官,那么RAG(检索增强生成)与智能体(Agent)则是其手脚。2025年,AI正在从被动问答走向主动探索,展现出更强的自主规划与社会适应力。
RAG:主动探索、逻辑内化与零成本训练
传统的搜索智能体训练依赖昂贵的商业API。阿里云提出的ZeroSearch打破了这一僵局,构建了一个虚拟检索环境,让模型通过自我博弈学会如何搜索、搜什么,将Search Agent的训练成本降低了数个数量级。
不仅如此,阿里云还致力于解决模型懂知识但不会用的问题。KG-SFT(知识图谱微调)技术将外部知识的严谨结构内化为模型的思维直觉,显著增强了模型在处理复杂知识时的逻辑操纵能力。同时,StructRAG与AirRAG赋予了模型在推理过程中动态重组信息结构、
利用蒙特卡洛树搜索(MCTS)进行战略规划的能力,让AI在面对海量碎片信息时不再迷失,而是能进行“三思而后行”的深度决策。
智能体:从工具到具备社会属性的数字劳动力
为了解决长周期调研任务,WebResearcher提出了一种迭代式研究范式。它将深度调研重构为马尔可夫决策过程,让Agent能像人类研究员一样,周期性整理中间报告,清理冗余上下文。这种机制赋予了Agent理论上无边界的信息吞吐能力,能连续进行数十轮深度搜索,产出逻辑连贯的万字深度研报。
在移动端,Mobile-Agent-v3引入了“反思者(Reflector)”模块,实时监控屏幕状态,具备了操作失败后的自我纠错能力。更有前瞻性的是GenSim社会模拟平台,它通过标准化的“档案-记忆-行动”架构,支持十万级智能体并发运行。我们在平台上成功复现了信息茧房、群体情绪传播等社会现象。这不仅证明了智能体群体的演化规律,更为政策推演、舆情分析及社会治理提供了一个可控、可复现的数字平行世界。
结语
2025年,是AI技术去伪存真、深蹲起跳的一年。回顾过去这一年的技术演进,我们看到的不仅是单点算法的突破,更是一幅波澜壮阔的系统工程画卷。从底层的注意力机制到上层的社会模拟,从极致的推理优化到内生的安全机理,阿里云正在用全栈技术的系统性整合,回答一个终极命题:如何将简单、经济、可靠的智能能力,真正赋予千行百业。
这其中,开源与普惠始终是贯穿其中的主线。截至目前,千问(Qwen)系列大模型全球累计下载量已突破10亿次,衍生模型数量超过20万个。这组庞大的数字背后,是一个由全球开发者共同参与、蓬勃生长的创新生态。这证明了真正伟大的技术突破,不仅闪耀于论文,更生长于开放创新、共塑产业升级的广阔实践之中。
本文核心观点与技术细节均提炼自最新发布的《阿里云年度AI技术进展》报告(点击获取)。
本文摘自《云栖战略参考》总第21期
扫码查看最新杂志
热门跟贴