“算力是引擎,而基础设施是基石。当AI浪潮从大模型走向千行百业,我们面临的课题不仅是把引擎造得更大,而是如何让它转得更准。”

11月20日的2025AI容器应用落地与发展论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士为这场关于“算力效率”的革命定下了基调。当日,华为联合上海交通大学、西安交通大学与厦门大学,正式发布并开源了AI容器技术——Flex:ai。

打开网易新闻 查看精彩图片

这不仅仅是一款软件的发布,一定程度上,意味着中国AI算力产业正在经历一次从“粗放扩张”到“精细治理”的范式转移。

论坛期间,华为2012实验室理论研究部首席研究员张弓打了一个比方,在上海浦东机场的早高峰,如果你早晨六点半就被堵在路上,那并非因为那是一条狭窄的小路,而是因为所有人都在同一时刻涌向了同一个终点。

这精准地刺痛了当前AI产业最尴尬的现状:一边是企业对GPU/NPU算力卡的饥渴,导致硬件价格飞涨、供不应求;另一边,是昂贵的算力资源在数据中心里大面积闲置。数据显示,全球AI算力资源的平均利用率甚至不足40%。

告别“千卡万卡”的盲目崇拜

过去两年,科技界沉迷于参数的竞赛——万亿级参数、万卡集群成为了企业实力的代名词。然而,当周跃峰将视线投向医疗、制造等实体行业时,他看到了截然不同的景象。

“一家三甲医院的某个科室,可能只需要8张卡,最多16张卡来进行病理切片的AI辅助诊断。他们不需要万卡集群,但他们面临的问题同样棘手。”周跃峰指出。

在这些场景中,“算力浪费”是隐形的杀手。传统的算力调度模式是“独占式”的:一个小型的推理任务往往会占用整张昂贵的算力卡,导致大量资源闲置;而在通用服务器上,由于缺乏专门的NPU,算力又处于“休眠”状态。这种供需错配,就像是一个人占了一辆大巴车去买菜,而旁边还有一百个人在排队等车。

Flex:ai的出现,正是为了解决这种“算力交通堵塞”。作为基于Kubernetes构建的XPU池化与调度软件,它通过开源开放的方式,试图打破硬件资源的物理边界。

算力虚拟化的“三把手术刀”

如何让僵化的硬件“流动”起来?华为与三所顶尖高校的合作,为Flex:ai打造了三把精细的“手术刀”。

第一把刀是“精准切分”,由华为与上海交通大学联合打磨。上海交通大学软件学院戚正伟教授团队解决了“一卡多用”的难题。针对小模型训推场景,Flex:ai引入了XPU池化框架,将单张GPU或NPU切分为精细至10%粒度的虚拟算力单元。这意味着,一张卡不再是单一任务的私有财产,而是可以同时承载多个工作负载。戚正伟教授的数据显示,通过资源隔离与按需切分,整体算力平均利用率可提升30%。这种“切蛋糕”式的管理,让算力不再是昂贵的奢侈品,而是可灵活分配的水电资源。

第二把刀是“跨界聚合”,源自华为与厦门大学的合作。厦门大学信息学院张一鸣教授团队攻克了“本地无算力”的困境。在许多企业的开发环境中,通用服务器并不具备智能算力。Flex:ai通过跨节点拉远虚拟化技术,将集群内闲置的XPU聚合成一个“共享算力池”。哪怕是普通的通用服务器,也能通过高速网络(RDMA)调用远端的NPU资源。这打破了物理空间的限制,让通用算力与智能算力实现了真正的融合,消除了资源孤岛。

第三把刀是“全局调度”,由华为与西安交通大学共同铸造。面对异构算力(多品牌、多规格)难以统一调度的痛点,西安交通大学计算机科学与技术学院院长张兴军教授团队参与打造了Hi Scheduler智能调度器。它就像一位经验丰富的交通指挥官,能够感知全局负载,结合任务优先级,在毫秒级的时间内完成算力的最优匹配。即便是面对医院病理科突发的高并发诊断需求,也能通过分时复用保障平稳运行。

从“大模型”到“平民化”

Flex:ai的发布,折射出华为对AI未来的深层思考:AI不应只是科技巨头的游戏,而应成为普惠大众的工具。

周跃峰在演讲中反复提及“AI平民化”这一概念。他认为,只有当一家中小型企业、甚至一个家庭都能以低成本、高效率的方式使用AI时,人工智能才算真正落地。

“我们不能要求每个企业都去建庞大的数据中心。我们要做的,是把算力使用的门槛降下来,效率提上去。”周跃峰表示。

通过开源,Flex:ai将这一能力开放给全球开发者。这是一种典型的华为式打法——在底层基础设施上做厚、做深,通过建立标准来繁荣生态。

华为数据存储产品线DCS AI首席架构师刘淼透露,开源社区将提供标准化的接口,兼容南向异构算力,包括国产第三方算力,这意味着Flex:ai不仅服务于华为的硬件,更试图构建一个通用的算力虚拟化标准。

算力效率是下一轮竞争的高地

对于行业而言,Flex:ai的问世是一个信号:AI基础设施的竞争,已经从单纯的“拼算力规模”转向“拼算力效率”。

张弓在演讲中提到了一个计算机科学中的经典难题——“装箱问题”(Bin Packing Problem)。在AI时代,如何将大小不一的模型任务(箱子)塞进有限的算力资源(集装箱)中,且不留缝隙,是一个NP-hard(非确定性多项式困难)级别的问题。

Flex:ai虽然不能从数学上彻底解决NP-hard问题,但它通过工程化的手段——切分、池化、调度——给出了当前最优的解法。它允许算力像云计算一样具备“弹性”,支持任务的抢占、快恢和动态扩缩。这对于那些正在为高昂算力成本发愁的首席信息官们来说,无疑是一剂强心针。

Flex:ai做的事情,并不是去修更多的路,也不是去限制人们出行,而是建立了一套智能的交通潮汐车道和拼车系统。它让同一条车道在高峰期可以承载更多车辆,让空驶的车辆可以顺路搭载乘客。

当底层的基石变得足够灵活和坚韧,上层的AI应用才能真正迎来繁花似锦的时代。对于华为而言,这是其在AI全栈布局中补上的关键一环;而对于整个产业,这或许是AI从“烧钱”走向“价值创造”的真正转折点。