导语:
英伟达的优势从来不只是一块 GPU,而是 CUDA 把芯片、编译器、算子库、框架接口和开发者习惯绑成了一整套体系。企业一旦在这套体系里完成训练、部署和运维,后续每一次迁移都会面对代码重写、算子补齐、框架重适配和性能回退的连锁成本。
对国内厂商来说,这意味着两个风险同时存在:一是长期依赖单一路径,产业链的自主可控始终受限;二是即便硬件能替代,软件生态也未必能跟上,结果是“有卡,但是难用”。这也是为什么国产算力讨论到今天,问题已经从单点性能竞争,转向生态组织能力的竞争。
一、智能体时代:FlagOS搭建国产芯片适配底座
先简单科普下智源 FlagOS 。
作为智源面向下一代 AI 基础设施打造的全域智能操作系统,FlagOS 长期聚焦异构芯片适配、跨架构协同、AI 生态开放三大核心方向,核心目标是打破单一算力架构壁垒,为大模型、AI 智能体、端边侧智能应用提供统一的底层运行底座。
随着大模型进入智能体阶段后。
模型不再只是做单轮生成,而是要跨框架、跨场景、跨设备持续运行,底层基础设施就不能再只服务一种架构、一类任务。
众智 FlagOS 2.0 给出的判断很直接:如果没有普适计算,智能体难以跨芯片运行;如果没有开放计算,AI 生态就会被单一路径锁定。沿着这个逻辑看,国内产业对架构多元化和本土化替代的诉求,本质上都指向同一个问题——不是简单复制一个 CUDA,而是先建立一套可以让多种国产芯片共同接入、共同演进的公共底座。
FlagOS 2.0 目前已支持18 家厂商、32 款 AI 芯片,算子总数达到 497 个,应用范围也从大模型训练推理扩展到边缘推理、机器人和科学计算,这些数字的意义不在于规模更大,而在于它开始尝试把分散的国产硬件,放进同一套软件语言里。
这也是海外封闭生态对国内创新真正的制约所在。
过去行业里常见的做法,是每一种芯片配一套工具链、每一个框架做一次魔改、每一家厂商各自维护自己的适配版本。表面看,国内生态很热闹,但从开发者视角看,碎片化意味着学习成本和迁移成本持续累积。
FlagOS 2.0 在统一插件体系上连接vLLM、Megatron-LM、Transformer Engine等主流框架,在底层又通过Flag Tree、Flag Gems、FLIR这类组件推动编译和算子层的统一,试图解决的正是“一种芯片一套开发工具”的老问题。说得更直白一点,国内算力现在最缺的,是一套让不同技术路线能共同参与竞争的基础设施。
在这个背景下,智源推动的 FlagOS,更像是一场“先搭公共路基,再谈单车速度”的尝试。不是押注某一家芯片公司,而是把GPU、DSA、RPU(可重构数据流)三条路线同时纳入同一套技术框架中。Triton-TLE 已支持 31 种原语,并分别在 GPU、DSA、可重构计算三类代表性架构上完成验证;FLIR 也开始探索统一中间表示层,让不同芯片共享一部分编译优化能力。换句话说,智源并不是想证明哪条路线天然胜出,而是想先降低多路线并行的协同门槛。对一个仍在追赶期的产业来说,这比单点押注更现实。因为国产生态的短板,从来不是没有路线,而是路线太多但彼此不兼容。
二、除了打通芯片、模型与应用,也提供“第三种可能”
在芯片、模型和应用层,最核心的统一价值就是,对芯片厂商来说,减少重复适配和各自造轮子的成本;对模型厂商,它缩短从模型发布到国产算力可用的时间差;对应用方,它至少提供了一种更可预期的迁移路径,而不是每次换底座都从零开始。
FlagOS 2.0 里FlagGems 已覆盖 40 个主流模型、推理任务算子覆盖度达到 90% 到 100%,FlagScale 则试图把推理、训练和强化学习的接入方式标准化。这些工作看上去偏底层,离市场很远,但决定生态是否成立的,往往就是这些不显眼的工程层。国内 AI 产业过去最容易掉进去的误区,是把发布当成落地;而统一适配标准,恰恰是把落地前面的摩擦一点点削掉。
GPGPU 仍然承担通用计算主力,优势是开发者熟悉、生态接口接近国际主流,DSA 代表更强的场景化优化能力,适合在既定任务模型下做深度打磨;而RPU(可重构数据流),提供的是第三种可能:它既不完全走 GPU 的通用堆叠,也不完全走固定数据流的专用设计,而是试图在灵活性和效率之间找到一个新的平衡点。众智 FlagOS 把它与 GPU、DSA 一起纳入三条代表性架构路线,本身已经说明,可重构计算不再只是实验室概念,而是被放进了国产生态的正式坐标系中。
三、“第三种可能”:架构创新实现性能突破
RPU(可重构数据流)的差异化价值,核心在于通过“软件定义硬件”核心技术,让芯片硬件能根据不同AI任务实时动态重组,可兼顾高效性与灵活性,实现低延迟、低能耗,以此应对未来复杂多变的AI计算需求。
对行业来说,这件事的价值不只是一个性能数字,而是说明非 GPU 架构也有机会进入主流开发工作流,而不是永远停留在能跑但难开发的阶段。
从生态表现看,RPU 至少已经不再是边缘角色。清微智能为例,在 FlagOS 生态中的适配模块数量位居前列,在非 GPU 架构中与华为昇腾分列一二位,这意味着它在统一软件栈里的参与度已经进入第一梯队。
更值得注意的是它的适配速度,尤其在最新模型适配上表现突出:4 月 8 日智谱 GLM-5.1 开源当天,清微智能即完成模型适配;在 4 月 24 日 DeepSeek 重磅发布 V4 系列模型后,清微智能基于成熟的软硬件协同架构,携手智源众智FlagOS,在模型发布当天就完成了DeepSeek-V4-Flash版本的全量算子适配与验证,成为国内首批实现该模型全量算子兼容的芯片厂商。此外,清微智能还与千问等其他主流模型保持同步迭代,持续夯实其在国产AI算力生态中的核心地位。
四、演进:从分散替代到多架构组团协同
这也解释了为什么国产架构竞争正在从分散替代走向组团协同。国内算力企业如果都试图复制同一条路径,结果很可能不是生态繁荣,而是同质化内耗:大家一起追一个最成熟、也最难追上的方向,最后谁都拿不到足够大的开发者规模。
更合理的格局,是不同路线在各自擅长的场景里补位:GPGPU 继续承担广谱兼容任务,DSA 在高强度场景优化里建立优势,可重构架构则在模型快速适配、边缘部署、轻量化推理和部分定制场景中释放弹性。据了解,此前清微 RPU 与华为昇腾形成的非 GPU 梯队,至少已经让这种互补关系具备了雏形。它不是谁替代谁,而是谁把国产架构的覆盖面再往外推一步。
从这个角度看,未来,突破 CUDA 壁垒也许并不取决于是否有单点能力,能在所有维度上完全复制英伟达。更现实的路径,是先建立一个能容纳多种国产路线协同演进的生态,把工具链、算子、框架和模型适配变成公共能力,再由不同架构在不同场景里分担任务。FlagOS 的价值就在这里:它让国产芯片企业不必各自孤军作战,而是有机会在同一个生态里共享一部分软件资产、共享一部分开发者心智。对于还处在建设期的产业,这种组团价值,可能比单家厂商的短期性能冲刺更重要。
5、结语:架构多元化,引领国产AI生态发展
真正决定下一阶段竞争的,也不会只是芯片参数,而是生态协同深度和技术落地能力。
架构多元化不是为了证明哪条路线最正确,而是为了让国产 AI 不再被单一路径定义。以 RPU 为代表的创新架构,提供的不是对 GPU 的简单跟随,而是把国产算力从先适配、再优化的被动节奏,往按场景设计、按任务组织的主动节奏推了一把。
未来能否持续推进,关键不在于再讲多少国产化替代叙事,而在于谁能把统一软件栈做厚,把模型接入做快,把真实业务场景跑通,国产 AI 生态若想形成长效发展机制,最终比拼的不是某一家厂商讲了什么,而是谁真正把多架构协同这件事,做成了开发者愿意用、客户愿意迁移的现实能力。
文章来源:数聚势能
热门跟贴