国产算力，兵分三路对抗CUDA|cuda|底层架构|数据流|智能体|算力|算子

导语：

英伟达的优势从来不只是一块 GPU，而是 CUDA 把芯片、编译器、算子库、框架接口和开发者习惯绑成了一整套体系。企业一旦在这套体系里完成训练、部署和运维，后续每一次迁移都会面对代码重写、算子补齐、框架重适配和性能回退的连锁成本。

对国内厂商来说，这意味着两个风险同时存在：一是长期依赖单一路径，产业链的自主可控始终受限；二是即便硬件能替代，软件生态也未必能跟上，结果是“有卡，但是难用”。这也是为什么国产算力讨论到今天，问题已经从单点性能竞争，转向生态组织能力的竞争。

一、智能体时代：FlagOS搭建国产芯片适配底座

先简单科普下智源 FlagOS 。

作为智源面向下一代 AI 基础设施打造的全域智能操作系统，FlagOS 长期聚焦异构芯片适配、跨架构协同、AI 生态开放三大核心方向，核心目标是打破单一算力架构壁垒，为大模型、AI 智能体、端边侧智能应用提供统一的底层运行底座。

随着大模型进入智能体阶段后。

模型不再只是做单轮生成，而是要跨框架、跨场景、跨设备持续运行，底层基础设施就不能再只服务一种架构、一类任务。

众智 FlagOS 2.0 给出的判断很直接：如果没有普适计算，智能体难以跨芯片运行；如果没有开放计算，AI 生态就会被单一路径锁定。沿着这个逻辑看，国内产业对架构多元化和本土化替代的诉求，本质上都指向同一个问题——不是简单复制一个 CUDA，而是先建立一套可以让多种国产芯片共同接入、共同演进的公共底座。

FlagOS 2.0 目前已支持18 家厂商、32 款 AI 芯片，算子总数达到 497 个，应用范围也从大模型训练推理扩展到边缘推理、机器人和科学计算，这些数字的意义不在于规模更大，而在于它开始尝试把分散的国产硬件，放进同一套软件语言里。

这也是海外封闭生态对国内创新真正的制约所在。

过去行业里常见的做法，是每一种芯片配一套工具链、每一个框架做一次魔改、每一家厂商各自维护自己的适配版本。表面看，国内生态很热闹，但从开发者视角看，碎片化意味着学习成本和迁移成本持续累积。

FlagOS 2.0 在统一插件体系上连接vLLM、Megatron-LM、Transformer Engine等主流框架，在底层又通过Flag Tree、Flag Gems、FLIR这类组件推动编译和算子层的统一，试图解决的正是“一种芯片一套开发工具”的老问题。说得更直白一点，国内算力现在最缺的，是一套让不同技术路线能共同参与竞争的基础设施。

在这个背景下，智源推动的 FlagOS，更像是一场“先搭公共路基，再谈单车速度”的尝试。不是押注某一家芯片公司，而是把GPU、DSA、RPU（可重构数据流）三条路线同时纳入同一套技术框架中。Triton-TLE 已支持 31 种原语，并分别在 GPU、DSA、可重构计算三类代表性架构上完成验证；FLIR 也开始探索统一中间表示层，让不同芯片共享一部分编译优化能力。换句话说，智源并不是想证明哪条路线天然胜出，而是想先降低多路线并行的协同门槛。对一个仍在追赶期的产业来说，这比单点押注更现实。因为国产生态的短板，从来不是没有路线，而是路线太多但彼此不兼容。

二、除了打通芯片、模型与应用，也提供“第三种可能”

在芯片、模型和应用层，最核心的统一价值就是，对芯片厂商来说，减少重复适配和各自造轮子的成本；对模型厂商，它缩短从模型发布到国产算力可用的时间差；对应用方，它至少提供了一种更可预期的迁移路径，而不是每次换底座都从零开始。

FlagOS 2.0 里FlagGems 已覆盖 40 个主流模型、推理任务算子覆盖度达到 90% 到 100%，FlagScale 则试图把推理、训练和强化学习的接入方式标准化。这些工作看上去偏底层，离市场很远，但决定生态是否成立的，往往就是这些不显眼的工程层。国内 AI 产业过去最容易掉进去的误区，是把发布当成落地；而统一适配标准，恰恰是把落地前面的摩擦一点点削掉。

GPGPU 仍然承担通用计算主力，优势是开发者熟悉、生态接口接近国际主流，DSA 代表更强的场景化优化能力，适合在既定任务模型下做深度打磨；而RPU（可重构数据流），提供的是第三种可能：它既不完全走 GPU 的通用堆叠，也不完全走固定数据流的专用设计，而是试图在灵活性和效率之间找到一个新的平衡点。众智 FlagOS 把它与 GPU、DSA 一起纳入三条代表性架构路线，本身已经说明，可重构计算不再只是实验室概念，而是被放进了国产生态的正式坐标系中。

三、“第三种可能”：架构创新实现性能突破

RPU（可重构数据流）的差异化价值，核心在于通过“软件定义硬件”核心技术，让芯片硬件能根据不同AI任务实时动态重组，可兼顾高效性与灵活性，实现低延迟、低能耗，以此应对未来复杂多变的AI计算需求。

对行业来说，这件事的价值不只是一个性能数字，而是说明非 GPU 架构也有机会进入主流开发工作流，而不是永远停留在能跑但难开发的阶段。

从生态表现看，RPU 至少已经不再是边缘角色。清微智能为例，在 FlagOS 生态中的适配模块数量位居前列，在非 GPU 架构中与华为昇腾分列一二位，这意味着它在统一软件栈里的参与度已经进入第一梯队。

更值得注意的是它的适配速度，尤其在最新模型适配上表现突出：4 月 8 日智谱 GLM-5.1 开源当天，清微智能即完成模型适配；在 4 月 24 日 DeepSeek 重磅发布 V4 系列模型后，清微智能基于成熟的软硬件协同架构，携手智源众智FlagOS，在模型发布当天就完成了DeepSeek-V4-Flash版本的全量算子适配与验证，成为国内首批实现该模型全量算子兼容的芯片厂商。此外，清微智能还与千问等其他主流模型保持同步迭代，持续夯实其在国产AI算力生态中的核心地位。

四、演进：从分散替代到多架构组团协同

这也解释了为什么国产架构竞争正在从分散替代走向组团协同。国内算力企业如果都试图复制同一条路径，结果很可能不是生态繁荣，而是同质化内耗：大家一起追一个最成熟、也最难追上的方向，最后谁都拿不到足够大的开发者规模。

更合理的格局，是不同路线在各自擅长的场景里补位：GPGPU 继续承担广谱兼容任务，DSA 在高强度场景优化里建立优势，可重构架构则在模型快速适配、边缘部署、轻量化推理和部分定制场景中释放弹性。据了解，此前清微 RPU 与华为昇腾形成的非 GPU 梯队，至少已经让这种互补关系具备了雏形。它不是谁替代谁，而是谁把国产架构的覆盖面再往外推一步。

从这个角度看，未来，突破 CUDA 壁垒也许并不取决于是否有单点能力，能在所有维度上完全复制英伟达。更现实的路径，是先建立一个能容纳多种国产路线协同演进的生态，把工具链、算子、框架和模型适配变成公共能力，再由不同架构在不同场景里分担任务。FlagOS 的价值就在这里：它让国产芯片企业不必各自孤军作战，而是有机会在同一个生态里共享一部分软件资产、共享一部分开发者心智。对于还处在建设期的产业，这种组团价值，可能比单家厂商的短期性能冲刺更重要。

5、结语：架构多元化，引领国产AI生态发展

真正决定下一阶段竞争的，也不会只是芯片参数，而是生态协同深度和技术落地能力。

架构多元化不是为了证明哪条路线最正确，而是为了让国产 AI 不再被单一路径定义。以 RPU 为代表的创新架构，提供的不是对 GPU 的简单跟随，而是把国产算力从先适配、再优化的被动节奏，往按场景设计、按任务组织的主动节奏推了一把。

未来能否持续推进，关键不在于再讲多少国产化替代叙事，而在于谁能把统一软件栈做厚，把模型接入做快，把真实业务场景跑通，国产 AI 生态若想形成长效发展机制，最终比拼的不是某一家厂商讲了什么，而是谁真正把多架构协同这件事，做成了开发者愿意用、客户愿意迁移的现实能力。

文章来源：数聚势能