公有云推理成本持续走高,数据合规要求趋严,将 AI 推理负载迁回本地已成为多数企业的现实选择。从选型到调度,有一套可循的决策路径。
一、AI负载正在从公有云回到本地

2026年企业AI的部署重心出现了一次明显转向。云轴科技ZStack在与金融、政务、制造行业客户的交流中观察到一个共同趋势:模型完成验证后,企业的下一步往往是将推理负载迁回自有机房。继续扩大公有云 GPU 实例规模的做法正在减少。

外部数据印证了这一趋势。Cloudian在2026年对企业IT决策者的调查中,85%的受访者表示AI需求正在推动他们转向本地基础设施;其中55%认为公有云无法稳定满足AI推理的延迟要求,52%出于安全或合规需要把训练数据留在本地。

这一趋势并不意味着否定公有云的价值。同一份调查中,仍有约三成企业在扩大公有云使用。其本质是企业开始依据工作负载特征分配部署位置:将持续运行、延迟敏感、数据不可出域的 AI 负载放回本地,将突发性、一次性的需求交由公有云承载。

打开网易新闻 查看精彩图片

二、第一步:GPU选型——国产卡与英伟达的取舍

私有化 AI 的第一道门槛是 GPU 采购,涉及两个层面的决策。

依据负载类型确定卡型。训练与推理对 GPU 的要求存在差异:训练依赖大显存与卡间互联带宽,推理更看重单卡吞吐与性价比。将推理负载部署在为训练采购的高端卡上,利用率通常难以提升,造成资源浪费。

国产卡的窗口已经打开,需要核算适配成本。信创政策正在加速 AI 算力国产化,昇腾、海光、天数等国产 GPU 在推理场景的成熟度近两年明显提升。ZStackAIOS 智塔已适配昇腾 910B、海光 K100-AI、天数天垓等主流国产卡。选择国产卡的关键评估点在于软件栈适配是否到位:驱动稳定性、框架兼容性、监控配套能力,共同决定了硬件能否真正投入使用,单纯对标性能参数并不足够。

国产 GPU 在硬件层面还存在一项现实约束:部分型号不支持原生虚拟化与算力复用。若调度层无法补齐,单张卡只能整块分配给一个任务,利用率上限较低。ZStack AIOS 智塔通过 GPU 透传、vGPU 切分透传、容器显存动态切分三种方式,从软件层补齐这一短板,使单张物理卡可在多个云主机与容器之间复用。

三、第二步:算力调度——决定 TCO 的关键变量

三、第二步:算力调度——决定 TCO 的关键变量

GPU 完成采购只是开始,真正决定总体拥有成本(TCO)的是利用率。

一组行业数据可供参考:企业 GPU 的平均利用率长期处于 20%-30% 区间,推理场景下未经优化的集群利用率更低,多数企业投入巨资采购的算力资源因此有约七成时间处于闲置状态。

打开网易新闻 查看精彩图片

公有云 GPU 实例价格偏高,正是因为这部分闲置成本被计入了租用费用。在持续高负载、利用率充分的场景下,公有云 GPU 的长期成本可达到本地专用基础设施的 2-3 倍;而在负载零散、使用频次较低时,公有云则更具经济性。因此,将可预测、持续运行的推理负载部署至本地,以固定成本替代浮动费用,是一笔清晰可算的经济账。

本地能否实现高利用率,取决于调度层能力。通过推理服务的连续批处理、GPU 时间片切分与动态资源池化,单个负载的 GPU 利用率可由不足 20% 提升至 70% 以上。需要说明的是,在开发、测试、生产混合部署的真实企业集群中,全面优化后的整体利用率通常处于 40%-70%,难以达到满载;但相较 20%-30% 的起点,基础设施的有效容量已提升一倍以上。

ZStack AIOS 智塔的调度策略按模型特点与业务优先级分配算力,优先保障关键业务与高优先级模型的需求。配合 GPU“卡掉卡零容忍”的实时监控,全平台 GPU 分配与负载状态一目了然,温度或负载异常主动告警,将算力资源的充分利用落到平台能力上。

对于跨多个数据中心、多品牌 GPU 的企业,ZStack ZUMA 平台再上一层,实现多厂商、多数据中心算力的统一纳管,构建统一可视的算力门户,支持多租户配额与优先级管理。本地单集群的调度交由 AIOS 智塔,跨中心的算力统管交由 ZUMA。

四、第三步:存储匹配——AI 负载与传统应用的存储需求差异

四、第三步:存储匹配——AI 负载与传统应用的存储需求差异

私有化 AI 基础设施中,存储是容易被低估的环节。

AI 训练与推理对存储的要求,与传统企业应用差异显著。训练阶段需要高带宽将海量样本快速送入 GPU;推理阶段需要低延迟加载模型;数据预处理环节则常面对海量小文件。采用为传统数据库设计的存储承载 AI 负载,带宽与 IOPS 容易成为瓶颈;一旦 GPU 长时间等待数据,前序调度优化节省的成本将被重新消耗。

匹配思路是按场景选择存储架构:训练场景优先采用高带宽的并行文件或对象存储,推理与在线服务场景优先采用低延迟的高性能块存储。ZStack 企业版分布式存储支持对象、块、文件三类存储,可满足高 IO 吞吐业务场景的需求,在同一套存储底座上覆盖 AI 的不同环节。

这一环节的关键在于存储规划须与 GPU 选型同步进行。若待 GPU 与调度配置完成后再考虑存储,前期投入将受存储瓶颈拖累。

五、第四步:模型服务化——将模型上线周期压缩至分钟级

五、第四步:模型服务化——将模型上线周期压缩至分钟级

前三步构建的是基础底座,第四步决定业务接入 AI 的速度。

许多企业自建 AI 平台受阻于最后一公里:GPU、调度、存储均已就位,但模型从训练完成到对外提供服务,仍需工程团队手工搭建推理服务、配置网络、调试参数,单个模型上线往往耗时数日。

ZStack AIOS 智塔将这一层固化为平台能力:系统内置模型可直接部署,自定义模型上传后配合推理模板完成部署,模型从仓库到推理服务上线为分钟级。企业无需从零搭建调度层与服务层,业务团队获得的是一个可直接发布模型、对外提供推理 API 的平台。

这一层也是后续 Agent 类应用落地的基础。Agent 需频繁调用模型与内部工具,本地化的推理服务底座可使这些调用直接经由内网完成,在延迟与数据安全上较绕行公网更易管控。

打开网易新闻 查看精彩图片

六、四步构成一个整体

六、四步构成一个整体

将四步拆解讲解是为了厘清每一步的决策逻辑,但在实际落地时,它们构成一个整体。GPU 选型决定调度层需要补齐的短板,调度策略决定存储承受的压力,存储与调度共同决定模型服务化的最终体验。任何一环出现短板,整套基础设施的投入产出都将受损。

云轴科技 ZStack 在私有云与 AI 基础设施领域深耕多年,从 GPU 选型评估、算力调度、存储匹配到模型服务化,四个环节均可落到平台能力与实施支撑上。企业自建私有化 AI 平台的常见风险在于:每一步单独审视均无问题,组合后却难以顺畅运行。将四步作为一个系统来设计,私有化 AI 才能真正落地。