DeepSeek-V4首发即支持，ZStack AIOS 私有化部署即刻可用|aios|deepseek|zstack|推理|私有化|调用

在今天这个重要的日子，我们很高兴地宣布——ZStack AIOS 已率先完成 DeepSeek-V4 系列大模型的私有化部署全面适配，并向企业用户开放体验申请。

在此，云轴科技ZStack 也向 DeepSeek 团队致以诚挚祝贺！DeepSeek-V4 的发布，是中国开源大模型在效率与能力双重维度上的又一次重大突破，我们致敬这份持续推动底层创新的坚持。

DeepSeek-V4：效率与能力的双重跃升

DeepSeek-V4 系列包括DeepSeek-V4-Pro（1.6T 总参数 / 49B 激活）DeepSeek-V4-Flash（284B 总参数 / 13B 激活）。该系列采用CSA + HCA 混合注意力架构，结合 MoE 稀疏激活与 Muon 优化器，首次将原生上下文窗口扩展至100 万 token，并在超长文本场景下实现惊人的效率跃升：

在 1M token 长度下，V4-Pro 的单 token 推理 FLOPs 降至前代 V3.2 的27%，KV Cache 压缩至10%
V4-Flash 更进一步，单 token FLOPs 仅10%，KV Cache 仅7%
在代码生成、数学推理、Agent 任务执行与长文本理解等基准测试中，V4 系列达到当前开源大模型的最前列

对整个开源大模型行业来说，DeepSeek-V4的发布可谓是众望所归，单看参数对比已经能够感受到DeepSeek在这一年的厚积薄发，中国科技行业的进步可谓是日新月异，我们也希望用自己的努力，助推这么优秀的大模型能普惠到更多用户。

AIOS 率先完成私有化适配，全面支持国产化算力

ZStack AIOS现已全面支持 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 在自有数据中心的私有化部署。我们特别完成了对国产 AI 芯片的深度适配，确保客户基于国产化算力底座即可运行世界顶尖大模型，实现从芯片、云平台到模型层的全链路自主可控。

数据不出域，模型不联网。训练与推理全程处于企业本地安全环境，满足金融、政务、能源、医疗等关键行业的合规与信创要求。

ZStack AIOS 三层架构为 V4 提供原生企业级支撑：

算力层：异构 GPU 统一调度，支持昇腾、NVIDIA 等多品牌混合部署，1% 粒度 GPU 细分与 95% 直通性能，充分释放 MoE 架构的并行效率
模型层：一键部署 V4 系列模型，针对百万级长上下文优化存储网络与推理流水线，内置RAG与知识库能力，支撑企业快速构建内部 AI 应用
运维层：多租户隔离、弹性容错、敏感数据检测与跨平台计量计费，满足集团级 AI 治理与合规审计要求

小规模起步，生产级扩展

ZStack AIOS 最低 2 个节点即可启动完整私有 AI 平台能力。已在运行ZStack Cloud、ZStack HCI 的客户，可直接叠加 AIOS，无需推倒重来。

DeepSeek-V4 系列私有化部署验证已完成，现向企业用户开放测试体验申请。我们的工程师团队将提供从算力规划、模型部署到应用落地的全栈技术支持。

下面是完整的部署流程，从下载到调用，最快几分钟即可完成。

三步上手：以 DeepSeek-V4-Flash 为例

DeepSeek-V4-Flash 每次推理仅需激活 13B 参数，推理效率较高，是在有限 GPU 资源下验证 V4 系列能力的合适起点。以下演示如何在 ZStack AIOS 上完成完整部署。

Step 1：下载模型

在 ModelScope 上找到 DeepSeek-V4-Flash 的 Model ID并填入，点击下载，系统将自动根据 Model ID 拉取模型文件至平台模型仓库。下载过程中可在任务列表实时查看进度。

Step 2：部署推理服务

模型下载完成后，点击创建推理服务，进入推理服务配置页面。

根据实际资源情况配置 GPU 节点、显存分配与并发上限，确认后点击提交。系统自动完成推理框架初始化与服务启动，状态变为运行中即部署成功。

V4-Flash 采用 FP4+FP8 混合精度部署，推荐最低显存配置为 H20 （141GB）× 2 或等效规格。

Step 3：在线体验与接入

服务启动后，进入体验界面，即可直接与模型对话，验证服务是否正常运行。

如需将模型能力接入业务系统，ZStack AIOS 支持通过Dify、FastGPT 等应用平台进行调用，适合快速搭建面向实际业务的 AI 应用。

开源模型的每一步，我们都在

从 DeepSeek-R1 到 DeepSeek-V4，开源模型的进化速度超出了大多数人的预期。ZStack AIOS 持续跟进主流开源大模型的最新进展，致力于在每一次模型能力跃升的第一时间，为企业打通从"开源发布"到"私有可用"的最后一步，为企业用户提供安全可控、开箱即用的私有化 AI 推理能力，帮助企业在数据不出域的前提下，快速将最新开源模型能力转化为实际生产力。

新模型不应该等。

如需了解更多部署细节或获取技术支持，欢迎联系 ZStack 团队或访问官方文档。