最近跟圈内几个技术负责人聊天,发现大家都在头疼同一件事——想搞自己的模型,但云端训练贵得离谱,数据上传又不放心。通用大模型确实强,可一旦涉及企业具体业务,业务匹配、数据归属、隐私合规这些问题就会一股脑冒出来。说到底,核心痛点就一个:本地算力够不够打?
正好最近拿到了惠普的 Z 系列 ZGX Nano AI 工作站,我们决定来场硬核实测——看看这台号称"桌面超算"的设备,能不能真的扛起本地模型微调和推理的重任。
评测机构:至顶AI实验室
测评时间:2026年1月25日
主要参数:搭载了 NVIDIA GB10 Grace Blackwell 超级芯片、128GB 统一内存、预装了 NVIDIA DGX 操作系统
评测主题:惠普 Z 系列 ZGX Nano AI 工作站体验本地微调模型先看硬件:这配置确实有点东西
惠普 ZGX Nano 延续了 Z 系列的工业设计语言,黑色机身配上棱形格栅,摆在桌上跟个高级纸巾盒差不多大,完全不占地方。但别被这小身板骗了,内部配置相当猛。
核心配置上,这台机器搭载了 NVIDIA GB10 Grace Blackwell 超级芯片,配备 128GB 统一内存。官方数据显示,它可以支持 200B 以内模型的推理,以及 70B 以内模型的训练。重点是预装了 NVIDIA DGX 操作系统和完整的 AI 软件堆栈,意味着开箱即用,不用自己折腾环境配置。
接口方面也很实在:背面配了 4 个 USB Type-C、1 个 HDMI、RJ-45 网口,还有两个 NVIDIA ConnectX-7 接口——这个接口后面会派上大用场。
开机后系统信息显示:128GB 内存、ARM 架构 CPU、GB10 显卡,运行基于 Ubuntu 的 DGX 系统。配置确认无误,可以开干了。
实战一:微调多模态大模型
我们选了个有难度的测试场景——用 Qwen3-VL-32B 这个 FP16 精度的多模态模型,结合医疗行业数据,微调出一个垂直领域的专用模型。
测试流程
整个微调过程基于 LLaMA-Factory 框架:
数据准备:我们准备了大约 44 万条医疗问答对,覆盖常见疾病咨询、用药指导等场景环境部署:通过命令行启动 LLaMA-Factory,在配置文件里设置好训练数据路径参数配置:选择 LoRA 微调方式,采用 SFT(监督微调)训练模式,设置学习率、训练轮数等参数开始训练:点击运行后,可以实时看到内存占用和损失曲线
实测数据
训练开始时内存占用 76GB,随后逐步上升。整个微调过程耗时 4 小时,损失值从初始的 1.5 降至 0.9,收敛效果不错。最终保存的微调模型文件约 5.8GB,包含模型参数和检查点。
效果对比
我们用同一个医疗问题测试微调前后的模型表现:
微调前:回答比较泛泛,基本是常识性内容微调后:回答明显更专业,包含具体的医学术语和诊疗建议这个对比很直观——模型确实学会了医疗领域的专业知识,回答质量有了质的提升。
实战二:大模型推理性能
微调是一方面,日常推理才是高频场景。我们测了单机推理和双机联动两种情况。
单机推理:GPT-OSS-120B
先用 Ollama 部署了最近火爆的 GPT-OSS-120B 模型,这个模型需要约 65GB 显存。在 128GB 统一内存的加持下,模型加载只用了 10 多秒,推理速度达到 35 tokens/s——这个速度已经可以做到流畅对话了。
多模态工作流:从文生图到 3D 建模
为了测试多模态能力的天花板,我们用 ComfyUI 跑了一套完整工作流:
FLUX 文生图:输入提示词生成图片,耗时约 1 分 22 秒8K 超分辨率:将图片放大到 7680×4320 分辨率,耗时约 3 分半。放大后的图片细节丰富,纹理清晰,完全达到专业制作水准Wan2.2 图生视频:用阿里通义万相的模型将图片转成 640×640 视频,耗时不到 10 分钟,镜头平滑、动作自然混元 3D 建模:用腾讯混元 3D 2.1 模型将图片转成三维模型,设置 200 步、25600 块精度,生成的模型完成度很高这套工作流下来,ZGX Nano 的 128GB 统一内存优势就体现出来了——传统显卡早就爆显存了,但这台机器全程稳定运行,温度和功耗控制得也不错。
双机联动:挑战 GLM-4.5-AIr
单台设备的极限在哪?我们决定挑战 FP8 精度下的 GLM-4.5-Air 模型,这个模型需要约 150GB 显存,单台 ZGX Nano 显然不够。
这时候前面提到的 ConnectX-7 接口就派上用场了。通过 QSFP 线缆连接两台设备,利用 Ray 进行集群部署,配合 vLLM 的 Docker 镜像实现多机 GPU 通信和张量并行计算。
实测结果:两台 ZGX Nano 串联后,总显存达到 200GB 以上,跑 150GB 的模型毫无压力,推理速度达到 18.3 tokens/s。从监控界面可以看到,两台机器的 GPU 占用、温度、功耗都很均衡,负载分配合理。
这个配置放在以前,基本就得上 AI 服务器了,现在两台桌面工作站就能搞定。
评测结论:本地 AI 算力的实用派选择
测完这一圈,几个核心感受:
1. 真正的开箱即用预装的 DGX 系统和软件栈省了大量环境配置时间,对不想折腾的团队非常友好。
2. 性能够用且可扩展128GB 统一内存应对常见的模型微调和推理场景完全够用,通过双机串联还能挑战更大规模的模型,扩展性不错。
3. 本地化优势明显数据不出本地,隐私和合规问题彻底解决;可以反复试错,不用担心云端调用费用;模型迭代全程可控,适合敏捷开发。
4. 适用场景清晰这台机器的定位很明确——企业内部 AI 项目、小团队快速验证、开发者本地实验。不是拿来跟云端大规模训练比的,而是解决"最后一公里"的落地问题。
回到开头那个问题:本地算力行不行?至少在惠普 ZGX Nano 这个案例上,答案是肯定的。它证明了一件事——AI 不一定要在云端才能跑,桌面级的"超级计算机"已经可以承载实际业务了。
对于想做专属模型的企业和团队来说,这可能是个值得考虑的方向:把核心能力握在自己手里,让 AI 真正成为可持续使用、反复打磨的生产力工具。毕竟,只有当模型回到本地,AI 才算进入了可持续应用阶段。
未来,我们每个人可能真的都需要一台属于自己的"超级计算机"——而这个未来,或许比想象中来得更快。
END本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
热门跟贴