编辑|Panda
假如你是一个致力于将 AI 引入传统行业的工程团队。现在,你有一个问题:训练一个能看懂复杂机械图纸、设备维护手册或金融研报图表的多模态助手。这个助手不仅要能专业陪聊,更要能精准地识别图纸上的零件标注,或者从密密麻麻的财报截图中提取关键数据。
首先,你需要选择一个合适的模型。
7B 参数的小模型虽然跑得快,但「脑容量」太小,面对复杂的图文逻辑经常一本正经地胡说八道;而 70B 甚至更大的模型虽然聪明,但部署和推理成本直接劝退了客户。最后,你可能发现 30B 参数级的开源多模态模型(例如 Qwen-VL-30B)是个不错的选择。
30B 被称为大模型的黄金尺寸:它在理解能力上远超小模型,又比巨型模型轻量,是企业私有化部署的完美平衡点。
不过呢,你可能也会发现,「30B 参数」也是一个极具欺骗性的数字。
在纯文本时代,一张前沿的消费级显卡或许还能勉强塞下 30B 的推理。但在多模态(Vision-Language)场景下,事情完全变了。当模型需要处理高分辨率图像时,视觉编码器会产生大量的视觉 Token;而为了让模型真正懂行业 Know-how,必须用数千张有标注图像进行 LoRA 微调。
这就意味着,除了模型本身的权重,我们还需要在显存里塞进梯度、优化器状态以及训练过程中的激活值。
原本以为只是「稍微大一点」的任务,瞬间撞上了物理学的墙。
这些方案不太行
如果你的开发环境是顶级消费级旗舰,拥有 24 GB 的超大显存,但在这次的任务面前,它显得如此无力。
当你尝试启动微调脚本时,终端里那行熟悉的红色报错如期而至:
RuntimeError: CUDA out of memory.
对于 30B 多模态模型的微调来说,24 GB 的显存就是不够。为了让程序跑起来,你可能会选择牺牲性能,比如:
- Batch Size 降到 1: 哪怕训练速度慢到像蜗牛爬。
- 开启梯度检查点: 这是一个典型的「时间换空间」策略,通过不缓存中间激活值而是在反向传播时重算,来节省显存。但这让训练时间直接翻倍。
- 极限量化: 将模型量化到 4-bit 甚至更低。但这也会带来新的问题:对于精密图纸的识别,量化后的模型精度下降明显,连零件号都经常认错。
即使做了所有这些妥协,只要稍微喂进去一张分辨率高一点的图表,显存还是瞬间溢出,程序直接崩溃。那种「只差一点点就能跑通」的挫败感,最是折磨人。
「要不试试隔壁美术组那台 Mac Studio?」你可能会这样想。那台机器拥有 128 GB 统一内存(Unified Memory)。从硬件上看,这简直是完美的救星 —— 别说 30B,就是 70B 也能塞得下。
但当你兴冲冲地把代码拷过去,才发现这是另一个深坑。
首先是环境配置的噩梦。开源社区的主流多模态模型(尤其是涉及底层 CUDA 优化的视觉算子)在苹果芯片上的适配往往慢半拍。你可能会花不少时间解决各种编译报错,好不容易跑通了推理,却发现训练速度受限于优化,效率远不及预期。
更致命的是「生态隔离」。在 Mac 上微调出的模型检查点,想要部署回公司的 Linux 服务器(基于 NVIDIA GPU)上,需要进行繁琐的格式转换和精度对齐。这种开发环境与生产环境的割裂,对于追求快速迭代的工程团队来说,是不可接受的风险。
那么,你到底需要什么?
难道为了跑通这个 30B 模型,你真的要走漫长的合规流程去申请昂贵的 A100 云实例,时刻防范私密数据出域的风险?又或者,仅仅为了这一个开发项目,就专门配置一个高成本的工作站,甚至去采购一台必须安置在专业机房、且维护成本高昂的机架式服务器?
你需要这样一台机器:它要有 Mac Studio 那样海量的统一内存,让你不再为显存精打细算;它同时又必须流淌着纯正的 NVIDIA 血液,拥有原生的 CUDA 生态,让代码无缝迁移。
这个「既要又要」的幻想,直到一台 1 升体积的小盒子的出现,才变成了现实。
桌面上的一升解决方案
这个盒子就是联想 ThinkStation PGX
如果你关注过英伟达之前的动作,可能会觉得眼熟。没错,联想 ThinkStation PGX 在核心配置上与 NVIDIA DGX Spark 完全一致。
准确地说,ThinkStation PGX 正是英伟达 DGX Spark 的 OEM 量产版本。英伟达已将这一参考设计授权给了联想等厂商,由它们负责具体的工程化制造与差异化定制。
这台机器最直观的冲击力来自于它的尺寸:仅有 1 升(1L)。它小到可以轻松塞进通勤背包,放在办公桌的一角几乎没有存在感。但就在这方寸之间,联想塞进了一颗基于 NVIDIA Grace Blackwell 架构的 GB10 超级芯片。
而对于被显存折磨得死去活来的开发者来说,它最性感参数是:128 GB 统一内存(Unified Memory)
这不仅仅是数字的胜利,更是架构的胜利。ThinkStation PGX 的统一内存架构允许 CPU 和 GPU 共享这 128 GB 的海量空间,且可通过 NVLink-C2C 技术实现高速互联。这意味着,开发者终于可以在桌面上拥有接近甚至超越专业级计算卡(如 H100 80GB)的显存容量。
除了核心算力,在数据存储方面,联想贴心地提供了 1TB 和 4TB 两个存储版本。对于大部分只是想快速验证模型原型的开发者,1TB 版本足矣;而对于需要本地存放海量训练数据(如医疗影像、自动驾驶点云或数万张高清图纸)的团队来说,4TB 版本显然是更具安全感的选择。
更关键的是,它是一台「原生」的 AI 机器。预装了NVIDIA AI软件栈,底层运行的是开发者熟悉的 Linux 系统,跑的是最纯正的 CUDA 环境。
接下来,就让我们亲手试一试这样显存巨大的性能小猛兽吧。
首先,掂一掂重量,着实非常小巧,甚至比 Mac mini M1 还小一些。同时,它的设计也非常精致,采用了标志性的蜂窝状散热设计,不仅看起来科技感十足,更是为了保证进风效率。
接下来,把 ThinkStation PGX 连上显示器,通电开机,先来看看基本信息。
在终端输入 nvidia-smi,可以看到显卡型号是 NVIDIA GB10,CUDA 版本为 13.0。但这里有一个有趣的细节:在 Memory-Usage 一栏,它显示的是 Not Supported。
为什么不支持?其实,这反而是最大的利好。
在传统的独立显卡(如 RTX 4090)上,显存是独立的,所以会显示具体 MiB 数值。这里的「Not Supported」以及下面进程列表里能显示显存占用(如 Firefox 用了 230MiB),直接证明了它是统一内存(Unified Memory)架构。
是的,PGX 的 GPU 没有自己封闭的小显存墙,而是直接访问系统的大内存池。
接下来我们将通过一个真实的微调场景来检验这台机器的能力。
首先,我们选择的模型是完整版的 Qwen3-VL-30B-A3B-Instruct。
糟糕的网速下等待 1 个多小时,下载完成。而为了微调模型,我们还需要一个数据集,这里我们选择是的 lyan62 发布的 FoodieQA 数据集。据介绍,FoodieQA 是一个用于细粒度理解中国饮食文化的多模态数据集,其中包含多图像、单图像视觉问答(VQA)以及关于中国地方美食的文本问答问题。该数据集基于 350 种独特美食条目对应的 389 张独特美食图像构建而成。它要求模型不仅能看图,还要懂中国味。
接下来,我们先是自己尝试了编写微调脚本,但效果并不佳。于是我们决定直接让 AI 全程接管,来一次 vibe fine-tuning(氛围微调)!
给 PGX 装上 Claude Code,并配置好 MiniMax-M2.1。然后下达一小段指令:
你是一位出色的 AI 模型微调专家,你现在需要在一台拥有 128GB 统一内存的联想 ThinkStation PGX 上微调一个 30B 大小的 MoE 模型。在这里,models/Qwen3-VL-30B 文件夹中是已下载的 Qwen3-VL-30B-A3B-Instruct 模型,FoodieQA 文件夹中是 lyan62/FoodieQA 数据集。请使用 FoodieQA 数据集完成对 Qwen3-VL-30B-A3B-Instruct 模型的进一步微调。
接下来就是等待。两三个小时后,训练方案终于确定下来。以下是训练稳定后 nvtop 监视画面。
可以看到,对于该任务,GPU 使用率大体在 23% 左右,显存(统一内存)的占用接近 60GB。
要知道,这 60GB 的显存占用,如果是消费级显卡早就炸了三次了,但在 ThinkStation PGX 上,显存条只吃了一半,它甚至游刃有余。更令人印象深刻的是温控。得益于出色的散热设计,在开了暖气的房间里,ThinkStation PGX 的 GPU 最高温度也仅达到了 40℃。
一夜之后,微调完成。在验证集上的损失从 4.03 成功降到了 1.06,下降了 74%。
来一张我们自己拍摄的食物照片来简单试试。
结果大体正确,这个微调过的 Qwen3-VL-30B-A3B-Instruct 正确识别了中间的阳春面,并正确地指出了其属于淮扬菜,不过它也忽略了旁边的蟹黄(确实有点难以辨认)。
整体体验下来,联想 ThinkStation PGX 展现出了几个让开发者无法拒绝的优势:
- 从容加载:128GB 内存意味着我们可以不需要任何量化,甚至可以直接加载 FP16/BF16 精度的原始模型。
- 大胆训练:可以直接开启较大的 Batch Size,不用担心 OOM,训练效率成倍提升。
- 英伟达原生体验:基于 Linux+CUDA,可以直接 clone 官方的微调代码库,配置好环境,一行命令 bash finetune.sh 直接开跑,没有适配的痛苦。
结论很明显:联想 ThinkStation PGX 是目前桌面上唯一能让 30B 多模态模型「跑得舒服」的设备
事实上,微调模型绝非 PGX 的唯一用途。打开想象力,我们能发现很多适合它的大显存 AI 场景,比如:
- 算法工程师的本地沙盒:用于金融或医疗等数据敏感行业。工程师可以在本地完整加载 70B+ 模型验证想法,无需申请云端资源,数据绝不出域。
- 野外科研的离线算力站:对于珍稀动物监测或地质勘探,野外往往没有高速网络。PGX 可塞进背包,离线处理海量红外监控影像。
- 长视频生成的无限画布:视频生成模型对显存需求随时间线性增长。PGX 的大内存能支持生成更长时间的连贯视频素材。
- 具身智能的数字孪生:在桌面运行高保真的 Isaac Sim 仿真环境,训练完成后直接部署到架构同源的 Jetson 模块,零迁移成本。
- 数字艺术家的私有风格库:长期累积创作者自己的 Style Checkpoint,本地运行风格迁移,不用担心独家画风泄露。
为什么选择联想 ThinkStation PGX?
既然核心芯片和架构与英伟达的参考设计(DGX Spark)一致,为什么我们更推荐联想的 PGX?
答案在于两个词:工程服务
驯服 240W 功耗的蜂窝美学
GB10 是一颗性能强悍的超级芯片,但其满载功耗高达 170W,整机功耗更达到 240W。在一个 1 升的极小空间内压制这种热量,如果设计不当,很容易导致积热降频,甚至变成桌面烫手宝。
联想没有简单照搬公版设计,而是沿用了 ThinkStation 家族标志性的「蜂窝状」散热设计。这种源自空气动力学的设计理念(灵感源于阿斯顿・马丁的进气格栅),最大化了机箱前后的进出风效率。
实测表明,相比于初期公版参考设计可能存在的积热问题,PGX 表现得更加「冷静」。对于需要连续跑几天几夜微调任务的开发者来说,这种基于 Top 1 工作站大厂的工程稳定性,意味着你不用半夜起来担心训练因过热而中断。
数据保险
对于购买 PGX 的企业和科研用户来说,最值钱的往往不是机器本身,而是硬盘里的数据:那些私有的行业数据集、微调后的模型权重、以及核心算法代码。
作为中国市场份额第一的专业工作站品牌,联想给 PGX 配备了中国区独享的顶格服务:
- 3 年上门保修:相比于海淘水货或部分竞品可能仅提供的 1 年质保,这是面向生产力用户更合理、也更负责任的保障方案。
- 硬盘数据恢复服务:这是最打动企业用户的痛点。万一硬盘发生物理损坏,联想提供专业的数据恢复服务。对于科研实验室等数据至关重要的机构来说,这项服务的价值远超机器价格本身。
- 售后技术支持:联想工作站在全国拥有超过 1 万名认证工程师,2300 多个专业服务站,100% 覆盖 1-6 线城市,能保证 7x24 小时在线支持。
升级空间:双机 NVLink
如果你觉得 128 GB 依然不够用,PGX 还预留了升级空间。
借助内置的 NVIDIA ConnectX-7 网络技术,你可以将两台 ThinkStation PGX 通过高速互联。在 NVLink 的加持下,两台机器瞬间化身为一个拥有256 GB 统一内存的超级怪兽。
这时,你的桌面算力上限将被进一步打破:你甚至可以尝试挑战上千亿参数量级别的超大模型推理。从 1 升小盒子到双机并行,这给了开发者极大的灵活性。
算力普及的「最后一公里」
回顾这几天的体验,联想 ThinkStation PGX 给我们留下的最深印象,并不是某个具体的跑分数字,而是它带来的「确定性」。
在过去,想要在本地搞定 30B 级别以上的多模态模型微调,总是充满了不确定性:显存会不会爆?量化会不会掉点?算子能不能跑通?
而 ThinkStation PGX 用 128 GB 的海量内存和原生的 CUDA 生态,把这些不确定性变成了一条平滑的直线。它填补了消费级显卡(显存太小)和工业级服务器(动静太大)之间那个巨大的真空地带。
至于大家都关心的价格,在拥有 128GB 统一内存和原生 CUDA 生态的前提下,ThinkStation PGX 1TB 版本售价为 31999 元,4TB 版本售价为 36999 元。这仅仅相当于一块高端专业显卡的价格,却可以换来一台完整的、开箱即用的桌面 AI 超算。
如果要我以编辑的身份给一个购买建议,我的答案是:对于深陷显存焦虑的专业开发者而言,联想 ThinkStation PGX 不仅值得买,甚至可能是目前 4 万元以内唯一的最优解
不妨算一笔账:在市面上,要获得同等规模(128GB)的显存容量,你通常需要购买昂贵的专业级计算卡,或者租用按小时计费且数据需上传云端的 A100 实例。而 ThinkStation PGX 以不到 3.7 万元的顶配价格,提供了一个拥有海量统一内存、原生 CUDA 生态且数据完全私有的桌面级方案。
如果你只是偶尔跑跑 7B 小模型,它或许略显奢侈;但对于那些受够了环境配置错误的算法工程师、对数据安全有极高要求的科研团队,以及希望快速验证 idea 的初创公司来说,PGX 买到的不仅仅是硬件,更是「不折腾」的权利:让你不必再为显存溢出修改代码,也不必再为跨平台移植浪费时间。这种让开发者回归创造力本身的价值,远超机器售价本身。
这或许才是 AI 基础设施普及过程中,最动人的「最后一公里」。
如果你也受够了在 OOM 的边缘试探,ThinkStation PGX 值得成为你桌面上的下一台设备。
热门跟贴