打开网易新闻 查看精彩图片

2025年底,我亲手拆掉了自己搭了3年的All-in-One。

不是硬件炸了,是终于想通了——让NAS当NAS,让虚拟化平台干虚拟化的活。这个决定让我的家庭实验室从"俄罗斯轮盘赌"变成了"模块化乐高"。

从群晖到DIY:一个产品经理的十年折腾史

从群晖到DIY:一个产品经理的十年折腾史

我的家庭实验室起点很普通:一台Synology DiskStation DS216+。那是预构建NAS的黄金时代,插上硬盘、注册账号、点点鼠标,文件存储和媒体服务就活了。

但产品经理的毛病是总想"优化"。预构建方案像ISP送的路由器——能用,但处处是天花板。我开始往DIY方向滑,试过各种紧凑PC跑Proxmox节点,软件方案换了一茬又一茬。

折腾到2025年,我认定TrueNAS SCALE是终点。它确实全能:ZFS文件系统、Docker容器、应用商店、远程访问,一个平台包办存储和计算。维护窗口缩到最小,监控面板一眼看完,完美符合"单点可控"的产品思维。

直到我意识到这个"完美"有个致命bug。

单点故障:那个没人愿意聊的房间里的大象

单点故障:那个没人愿意聊的房间里的大象

All-in-One的甜蜜期很长。电费账单好看,布线清爽,排查问题时不用在三个界面之间跳来跳去。Jellyfin、Plex、Nextcloud、Frigate、Pi-hole,全跑在TrueNAS SCALE上,开机即服务。

但风险是串联的。NAS更新重启?全家断网。硬盘故障触发保护机制?不仅文件打不开,连看剧的入口都没了。某次我人在外地,系统更新后Docker网络没起来,远程隧道跟着陪葬——那一刻我同时失去了数据和访问数据的手段。

十年NAS使用史,我只遇过一次硬盘故障。更新重启的次数也屈指可数,且通常发生在凌晨。但这些"极小概率事件"的杀伤力被All-in-One架构放大了十倍:以前是丢一个功能,现在是丢整个堆栈。

预构建NAS用户很少考虑这些,因为Synology们把硬件兼容性和故障恢复做成了黑箱。DIY之后,这套责任全落在你肩上。

解耦实验:把TrueNAS SCALE砍到只剩骨架

解耦实验:把TrueNAS SCALE砍到只剩骨架

2025年底的架构调整很粗暴:TrueNAS SCALE只干一件事——存储。Proxmox接管所有计算负载,包括原先跑在NAS上的十几个容器。

拆分后的第一感受是"认知减负"。以前排查故障要同时怀疑ZFS池、Kubernetes网络、应用配置三层;现在存储层和计算层有清晰的边界,日志和监控各自归位。LAN拓扑图从蜘蛛网变成了分层的方块图。

电费确实涨了。多一台设备待机,电源和散热都有开销。但对比之前"全家服务瘫痪"的焦虑,这点成本像给系统买的保险。

更意外的是性能。TrueNAS SCALE卸载计算负载后,SMB和NFS响应更稳定;Proxmox的KVM虚拟化比SCALE的Kubernetes对资源更"诚实",不会出现容器资源争抢导致的随机卡顿。

那些没拆之前不会发现的细节

那些没拆之前不会发现的细节

TrueNAS SCALE的应用生态有个隐藏成本:社区应用的质量参差不齐。Frigate的NPU加速配置在SCALE上折腾了两周,同样的硬件移到Proxmox后,Debian容器里半小时跑通。

SCALE的Kubernetes抽象层对新手友好,但对想深度定制的人成了障碍。某次我需要给Jellyfin挂载特定的渲染设备,SCALE的UI里没有这个选项,SSH进去改配置会被下次更新覆盖——这种"友好的枷锁"在解耦后彻底消失。

Proxmox的学习曲线更陡,但陡峭意味着透明。每一个网络桥接、每一次PCIe直通、每一行LXC配置都是显式的,出了问题有明确的排查路径。

现在我的TrueNAS SCALE只暴露两个服务:SMB共享和NFS导出。备份策略、快照周期、scrub计划,这些NAS的核心功能反而因为专注而调得更细。Proxmox节点通过NFS挂载存储,容器和虚拟机各自独立,一个挂掉不影响其他。

这个架构用了三个月,目前还没有需要"紧急救火"的时刻。最极端的一次是Proxmox主节点更新后网络配置异常,但NAS上的文件共享始终在线——以前这种情况意味着全家断网断流,现在只是部分服务降级。

如果你也在跑All-in-One,最近一次计划内维护时,有没有算过全家多少服务会同时离线?