一次NAS更新让我丢了全部虚拟机

爬虫饲养员

2026-05-01 21:12 ·北京

我以为RAID就是备份。直到一次系统更新后，我的Proxmox服务器再也找不到那些虚拟机了。

作者在自己的家庭实验室（homelab）里犯了一个典型错误：把冗余当备份。几周前，一台NAS服务器推送了更新，这次更新改变了NFS挂载的路径映射。原本存储在NAS上的虚拟机，对Proxmox来说突然"消失"了。

问题本不难解决——重新映射驱动器就行。但作者没意识到发生了什么。等反应过来时，多个虚拟机和Docker容器已经没了。

知道和做到之间隔着什么

作者的原话很直白：「我知道RAID不是备份，但我还是把它当成了备份。」

这话戳中了很多技术人的痛点。我们收藏过无数备份方案，GitHub星标过十几个开源工具，却在真正出事前迟迟不动手。作者承认自己拖延设置简单备份系统，因为「以前从没出过事，觉得没那么重要」。

结果证明：没计划就是计划着失败。

RAID（独立磁盘冗余阵列）的设计目标是高可用性——硬盘坏了，服务不停。但它防不了误删、勒索软件、或者像这次的路径配置变更。真正的备份需要独立的、版本化的、可离线恢复的数据副本。

为什么复杂方案反而危险

这次灾难的讽刺之处在于：作者为了追求"高可用"，把架构搞得太复杂。

Proxmox的虚拟机存储在NAS上，通过NFS挂载实现所谓的"高可用"。这套设计本身没问题，但增加了故障排查的链条。当NAS更新改变了路径，作者的第一反应不是检查挂载配置，而是在复杂的分布式存储逻辑里绕圈。

简单的本地备份——比如定期把虚拟机镜像拷到另一块硬盘——反而能让他几分钟内恢复。但"简单"意味着承认自己不需要那么酷的架构，这对技术人是个心理门槛。

家庭实验室（homelab）文化里有个隐形偏见：越复杂的堆栈越"专业"。ZFS快照、Ceph集群、跨站点复制……这些方案在HackerNews上收获点赞，却也让恢复路径变得不可预测。作者的经历说明，当你真正需要恢复数据时，每一步额外的抽象都是风险。

一个可执行的底线方案

作者没给出具体的技术栈推荐，但故事本身指向一个最小可行备份策略：

第一，3-2-1原则——3份数据，2种介质，1份异地。这不是新概念，但作者用丢失虚拟机的代价重新验证了它的价值。

第二，备份必须被验证。挂载路径变更后，Proxmox"看不到"数据，但数据物理上还在NAS上。如果作者有定期测试恢复流程，这个故障模式早该被发现。

第三，简单到不会找借口拖延。作者明确说，他拖延是因为觉得备份"没那么重要"。任何需要写Ansible剧本或调试Terraform的方案，在这种心态下都会被无限期推迟。

一个USB硬盘加cron定时任务，胜过永远没配置的"完美"方案。

数据收束

作者最后没提具体丢了什么数据，也没说恢复花了多久。但这种沉默本身就是数据点——在真实的生产事故复盘里，最痛的损失往往难以量化。

家庭实验室是技术人的沙盒，但沙盒里的习惯会带进工作。当你在凌晨三点调试一个为了"高可用"而设计的分布式系统时，值得问自己：如果现在主节点挂了，我能在多久内让一个单节点实例跑起来？

这个答案的数字，比任何架构图的复杂度都更能说明你的系统成熟度。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴