程序员把12个单词藏进1TB硬盘，找回率从0%飙到99.7%

像素与芯片

2026-04-04 03:11 ·北京

一位加密货币持有者把助记词（BIP-39种子短语）弄丢了，散落在十几块新旧硬盘里。传统恢复工具只能扫文件系统，像用渔网捞针——针早沉到磁盘物理层的泥沙里了。

他的朋友，M Media Software Lab的开发者，直接写了一个从原始扇区逐字节读取的扫描器。不是文件，是物理磁盘上的每一个原始字节。这个工具刚刚开源，MIT协议，零网络连接，零遥测。

为什么文件系统扫描会漏掉真正的目标

为什么文件系统扫描会漏掉真正的目标

大多数人理解的"删除"只是操作系统把文件标记为"可覆盖"。数据还在磁盘的物理扇区里，直到被新内容覆盖。但常规恢复软件只认文件系统能识别的结构——NTFS、FAT、exFAT的目录树。

如果你的助记词曾经存在过某个文本文件里，那个文件被删除、分区被格式化、甚至磁盘被快速清零过，文件系统的索引早就没了。但那些字节可能还躺在扇区0x3A7F2000附近，等着被覆盖。

这位开发者的工具绕开所有文件系统抽象，直接读取原始磁盘设备。Windows下用CreateFile(\\.\PhysicalDriveN)，Linux下开/dev/sdX，把整块硬盘当成一个巨大的字节数组。

它不做"看起来像助记词"的猜测，而是完整实现BIP-39校验规范：提取候选词序列后，计算校验位，只有通过密码学验证的才输出。

随机词序列误报率：1/256。返回的结果不是"可能是"，是"密码学上 verified"。

滑动窗口与1MB块：在TB级数据里做实时验证

滑动窗口与1MB块：在TB级数据里做实时验证

技术实现上有个朴素的问题：硬盘是TB级的，内存是GB级的，怎么扫？

工具把磁盘切成1MB的块流式读取，在每个块内部跑滑动窗口。窗口大小按BIP-39标准来：12词、15词、18词、21词、24词，每种长度都试。词库是2048个单词的固定列表，多语言支持。

窗口滑动的步长是1字节——意味着重叠扫描，不会漏掉跨块边界的序列。1MB块的设计是个权衡：太小则I/O开销爆炸，太大则内存占用上升。实测这个尺寸能在消费级SSD上跑满顺序读取带宽。

校验环节用了BIP-39的完整规范，不是简化的哈希匹配。助记词的最后一个词是校验和，工具会重新计算熵的SHA-256，取前几位对比。这一步把误报从"看起来像"压到"数学上不可能错"。

开源的三个核心模块分工明确：

• LowLevelScanner：原始磁盘I/O，处理权限提升、坏扇区跳过、读取错误重试

• Bip39Sequence：滑动窗口提取，多语言词库匹配，候选序列生成

• BIP39Checksum：完整校验和验证，熵长度检测（128-256位）

GitHub仓库里是真代码，不是演示。商业版Windows应用用的就是同一套引擎。

零网络与可审计：为什么开源比"信任我们"更重要

零网络与可审计：为什么开源比"信任我们"更重要

助记词恢复是个极度敏感的领域。你把可能价值数百万美元的12个单词，交给一个闭源软件，它有没有偷偷上传？有没有留后门？

这个工具的回答很直接：零网络调用，零遥测，你的词永远不会离开机器。验证方式也直接——用grep搜代码里的网络API调用，30秒就能确认。

开发者把核心引擎开源的动机写得很清楚："如果你要在可能存过助记词的机器上跑恢复软件，你应该能读到每一行碰过你数据的代码。"

这不是道德姿态，是密码学社区的长期传统。比特币本身开源，BIP-39标准开源，钱包软件大多开源。闭源的助记词恢复工具反而显得突兀——它要求你信任一个看不见的黑盒，去找回你因为不信任银行而创造的资产。

开源协议选MIT，比GPL更宽松。商业版的存在不影响引擎的自由使用，你可以直接编译命令行版本，或者把模块集成进自己的工作流。

从个人工具到通用引擎：边界与局限

从个人工具到通用引擎：边界与局限

这个工具最初是为"朋友的海量硬盘"写的，目标很明确：至少排除掉"确定不在这里"的磁盘。它的设计假设也围绕这个场景：你有物理磁盘访问权限，磁盘没有硬件损坏到读不出扇区，助记词曾经以纯文本形式存在过。

它不解决的情况同样值得注意：

• 助记词被加密存储（需要你先解密）

• 磁盘被覆写多次（物理层数据已消失）

• 助记词只存在于内存中，从未落盘

• 硬件级全盘加密且密钥丢失

但对于"我记得存过，但不知道在哪个盘、哪个文件"的场景，扇区级扫描是最后的系统性手段。文件系统层面的工具已经无能为力时，物理层还有一线机会。

性能方面，NVMe SSD上能跑到数GB每秒的扫描速度，瓶颈在CPU的校验计算而非I/O。机械硬盘则受限于转速，但反正你也只能等着。多线程实现让每个物理磁盘可以独立并行，CPU核心足够时插满硬盘一起扫。

那位朋友最终有没有找回钱包？原文没提。但工具的开源说明里有一句值得玩味的话——发布是为了透明度，为了让每个在绝望中尝试恢复的人，至少能知道自己跑的是什么代码。

如果你手里也有一块"可能存过助记词"的旧硬盘，你会选择相信一个闭源工具的"我们绝不偷数据"承诺，还是宁愿多花两小时编译一个能逐行审计的开源方案？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴