朋友丢了12块硬盘，我写了套扫描引擎逼它现形

像素与芯片

2026-04-04 03:20 ·北京

256块硬盘里找一句12个单词的密语，和用金属探测器在沙滩上找一枚戒指的区别是：戒指不会主动躲你。

一位开发者朋友最近干了件很多人想过但没人真做的事——写了一套能从原始磁盘扇区里"嗅"出加密货币助记词的开源工具。不是读文件系统，是逐字节扫描物理磁盘。他把核心引擎MIT协议开源了，理由是：如果你要在可能存过助记词的机器上跑恢复软件，每一行碰过你数据的代码都该经得起检查。

从"大海捞针"到"排除法"

从"大海捞针"到"排除法"

故事起点很私人。他的朋友丢了钱包，散落在十几块好坏参差的硬盘里。市面上没有工具能同时满足三个条件：离线运行、开源可审计、直接从原始扇区提取。于是他决定自己造。

这套系统的核心逻辑像切片检查。工具以1MB为块读取磁盘的每一个原始字节，用滑动窗口遍历所有可能的BIP-39序列。BIP-39是比特币改进提案第39号，定义了助记词生成标准——12或24个单词对应一个加密种子，丢词等于丢钱。

关键在验证层。很多工具看到12个单词就报"找到"，这套引擎会跑完整校验和。随机单词序列被误判的概率是1/256，而返回的结果都经过加密学验证，不是简单的词数匹配。假阳性可以量化，真阳性可以证明。

技术细节很克制：零网络调用、零遥测、助记词不出本机。作者说用grep扫一遍代码，30秒就能确认没有偷偷往外传数据。

为什么开源的是"引擎"而非完整产品

为什么开源的是"引擎"而非完整产品

商业版本是Windows应用，但开源的只有三个核心模块：LowLevelScanner（底层扫描）、BIP39Checksum（校验和验证）、Bip39Sequence（序列提取）。这是有意为之。

作者的原话是：「Published for transparency」。不是做慈善，是建立信任。加密货币恢复工具面对的是一个悖论——用户把最敏感的资产交给陌生软件，却没法知道软件在干什么。开源引擎让用户可以只审核心逻辑，不用管UI层的多余代码。

这种拆分也有工程考量。磁盘扇区操作和BIP-39校验是通用能力，UI和流程控制是产品差异点。把底层MIT出去，既回应了社区对透明度的诉求，也不损害商业产品的护城河。

GitHub仓库的README很朴素，没有演示视频，没有功能截图，只有一句「Real code, not a demo」。作者说欢迎提问实现细节，但显然更期待的是代码层面的反馈而非用户支持请求。

1/256的假阳性意味着什么

1/256的假阳性意味着什么

这个数字值得拆开看。BIP-39助记词有校验和机制，最后几个单词不是随机的，而是前面单词的哈希结果。纯随机12词序列通过校验的概率，正好是1/256。

作者的设计选择是：宁可漏报，不可误报。如果扫描1TB的废旧数据，理论上会遇到数百万个"看起来像助记词"的随机序列，但真助记词会被校验和筛出来，假阳性率被锁死在可预期范围内。

对比市面上某些闭源工具的做法——看到单词组合就弹窗提示"可能找到"，让用户人工判断——这种硬校验的设计明显更尊重用户时间。256分之一的误判率在密码学里不算低，但在数据恢复场景下已经足够实用。

一个细节：工具扫描的是"物理磁盘"而非"分区"或"文件系统"。这意味着即使硬盘被格式化、分区表损坏、或者数据藏在已删除文件的残留扇区里，仍然可能被捞出来。对于那种"我好像把助记词存过某个文档但找不到了"的场景，这是唯一可靠的兜底方案。

信任的建立方式变了

信任的建立方式变了

加密货币工具的安全叙事正在微妙转向。早期行业喜欢强调"军用级加密""银行级安全"这类无法验证的标签，现在越来越多的开发者选择用可审计性替代承诺。

这个项目的发布方式很有代表性：没有白皮书，没有代币，没有"社区治理"的空头支票。只有一个GitHub仓库，一段30秒可验证的代码审查路径，和一个愿意回答技术问题的作者。

作者的朋友最终有没有找回钱包？原文没说。但工具已经帮至少一个人排除了"它肯定不在那块硬盘上"的焦虑——这种确定性本身就有价值。

如果你有一块存过助记词的旧硬盘现在不敢扔，你会选择相信一个闭源工具的"我们绝不偷数据"承诺，还是愿意花30秒grep确认一段开源代码确实没联网？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴