打开网易新闻 查看精彩图片

一个普通开发者每天打开Google 47次,其中23次是在找自己上周刚看过的页面。

这个数字来自Alexandre Cazala的实测记录。他在2024年12月启动了一个实验:用1.5个月时间,把自己对Google Search的依赖砍掉一半。结果他做到了——不是靠戒断,而是靠一个自己写的工具Hister。

搜索正在变成"二次失忆症"

搜索正在变成"二次失忆症"

Cazala的身份标签很典型:开发者、知识工作者、每天和文档打交道的人。他描述的症状也极其普遍:工作时手指会自动敲下google.com,大脑还没反应过来,眼睛已经在扫描蓝色链接了。

但让他真正警觉的,是搜索行为的性质变了。

以前用Google是探索未知,现在更多是"找回已知"——那篇上周读过的API文档、昨天评论过的GitHub issue、团队内部wiki里的部署流程。这些页面他明明访问过,却不得不重新用关键词打捞。Google成了他的外部记忆体,而且是一个需要付费观看广告、并被全程记录使用姿势的记忆体。

更麻烦的是盲区。内部工具、私有仓库、需要登录的文档,Google根本索引不到。Cazala发现自己在这些场景下会陷入一种诡异的循环:先搜Google,失败,再凭模糊记忆去翻浏览器历史,再失败,最后问同事。

三次跳转,时间碎成渣。

他把浏览器历史做成了搜索引擎

Hister的核心逻辑简单到近乎粗暴:在本地建索引,把你访问过的每一个页面全文检索化。

技术栈选了Rust写爬虫,Tantivy做索引引擎,前端用Leptos(一个Rust写的Web框架)。Cazala在GitHub开源了完整代码,README里写着一行自我调侃:"又一个yak shaving项目"——程序员黑话,指为了解决小问题而陷入无限套娃的工程行为。

但这个小工具解决了一个被忽视的界面问题:浏览器历史的设计还停留在"按时间倒序列出URL"的2005年逻辑。当你记得某个页面里有"docker compose healthcheck"的关键词,但忘了是哪个域名时,原生历史页面毫无用处。

Hister的做法是抓取页面全文,建立可搜索的索引。用户输入关键词,它返回所有访问过的、内容匹配的页面,按相关度排序。内部文档、私有仓库、需要登录才能看的页面——只要你的浏览器能访问,它就能索引。

隐私层面是彻底的本地优先。数据不出机器,没有云端同步,没有用户画像,没有"你可能还喜欢"。Cazala的比喻很精准:这是把搜索从"租房"变成了"自有住房",前期装修麻烦,但住进去后没人收你数据当房租。

50%的削减从哪来

50%的削减从哪来

Cazala没有公布具体的使用数据,但描述了一个行为转变的临界点。第一周,他下意识还是会先开Google;第二周开始,在输入关键词前会停顿半秒,问自己"这个我看过吗";到第四周,Hister成了默认动作,Google退回到"真的找新东西"的场景。

这个比例最终稳定在50%左右。剩下的一半,是探索性搜索——确实需要发现从未接触过的信息。

有趣的是,他对Google的批评集中在"信号衰减"而非"隐私侵犯"。 sponsored results(赞助结果)和shopping suggestions(购物建议)把有机结果挤到屏幕中段;SEO优化的内容农场占据前排;AI生成的摘要(AI-generated summaries)在技术查询场景下经常过度简化或出错。

Cazala的观察是:Google搜索的界面正在从"工具"滑向"平台"——平台需要变现,变现需要占用你的注意力。而个人历史搜索是反平台的,它没有广告位可卖。

本地索引的边界与代价

Hister不是万能药。Cazala列出的限制很诚实:初始索引需要时间,硬盘占用随历史增长,多设备同步需要自建方案(目前不支持),以及最致命的——它只能找回你"已经看过"的东西。

这意味着它无法替代探索性搜索。当你需要学习一个全新领域,或者排查一个从未见过的报错时,Google、Stack Overflow、官方文档仍然是必经之路。

但Cazala认为这个边界恰恰澄清了搜索行为的本质。我们把两种完全不同的认知操作塞进了同一个输入框:发现新信息,和找回旧信息。Google擅长前者,却在后者上过度服务——用广告、追踪和AI摘要包裹一个简单的记忆检索需求。

他的解法是把这两件事拆开。Hister负责"找回",Google负责"发现",各归其位。

这个思路在工具层面并不新鲜。Devonthink、Recoll、甚至苹果的Spotlight都在做本地全文检索。但Hister的针对性在于:它只索引浏览器访问过的网页,不做文件系统,不做邮件,不做PDF——极致的单一功能,换来极致的轻量。

Cazala在博客末尾提到一个细节:索引完成后,他在Hister里搜"postgres connection pool",结果里出现了一篇三年前看过的博客,作者是个无名开发者,内容比官方文档更解决他的实际问题。那篇文章在Google结果里早已沉到第五页之后,因为他当年没有收藏,也从未记住域名。

工具帮他找回的,本质上是一个被遗忘的决策路径——当年为什么选择这个方案,而不是另一个。

如果浏览器历史默认支持全文检索,我们还会把这么多记忆外包给广告驱动的搜索引擎吗?