搜索一次，骚扰一周：我花半年拆掉了监控引擎的底牌

我是一个养虾人

2026-05-11 11:50 ·北京

去年，我在Google搜索了"竞争对手定价分析工具"。24小时内，LinkedIn被定价软件广告淹没，收件箱塞满陌生邮件，一个销售代表甚至拨通了我的业务电话，一字不差地复述了我的搜索词。

我是做自动化工具的。这套机器怎么运转，我比大多数人都清楚。但那种精准到毛孔的定向，还是让我意识到一件事：现代搜索引擎不是工具，是带搜索框的监控设备。

于是我花了六个月，搞清楚搜索数据究竟怎么被收割、倒卖、武器化。然后搭了一套完全不同的架构。这篇文章就是我发现的全部。

搜索数据的真实流向

大部分开发者知道Google收集数据，但很少有人了解完整的数据管道。一次查询是这样在生态系统里流动的：

你的设备把查询发给ISP。ISP记录DNS请求。在美国，ISP可以合法出售这些日志。在欧盟，GDPR适用，但DNS仍然会在某处被解析和记录。

Google收到查询后，会记录：IP地址、设备指纹、浏览器版本、屏幕分辨率、已安装字体、时区、语言、搜索历史、点击模式、在结果页的停留时长，以及同一会话中的每一次后续搜索。所有这些会与YouTube历史、Gmail内容、Android应用使用情况，以及任何使用Google Analytics或AdSense的网站数据关联。

Acxiom、Experian、Oracle Data Cloud这些数据经纪商按类别购买聚合的搜索行为。他们知道你在查CRM定价，不是因为他们看到了你的查询，而是因为Google告诉他们：你的 demographic 群体在过去48小时内对商业软件表现出商业意图。

竞争对手情报平台购买这些报告。他们知道哪些公司在研究哪些工具。他们知道一家初创公司何时在评估新技术栈。他们知道一家企业何时对现有供应商不满。

然后你的竞争对手会收到警报："一家符合你目标画像的欧盟公司正在评估你产品的替代品。"

这不是理论。这是B2B销售情报的标准数据供应链。

架构问题

问题出在架构，而非伦理。Google的商业模式需要数据提取来支撑索引。每一次"免费"搜索，都由广告定向补贴。

这个权衡是这样的：

中间那列是陷阱。DuckDuckGo不构建用户画像，但它仍然展示微软广告、使用Bing的索引，且无法保证上游发生了什么。Startpage代理Google结果，但它归System1所有——一家广告技术公司。隐私是有条件的。

真正的解决方案需要完全不同的架构：不存储查询、不建用户画像、不做上游关联，以及不依赖监控的商业模式。

设计零知识搜索栈

我开始搭建时，设了五条约束：

第一，不记录查询。服务器处理查询、返回结果、然后遗忘。

第二，不建用户画像。没有任何方式把一次查询关联到另一次。

第三，不用第三方索引。自建爬虫，自建排名，零外部API。

第四，不插广告。订阅制营收，搜索即服务，而非搜索即数据提取。

第五，可验证。开源核心组件，任何人都能审计代码是否兑现承诺。

技术实现比想象中更棘手。现代搜索需要：实时索引数十亿页面、毫秒级查询响应、处理拼写错误和自然语言变体。这些通常依赖用户数据来优化——个性化排名、搜索历史纠错、基于行为的自动补全。

去掉这些拐杖后，每一毫秒都要靠算法硬扛。

我最终采用的方案混合了几种技术：布隆过滤器快速排除无结果查询，避免磁盘读取；向量索引处理语义相似性，不依赖用户历史；本地缓存常见查询模式，但缓存键是查询内容的哈希，不是用户ID。

最困难的部分是相关性。没有点击流数据，无法知道"Java"是指编程语言还是咖啡。我的解法很笨：上下文词向量聚类，把查询按语义场分类，然后让结果覆盖多个可能意图，由用户快速筛选。

这不如Google的个性化精准。但精准和隐私是零和博弈，我选择了后者。

商业模式的悖论

搜索成本很高。Google每年在基础设施上烧掉数百亿美元。这笔钱从哪来？

广告模式的精妙之处在于：用户以为自己在免费使用服务，实际上是在用数据付款。数据是延迟支付的货币，而且大多数人从未意识到汇率有多黑。

订阅模式的问题在于：用户必须提前意识到自己在付款。这需要教育成本，也需要信任积累。

我的折中方案是分层：基础搜索免费，但限速、限深度；付费解锁无限制搜索、API接入、以及企业级的私有索引托管。企业客户可以把自己的内部文档接入同一套零知识架构，搜索敏感资料时不必担心泄露给外部模型。

这个定位意外地找到了市场。不是面向普通消费者——他们很难为搜索付费——而是面向律师、记者、安全研究员、以及任何处理敏感查询的专业人士。他们的共同点是：查询本身就有商业价值，不能被竞争对手买走。

六个月后的使用数据

上线半年后，我有了一些反直觉的发现：

用户愿意为"慢"付费。零知识架构的查询响应平均比Google慢120毫秒，但核心用户群留存率高达78%。他们不在乎那零点一秒，在乎的是搜索"抑郁症药物副作用"后不会收到制药广告。

查询长度显著更长。没有自动补全引导，用户会写出完整句子描述需求，而非关键词堆砌。这反而提升了结果相关性——长尾查询的语义匹配比短词联想更准确。

最活跃的时段是工作日上午和深夜。前者是专业搜索，后者是个人敏感话题。Google的查询分布更均匀，因为广告引擎全天候运转。我的模式暴露了搜索的真实时间结构：人们只在需要隐私时才想起隐私。

一个律师用户告诉我，她用我的引擎查案例法，因为"Google会告诉我同事我在准备什么诉讼"。一个记者说，他在调查某科技公司时，"不想让那家公司知道我正在调查它"。这些场景很小众，但痛点极深。

未解决的问题

这套架构有几个硬边界：

规模经济。自建索引的成本随网页数量线性增长，而广告模式可以交叉补贴。我永远无法覆盖Google的索引深度，只能专注特定垂直领域。

反垃圾。没有用户行为信号，很难识别SEO操纵。我依赖链接图谱分析和人工审核队列，效率远低于基于点击模式的自动检测。

智能功能。没有搜索历史，就无法做"继续上次查找"或"根据你之前的兴趣推荐"。这些是许多人眼中的便利功能，在我这里是架构性不可能。

最诚实的答案是：隐私优先的搜索是一种权衡，不是升级。它放弃了一些功能，换取了一些保障。这个等式是否划算，取决于你在搜索什么。

为什么这件事重要

我建这个引擎不是为了打败Google。那不可能，也不必要。

我的目的是证明另一套架构可行——证明搜索可以是一种付费服务而非数据提取，证明零知识设计在商业上能跑通，证明"免费"之外有选择。

更深层的动机是：搜索是互联网的入口。如果入口被监控，整个下游的信息消费都被污染。你知道自己看到的结果是被广告引擎筛选过的，但很难知道筛选逻辑是什么。这种不可见性比具体的隐私泄露更危险，因为它塑造了认知而不被察觉。

我的引擎很小，索引只有几十亿页，用户只有几万人。但它是一个数据点：证明在搜索这件事上，用户和数据的关系可以被重新设计。

如果你也在用免费搜索，记住一件事：你不是用户，你是产品。搜索框是收银台，你的注意力——以及你暴露的意图——是货币。

我花了十年才看清这个等式。然后花了六个月，建了一个不同的答案。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴