Synthadoc 0.4.0：当知识库膨胀到千页，搜索如何不崩盘

爬虫饲养员

2026-05-12 08:14 ·北京

一个知识库从200页涨到1000页，需要多久？答案是：几个月，而且不需要你动手。当Synthadoc的自动抓取 nightly 跑起来，YouTube字幕、PDF、网页搜索源源不断灌进来，规模问题就从"未来隐患"变成了"正在发生"。

v0.4.0要解决的就是这个：查询变慢、低质量页面污染结果、以及——很多人没意识到最关键的——你想把知识库的原始证据塞进 agent prompt，系统却非要给你合成一个答案。

先说数字。BM25在100页知识库上查询是个位数毫秒，但到了1000页跨领域内容（机器学习、分布式系统、组织理论混在一起），每次查询都要扫全库。再加上查询分解把一个问题拆成3-5个子问题，成本直接乘以3-5倍。实测曲线很说明问题：无路由的基线版本随库增长明显上扬，而有路由的版本几乎持平——因为每个分支的页面数不变，总库再大也不影响。

但性能只是表面。更隐蔽的问题是"污染"：一个关于高血压治疗方案的查询，本来就不该碰到分布式共识算法的页面。无关内容不仅会拖慢速度，还可能漂进合成答案里，稀释结果质量。

v0.4.0的三项更新对应三个痛点。路由层（Routing Layer）解决规模问题，用领域分割把查询导向相关子集；质量门（Quality Gates）拦截低置信度页面；而 context packs——按团队说法"指向比功能更大的东西"——终于让你能直接把结构化知识以原始证据形式喂给 agent，而不是被迫接受二次加工后的答案。

知识库的自增长特性让路由变得非做不可。没有它，查询质量会随着页面膨胀静默劣化，用户甚至意识不到问题出在哪。这有点像索引：小数据量时全表扫描凑合，但一旦上了规模，架构设计就成了生死线。

context packs 的野心更值得玩味。它试图回答一个被忽视的问题：当 AI 工具链越来越复杂，"知识"到底应该以什么形态流动？合成答案方便，但牺牲了可验证性；原始证据可信，却需要额外的组装成本。Synthadoc 的赌注是，后者才是 agent 时代的正确接口——不是给答案，而是给材料。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴