一个知识库从200页涨到1000页,需要多久?答案是:几个月,而且不需要你动手。当Synthadoc的自动抓取 nightly 跑起来,YouTube字幕、PDF、网页搜索源源不断灌进来,规模问题就从"未来隐患"变成了"正在发生"。

v0.4.0要解决的就是这个:查询变慢、低质量页面污染结果、以及——很多人没意识到最关键的——你想把知识库的原始证据塞进 agent prompt,系统却非要给你合成一个答案。

打开网易新闻 查看精彩图片

先说数字。BM25在100页知识库上查询是个位数毫秒,但到了1000页跨领域内容(机器学习、分布式系统、组织理论混在一起),每次查询都要扫全库。再加上查询分解把一个问题拆成3-5个子问题,成本直接乘以3-5倍。实测曲线很说明问题:无路由的基线版本随库增长明显上扬,而有路由的版本几乎持平——因为每个分支的页面数不变,总库再大也不影响。

但性能只是表面。更隐蔽的问题是"污染":一个关于高血压治疗方案的查询,本来就不该碰到分布式共识算法的页面。无关内容不仅会拖慢速度,还可能漂进合成答案里,稀释结果质量。

v0.4.0的三项更新对应三个痛点。路由层(Routing Layer)解决规模问题,用领域分割把查询导向相关子集;质量门(Quality Gates)拦截低置信度页面;而 context packs——按团队说法"指向比功能更大的东西"——终于让你能直接把结构化知识以原始证据形式喂给 agent,而不是被迫接受二次加工后的答案。

知识库的自增长特性让路由变得非做不可。没有它,查询质量会随着页面膨胀静默劣化,用户甚至意识不到问题出在哪。这有点像索引:小数据量时全表扫描凑合,但一旦上了规模,架构设计就成了生死线。

context packs 的野心更值得玩味。它试图回答一个被忽视的问题:当 AI 工具链越来越复杂,"知识"到底应该以什么形态流动?合成答案方便,但牺牲了可验证性;原始证据可信,却需要额外的组装成本。Synthadoc 的赌注是,后者才是 agent 时代的正确接口——不是给答案,而是给材料。