VEKTOR Slipstream v1.7.4：推理力度随意调，记忆搜索终上线|slipstream|vektor|上下文|大模型|推理|智能体|调用

本周，VEKTOR Slipstream 发布了 v1.7.4 版本。这轮更新把重心拉回到模型层，但更让人兴奋的是，它补上了一个让开发者念叨了几个月的能力：Desk 智能体现在真的能搜索你的记忆图了。与此同时，一个直接改变 Claude 模型日常运行成本与延迟体验的新参数也正式接入，不用换模型，只动一个开关就能在推理深度上做文章。

如果一直在跟进 Slipstream 的节奏，你应该记得前几个版本几乎全在打防御牌。v1.7.3 装上了 Faraday——一套多智能体提示注入护盾，作为安全代理扫描每一次 MCP 工具调用，确保没有威胁触及记忆结构。再往前，团队埋头在因果推理和 FadeMem 衰减层里，教系统学会在合适的时机遗忘。相较之下，v1.7.4 是一次转向模型效率与实用性的版本。

这次的核心变化之一，是试着解决大模型调用中“一刀切”的问题。每一次调用都在消耗 token、时间和金钱，但多数工具把这笔成本看成固定支出。选好模型、写好提示，模型在推理预算上自己决定要花多少力气，最终不管是一次简单的事实查询还是复杂的多步合成，运行成本相差无几。实际上，它们需要的“思考”天壤之别。

Anthropic 的新一批 Claude 模型——Sonnet 5 和 Fable 5——通过 API 中的 output_config.effort 导出了一个可以直接控制的“努力”参数。无需为了廉价任务切换到小模型，你可以在同一模型里直接把推理努力拨低或拉高。低努力应付一个快速标签建议；高甚至最高努力留给真正需要模型一步步拆解问题的时候。

v1.7.4 把这个参数接进了 VEKTOR 的配置层。系统内置了一张 EFFORT_CAPABLE 映射表，记录了每款 Claude 模型支持的努力等级区间。如果你选了一个当前模型不支持的等级，Slipstream 会自动钳制到该模型的实际上限，而不是直接报错。假如使用者调用的是完全非 Claude 的模型，这个参数则会被静默丢弃，不留任何错误路径。

实际操作很简单：配置面板的 Active Model 卡片下，新增了一行“努力药丸”选择器，从低、中、高、极高到最大，按模型支持范围显示。设定后通过统一的配置存储保存，无论在主聊天路径还是 Desk 智能体的工具调用循环里都生效，一次配置，全员遵守。这个设计的价值比纸上谈兵大得多——比如在跑大批量任务时，像重新嵌入会议转录或后台 REM 周期合成，可以把努力调下来，实实在在节省成本，却不需要整个切到更弱的模型。而在真正需要缜密推理的时候，再拨上去就行。

另一个迟到但重要的补丁，是 Desk 智能体终于获得了搜索记忆的能力。此前它面对记忆图只能“看”而不能“搜”，现在这个缺口被堵上了。这意味着 Desk 在辅助工作时，能基于真实记忆快速定位信息，不再是一个脱离上下文的断线工具。

顺便看一眼模型赛场，OpenAI 和 Anthropic 都还在往前赶。控制推理深度的能力被摊到桌面上之后，一个更细粒度的模型使用方式也许就快来了。到那时候，启动一次调用之前，先用一个旋钮决定让模型“多想多少”，可能会和选择模型本身同样重要。