打开网易新闻 查看精彩图片

一个调研任务,AI搜了47个网页,输出3000字报告,产品经理看完直接扔回收站。不是信息不够,是看完更不知道怎么决策了。这场景在2024年反复上演,直到有人意识到:研究型智能体(Research Agent)的根本价值从来不是"搜得多",而是"判得准"。

当前行业有个荒诞的分裂。一方面,Perplexity、OpenAI的Deep Research、Google的Gemini Deep Research把搜索+推理的链路跑通,用户开始习惯"问复杂问题,拿结构化答案";另一方面,企业内部落地的"研究Agent"大多沦为高级爬虫——输入关键词,输出摘要,中间零判断。某头部云厂商的内部调研显示,其客户部署的研究类Agent中,73%的查询停留在单轮检索,没有证据比对环节。

检索便宜,合成才是价值。

原文作者画了一张流程图,把生产级研究Agent的骨架拆成8个函数:澄清问题、分解子问题、搜索来源、过滤来源、提取主张、比对证据、解决冲突、引用式总结。这串动作对应一个被忽视的真相——资深分析师的研究流程本身就是Agentic的,只是过去用Excel和咖啡模拟,现在用代码自动化。

但自动化不等于智能化。多数失败案例栽在同一个坑:把"能访问网页"当成"能做好研究"。

研究Agent的两种死法

研究Agent的两种死法

第一种死法是幻觉型自信。没有工具调用的研究Agent,面对"2025年企业级Agentic AI客服落地案例"这类时效性问题,会基于训练数据编造客户名称和部署规模。某AIinfra创业公司的内部测试显示,纯LLM在回答"LangGraph vs CrewAI生产环境架构取舍"时,32%的"事实陈述"存在版本号错误或功能描述过时。

第二种死法是信息淹没。某咨询公司给研究Agent的评估指标是"单任务处理网页数"和"报告字数",结果Agent为了刷指标,把reddit讨论和官方文档同等权重塞进答案。产品经理拿到20页PDF,里面夹着3条高价值洞察和17页噪音。

原文作者提了一个尖锐的区分:决策支持型研究 vs 内容工厂型研究。前者输出可行动的洞察(actionable insight),后者输出趋势摘要(trend summary)。这个区分直接指向评估标准的重构——别再问"总结了多少页",要问"呈现了多少反方证据"。

冲突不是故障,是洞察的来源。

生产级研究Agent必须内置"合成循环"(Synthesis Loop):比对→权衡→精炼。当两个信源对"AutoGen是否适合金融级合规场景"给出相反结论时,Agent的任务不是选边站,而是标注分歧、评估信源可信度、给出置信度评分。这要求Agent具备一种反直觉的设计:主动暴露自己的不确定。

原文列了信源评估的四个维度:作者资质、引用网络、时效性、利益相关度。听起来像图书馆学基础课,但90%的"AI搜索"产品没做这层过滤。Perplexity的早期版本曾因过度依赖Medium博客文章而被嘲讽"用自媒体写论文",后来的迭代重点正是信源分层——学术期刊、官方文档、一手财报优先,观点类内容降级。

打开网易新闻 查看精彩图片

工具调用是放大器,不是替代判断。研究Agent需要对接搜索引擎、数据库、API,但工具返回的原始数据必须经过"证据提取层"处理。一个典型反模式是:Agent拿到SEC文件全文,直接塞进上下文窗口让LLM"总结一下",结果关键风险披露被淹没在200页法律文本中。

信任靠克制建立

信任靠克制建立

原文作者画了条红线:永远不要让Agent自主决定"什么信息重要",永远不要让Agent在没有引用的情况下陈述事实,永远不要相信没有置信度评分的结论。这三条禁令指向同一个设计原则——研究Agent的输出必须是可审计的,每个主张都能追溯到具体信源。

某金融科技公司的实践案例很说明问题。他们的研究Agent在分析"某东南亚数字银行牌照申请进展"时,系统强制要求对每个关键节点标注信息源类型:监管机构公告(Tier 1)、当地媒体报道(Tier 2)、LinkedIn员工动态(Tier 3)。Tier 2/3的信息可以被纳入分析,但必须在输出中明确标注可靠性折扣。这个设计让合规团队敢于采用Agent输出,而不是像对待黑箱一样反复人工复核。

评估指标同样需要重构。原文建议关注:决策速度提升、人工复核率变化、下游决策准确率。与之相对,"处理网页数""报告字数""用户满意度评分"都是误导性指标——用户可能因为报告看起来专业而打高分,尽管它根本没回答核心问题。

研究Agent的本质是判断外包,不是劳动外包。

这个区分决定了产品形态。劳动外包型Agent追求端到端自动化,用户输入问题、拿到答案、流程结束。判断外包型Agent则在关键节点强制引入人类:问题澄清阶段确认边界条件,证据冲突阶段选择处理策略,置信度不足时标注"建议人工深入"。

原文作者用了一个产品经理熟悉的类比:好的研究Agent像资深分析师的初稿,坏的研究Agent像实习生剪贴的资料堆。两者的差距不在信息量,而在"这里有个矛盾,我需要告诉你"的判断力。

2024年下半年,多个团队开始公开讨论研究Agent的"认知架构"设计。Anthropic的Claude在系统提示中强调"先思考再回答",OpenAI的Deep Research展示多轮搜索的推理痕迹,这些产品的共同点是让用户看到"思考过程"而非仅展示"结论"。这不仅是可解释性需求,更是建立信任的必要条件——当用户能看到Agent为什么相信A而不相信B,才敢把决策权部分让渡。

从搜索工具到决策基础设施

从搜索工具到决策基础设施

研究Agent的终局形态可能是企业知识流的重新布线。当前多数企业的决策链条是:业务问题→人工调研→专家会议→决策。研究Agent的插入点不是替代人工调研,而是压缩"从问题到可讨论假设"的周期。某跨国药企的试点项目中,研究Agent把"某适应症竞争格局分析"的前置准备时间从3周降到3天,专家会议从"信息同步"变成"基于共同假设的辩论"。

但这个价值实现有严格的前提条件。原文反复强调:研究Agent的问题是认识论问题,不是技术问题。团队如果没想清楚"什么算好证据""如何处理冲突""如何表达不确定",堆再多工程能力也是南辕北辙。

一个值得关注的细节是原文的结尾设计——没有总结升华,只有一句"帮助人类更快做出更好决策,且保持清醒"。这本身就是产品哲学的体现:研究Agent的KPI不是替代人类判断,而是让人类在更充分的信息基础上做判断。