打开网易新闻 查看精彩图片

上周和一位好久没联系的前同事约了顿饭,他现在是一家知名金融SaaS企业的CTO,席间他给我讲了他们的一个困惑:

现在公司要求全员向AI转型,他也带着团队打造了一款对客智能体。现在这款产品已经打磨了1年,数据链路打通了,流程也跑得起来,逻辑覆盖度和意图识别准确率也比一年前高很多。可一谈到推向市场,大家还是很犹豫。

他问我:“这产品到底怎么才算是能达到上限标准?上了会不会被用户骂?是转方向还是要继续投入?”

这类问题我这两年做项目听得还挺多的。大模型能力提升很快,企业内部如果只是做出个能对话、给建议、生成结果的智能体,还是相对容易的。但真正的难点是:上线后有没有人用,能不能形成一个稳定的业务价值?否则团队闭门造车,最后只会越做越重、越做越像是个永远上线不了的研究项目。

吃完那顿饭,我发现自己对“对客智能体”这件事,也重新建立了一套更清晰的理解。趁热乎劲儿还没过,就赶紧写篇文章,借此机会把这套思路用可操作的方式给大家讲清楚,方便你直接拿去对照自己的项目。

一、对客智能体能不能上,判断标准不在技术,在结果

坦率说,对客智能体的上线标准,比对内要严格得多,尤其他们要做的产品,面向的还是垂直领域的企业客户,万一AI输出的结果出错,影响范围还是非常大的。

不过在我问了一些技术上担心的难点后,我的那位CTO同事非常自豪地告诉我,他们已经在自己的业务领域积累了很多行业数据,同步也打通了相关交叉领域的外部数据,我提到的一些复杂的查询场景,也能用多轮澄清、再输出候选方案的方式基本覆盖。但就算是这样,他们仍旧无法确认这产品是否“合格”。

我问他为什么,他给了三句原因:

  • 技术虽然能跑通,但用户的需求很难预测

  • 场景涉及的变量太多,很担心实际体验不稳定

  • 市场上对大模型的热情和是否真实采用之间,还是有差距

这些顾虑,听上去像是技术问题,但往深处想,真正的难点,在于决策体验、用户信任和商业价值

在一个智能体项目中,判断其成功的标准其实就一句话:

用户愿意反复用,且能持续把关键指标往好的方向推。

这里有两个关键词:反复用关键指标

只要任何一个不成立,就算技术不是问题,也很难成为一个能长期投入的产品。

所以我给企业做判断时,也会先向客户明确这3个问题:

  1. 用户愿意把哪一段决策环节交给你?

  2. 用户从第一次体验到产生信任,要经过几步?

  3. 企业能否把价值算明白?

通过这3个问题,把判断标准从技术方案,拉回到结果的可行性上。

二、对客智能体的两条路线:执行型与决策型

在很多项目里,我发现最容易造成团队混乱的,是产品定位不清晰。通常来讲,对客智能体会走向两种路线:

  • 执行型:尽量替用户做事,把流程自动走完

  • 决策型:帮助用户把选择做得更稳,降低决策成本

执行型的想象力很强,技术挑战也更大。决策型更克制,价值也更容易被验证。

这两种类型没有好坏之分,因为在不同业务里,它们能发挥的价值不同。

而我在做定位时,会先看一个关键变量:用户的容错空间有多大

  • 容错空间越小,执行型越危险。

  • 容错空间更大,执行型才有机会形成闭环。

差旅、金融、医疗、法务这类场景的共同特点很明显:用户对结果敏感,出错的代价高,信任建立慢。这种情况下如果想通过流程自动化来解决效率问题,就很容易给自己挖坑。

所以那天的饭局上,我给出了一条很明确的判断依据:如果你提供的AI产品,用户对结果的容错空间太小,那就要把方向从执行型收敛为决策型,先跑稳最核心的价值,再谈更自动的执行能力

三、判断能否推向市场的四项硬指标

可能是产品经理的职业习惯吧,当讨论陷入空对空的概念争论时,我会倾向于用指标来对齐预期。

下面四条,是我在多个项目里会不断强调的成功上线标准。它们都很朴素,但管用:

1)首次体验的完成率与放弃点

AI产品,尤其是对客智能体,最致命的问题通常发生在前60秒。用户第一次试用时一旦觉得麻烦、不稳定,会很快流失。

因此我通常建议把首次体验拆成5个关键节点去看数据:

  1. 用户是否能在第一轮就进入正确流程

  2. 澄清问题是否用户愿意回答

  3. 用户能否在 90 秒内拿到可行动的结果

  4. 用户是否还要回到传统方式自己查一遍

  5. 用户在哪一步退出最多

如果完成率上不去,就先别急着把功能做复杂,而是先把前两轮对话打磨到让用户觉得省心。

2)澄清轮数

对客智能体的澄清轮数过多,体验基本就崩了。

我给过很多团队一个简单的上线门槛:平均澄清轮数控制在3轮以内

  • 超过3轮,用户会觉得你在审问他。

  • 少于3轮,很多场景又容易给不出靠谱结果。

这个阈值在很多项目里都很有效,可以先拿它作为目标。

3)结果采纳率

对客智能体的结果,如果用户很少采纳,产品价值就会被质疑。

在业务复杂、风险较高的场景里,我常用的参考线是:结果采纳率达到30%以上,并且能稳定维持

如果连三成都不到,说明智能体在用户眼里还没有成为可靠的助力。你可以继续优化,但不宜大规模曝光。

4)人工兜底比例和投诉率

对客场景一定会出现异常情况,关键在于异常是否可控。

我通常会要求客户观察两个趋势:

  • 人工兜底比例能否逐步下降

  • 投诉率在放量后是否稳定,不能出现明显跳升

这里面有个很现实的经验:很多团队在小流量测试时表现很好,一放量就出问题。原因往往就出在数据超边界、规则冲突、异常输入处理不当、以及产品提示不足这些细节问题上。

四、产品定位的落地拆解方法

聊到最后,我把话题又拉回到产品本身,想听听他是怎么定位这款产品的。

他说了一句让我印象很深的话:

“我们希望能帮用户自动生成一套完整方案,但总感觉哪儿不对。”

我当时的判断是:这个方向的问题,大概率出在“自动生成方案”这个目标上。

只要用户对决策结果存在顾虑,他们就会反复检查模型的答案。这样一来,智能体不仅没有帮忙,还增加了额外心理负担。

基于这点,我们重新梳理了这个产品的定位,把它调整成一个对客场景的“决策助手”,而不是自动方案生成工具。

二者的区别是什么呢?下面这两件事,我认为是决策助手更应该专注的点:

1)用户不知道怎么选时,逐步引导他完成候选清单

这类助手的职责,不是直接给答案,而是让用户在几步之内理清思路:

  1. 先确认关键约束(预算、偏好、时间区间)

  2. 再提出 2–3 个明确的澄清问题

  3. 最后汇总成一个结构化的可选清单

这个过程有助于降低不确定性,让用户感觉这是在AI的帮助下,逐步完善自己想法的过程,最终获得一个可接受的方案。

让用户参与到最后一公里中”,是目前AI产品获得成功的关键原则。

如果用指标来衡量其是否可行,可以关注如下三项:

  • 90 秒内产出清单的转化率

  • 澄清轮数是否不超过 3

  • 清单采纳率是否达到 30%


2)用户已经选好了,希望有人帮他确认下这个方案是否最优

决策助手的第二个价值,是帮用户确认当前的选择是否是最佳方案。例如判断当前方案:

  • 有没有违反企业政策

  • 有没有性价比更高的替代

  • 有没有隐藏风险(换乘间隔、退改签限制、低评分等)

  • 是否值得按原方案下单

输出也可以固定成更结构化的格式:

  • 建议结论:建议下单/建议换一个

  • 触发原因:哪条规则、哪项风险

  • 替代方案:一到两个即可

  • 用户需要确认的事项:两条以内

这是我更建议他们团队做深的一块,原因很简单:它更容易形成企业付费理由,也更容易降低风险。比如减少企业违规风险,避免被打回返工浪费的时间,还能帮企业节省预算,匹配出最优性价比的方案。

相比自动生成方案,这种服务为用户提供了另一种安心感。

因此,只要从两项出发找准定位、做出效果,销售团队也就能把故事讲清楚,产品也会更好卖。

五、上线前还要cover住的三大成本

实验阶段,不断放大模型能力来秀肌肉、造场景、扩功能,这都无可厚非,但真正要对客时,如果想不到这些成本,你的智能体就只会消耗在无休止的迭代里:

1)信任成本

用户不信任你时,通常会出现下面三种典型行为:

  • 反复追问同一个问题

  • 拿它的答案去和其他渠道对比

  • 只当作参考,不做实际动作

这些不信任行为带来的额外成本,无法通过加功能解决,而是要在产品设计上,让输出结构化、可解释,并允许用户快速修正话术,不让他再输入一遍。总之就是尽量在前两轮对话把约束说清楚,让用户觉得AI真的理解了他的诉求。

2)边界成本

对客智能体最容易遇到的问题,就是基于模型能力倒推用户需求,拿着锤子找钉子,最后的结果就是需求越堆越多、范围越做越大、质量评测也会越做越难

为了控制边界成本,我的建议是:

先定义10个高频问题类型,跑稳一个闭环,建立评测集,作为一个迭代中期,之后再扩展到30个、50个,以此类推。

只要你愿意把边界写出来,团队就会省掉大量无效投入。

3)运营成本

对客智能体上线后,必然会进入到运营阶段。这里的运营,可不只是拉个群,回复下用户反馈。因为你会发现:

  • 答案结构要不断迭代

  • 规则和政策会持续变化

  • 用户输入模式会多种多样

  • 评测集也要持续补充

很多团队的预算只考虑了开发和模型成本,根本没想着要运营这件事,最后就会出现上线后质量下滑、口碑反噬。

我通常会建议企业把运营机制当成产品的一部分设计,并在规划时就要产出运营方案,包括但不限于:

  • 每周收集Top问题并召开复盘会议

  • 每周补充评测集并更新评测结果

  • 每两周检查下规则与提示的有效性

  • 每月跑一次大盘指标复核

这些动作听着像是管理动作,但它们决定了智能体能不能长期稳定。

六、这顿饭后,我总结了对客智能体的三个判断条件

虽然只是简单地吃了顿饭,但对我而言,每次和高手的交流,都是对自己认知的一次复盘。

总结下来,一款对客智能体是否可行,从下面三点判断就足够了,如果无法同时满足这三项,最后的市场化道路就会非常艰难:

1)用户愿意把部分决策交给你

判断方式很简单:

  • 能否在三轮对话内,把用户的心态从迷茫变成清晰

  • 是否真正帮用户节省时间

  • 用户愿意采用智能体方案的比例能否达到三成以上

这决定了用户是否愿意继续使用。

2)场景的边界和结构是否足够明确

越能拆出结构化要素的场景,越适合作智能体,判断标准如下:

  • 需求能否被明确描述

  • 变量是否能枚举

  • 规则能否被拆解成多套稳定的逻辑结构

  • 模糊判断是否可控

如果这些都不具备,越是想靠自动化提供服务,就越会给用户带来更多困扰。

3)企业能否从中获得直接价值

对客智能体如果只是提升体验,而缺少商业价值,就很容易被搁置。

因此要先问问自己,你的智能体,能否帮企业增加订单、提升转化、减少人工成本、规避不合规风险,又或者可以提升客单价或业务深度。企业要看到这些数字,才会愿意长期投入。

结语

对客智能体这两年非常热,很多团队愿意投入,也投入得起。但真正稀缺的东西,反而是判断什么时候该收敛,什么时候该放量,什么时候该停,什么时候该换方向。

这顿饭让我更加确信:

对客智能体要想走得远,靠的往往不是更大的想象力,而是更清晰的边界、更稳定的体验、更可计算的业务价值。

如果你的团队正在做类似的产品,建议你把这套判断阈值拿去对照一下。很多问题并不需要花太长时间讨论,数据自然会给出答案。

希望这次饭局里讨论出的经验,可以成为你在思考智能体定位时的参考。

我是申悦,前互联网大厂产品人,现在是一名All in AI的企业AI转型咨询顾问。欢迎加我好友互相交流。

回复“ 微信 ”,加我 个人微信