想象一下:你打电话给保险公司,接电话的是 AI。它反应快、有耐心,能验证你的身份,能查到你的保单,能帮你提交理赔申请。整个过程比跟真人客服聊还要顺——没有等待音乐,没有被转接三次,没有重复解释。你挂掉电话的那一刻,问题已经解决了。这不是科幻片里的场景,而是现在已经在发生的事。

Voice AI(语音 AI)正在经历一个很多人还没意识到的转折点。它不是更好听的聊天机器人,不是语音版的 GPT,也不是更自然的 IVR(交互式语音应答系统)——而是一次真正意义上的界面级革命。最近听了一期深度访谈,嘉宾是 Bessemer Venture Partners(贝塞麦风险投资)合伙人 Mike Droesch。他带领 Bessemer 在这个赛道做了将近两年的系统性研究,投了 Abridge(医疗 AI 记录)、Rilla(销售对话分析)和 Vapi(语音 AI 基础设施平台)。Vapi 刚刚完成 Series B(B 轮融资),估值达到 5 亿美元。Mike 在访谈里分享了很多反直觉的一线判断,有些观点让我反复咀嚼。我把他的核心观点整理出来,加上自己的思考,和大家聊聊这个赛道真正发生了什么。

#01 Voice 不是更好的聊天机器人,是一次界面级的革命

Mike 的核心论点是这样的:语音之所以重要,不是因为它更自然、更好用,而是因为它从根本上提高了数据流入 AI 的带宽。

打字、点击、填表格——这些都是低带宽的交互方式。你传进去的信息是离散的、碎片化的。而语音不一样,你说一句话,AI 同时接收到的有:你说了什么内容、你的语气、你的停顿、你的情绪、你的措辞习惯,甚至你在哪个问题上犹豫了一下。这些信息加在一起,远远超过打字所能传递的。带宽提高了,输出的质量就会跟着变。Mike 的逻辑是:当流入机器的数据更多、更丰富,流出的结果就会更好、更准确、更有针对性。这不是线性的提升,而是质变。

Mike 把 voice AI 定义为"一个新的上下文层(context layer)",而不是"一个能接电话的功能"。这两种定义方式的差别非常大。如果只是个功能,那它就是锦上添花,有没有都行。但如果是上下文层,它就是整个软件系统里的基础设施,是所有智能决策的数据来源。这个定位,决定了 voice AI 的天花板有多高。

打开网易新闻 查看精彩图片

我完全认同这个判断,而且想再往前推一步说。我们现在用大模型,大部分时候还是在用文字交互——你打一段话进去,它返回一段话。但这种方式有个天然的瓶颈:人们打字的时候会过滤、会精简,很多细节和上下文根本不会出现在文字里。但说话不一样,说话是一种更接近思维流的表达方式,情绪、逻辑断点、隐含的顾虑,全都带着出来了。这就是为什么语音数据对 AI 来说,质量天然比文字更高。Voice AI 不只是换了一个输入方式,它在根本上改变了 AI 能"看到"多少真实世界。

#02 最反直觉的发现:监管最严的行业,反而跑得最快

Mike 说,这个 AI 时代让他最意外的一件事,是哪些行业的采用速度最快。他原本以为会是那些"互联网友好型"行业,结果恰恰相反——跑得最快的是监管最严格的行业:医疗、保险、金融服务、法律。

乍一听很反直觉。这些行业通常被认为是最保守的,合规流程复杂,决策链条长,新技术进来阻力大。但 Mike 的解释非常有说服力:这些行业之所以跑快,恰恰是因为它们对"控制"的要求极高。拿医疗举例,在一次电话里,AI agent(AI 代理)在释放任何健康信息之前,必须先验证对方身份——确认生日,核对保单编号。每一个环节都要有严格的 gate(对话关卡)。这种需求,反而和 voice AI 平台的能力高度契合。好的 voice AI 平台,本来就是为精细控制对话的每一步、设置严格的 eval(评估)机制而生的。

我的理解是:监管严格的行业需要的不是"更自由"的 AI,而是"更可控"的 AI。传统软件在这些行业里,往往因为流程太死板而被诟病——你想加一个验证步骤,要改代码、走审批。Voice AI 的出现,给了这些行业一条新路:既保留严格的合规流程,又大幅提升了用户体验。这是一个双赢的组合,所以它才能快速被接受。

这个发现对做产品的人有很深的启示。我们总以为"灵活"是卖点,但在某些场景里,"可控"才是真正的价值主张。医院不需要一个随机应变的 AI,他们需要一个绝对按规矩来、但又能 24 小时不间断运转的 AI。能否在合规性上做到极致,反而是打开这些大市场的钥匙。那些门槛最高的行业,进去了就不容易被赶出来——切换成本极高,这是一种非常强的产品黏性。

#03 Voice AI 正在重写软件的经济学

这是 Mike 整个访谈里我觉得最重要的一个观点,值得单独说清楚。

传统 SaaS(软件即服务)的逻辑是:让人工作得更高效。你花 3 万美金一年买一套软件,本质上是在提升某个员工的生产力。所以软件预算来自 IT 部门,对标的是"工具成本",是一个相对固定的小盘子。但 voice AI,当它真的能端到端完成一项工作时,逻辑就变了。它不是在让员工更高效,而是在直接替代人工。这时候,预算就不再来自 IT 部门,而是来自人力成本、来自 opex(运营支出)的大盘子。这个盘子,大得多。

Mike 举了一个非常具体的例子。一个会计类 SaaS 工具,传统版本的年合同额(ACV)大概是 3 万美金。但如果是 AI agent 版本,真正端到端完成整个会计工作流,ACV 可以达到 15 万美金。同样的客户,同样的问题,5 倍的价格差距。不是因为涨价,而是因为预算来源变了——你不再在争 IT 的预算,你在争的是原来雇那个会计师的工资。

我觉得这个洞察对很多创业者来说是一个根本性的思维转变。很多人做 AI 产品,定价的时候还是在对标同类 SaaS 工具。但如果你的产品真的能替代人工,定价基准应该是"那个人工的成本",而不是"同类工具的价格"。这是两个完全不同的数量级。当然,前提是你真的能做到端到端。如果只是帮人处理了工作流里的一个小环节,这个定价逻辑就不成立。这也是为什么 Mike 反复强调:不要去做一个"辅助性"的 voice agent——要么拥有整个工作流,要么就是在给别人做功能。

打开网易新闻 查看精彩图片

#04 基础设施是入场券,护城河在别处

经常有人讨论 voice AI 的护城河在哪里。延迟低、音质好、模型准确——这些是壁垒吗?Mike 的回答非常直接:不是。这些是入场券,做到了不代表你有优势,做不到就直接出局。

他以 Vapi 为例,分析了真正的护城河是什么。在他看来,Vapi 建立了两个真实的优势。一个是开发者社区。Vapi 有大量开发者自发涌入,用它搭各种东西,大部分是小项目,但其中一小部分人最终会把在 Vapi 上验证过的东西带进自己的企业项目,变成大客户。这个路径跟 Twilio、Auth0 当年的成长路径非常像。开发者飞轮一旦转起来,是非常强的分发壁垒。Mike 说了一句话我觉得很重要:"distribution(分发)比以往任何时候都更重要,因为现在达到 feature parity(功能对等)太容易了,可能只需要几周。"

另一个是 eval(评估)飞轮。每一次对话都是产品数据。Vapi 收集大量真实对话,不断测试和优化,建立出越来越强的自我改进机制。这种飞轮一旦建立,跑的次数越多,质量领先就越明显。基础设施层面的竞争对手可以追上,但这个数据飞轮很难复制。

我的判断是:voice AI 赛道现在的竞争态势,跟两年前的 AI 写作工具非常像——门槛在快速降低,功能趋同的速度很快,纯靠技术领先维持不了多久。真正的差距,会在分发能力和数据飞轮上拉开。谁先占领某个垂直行业的核心工作流,谁先积累起足够规模的真实对话数据,谁就能建立真正的壁垒。这和模型好不好关系已经越来越小了。

#05 现在的瓶颈不是能力,而是信任

这是 Mike 在访谈里说的最微妙也最准确的一个判断,很多人没有意识到这个区别。

大家担心的问题,往往是:AI 够不够聪明?能不能处理复杂情况?会不会听不懂奇怪的口音?但 Mike 的观察是:这些技术问题其实在很大程度上已经解决了,或者正在快速解决。真正的瓶颈不是能力,而是信任。他说了一句话让我印象很深:"我们正在进入一个 agent 理解得比人们预期的更多的世界。但要让它真正连接到核心系统、帮你转账、结案一个理赔、完成一笔预订或者修改一条关键记录,需要的是完全不同级别的信心。"

这种信心不是靠 demo 演示出来的,不是靠"感觉不错"建立的。它靠的是 governance(治理框架)、observability(可观测性)和不断重复验证。换句话说,买家不会因为看了好看的 demo 就放心。他们需要看到:这个 agent 出了问题能不能被发现、能不能被追溯、能不能被回滚。Mike 说得很直接:买家的 CISO(首席信息安全官)在不在意这个事,跟你想不想没关系——他们就在你的产品路线图上,早晚要面对。

我自己在做产品的过程中,深刻感受过这个问题。你以为最难的是把功能做出来,但功能出来之后,真正难的是让客户敢用。尤其是企业客户,信任的建立比技术的实现慢得多。Voice AI 也是一样。模型的能力已经足够了,但让企业客户把核心工作流交给 AI 独立执行,中间还差很多信任的积累。这个信任不是靠说出来的,是靠一步步用可观测性、审计机制、优雅的降级处理来赢得的。权限管理、操作审计、异常回滚——这些听起来像是运维工作,但在 voice AI 里,它们是核心产品功能。

#06 每一通电话,都是产品数据

Mike 有一个观点,我觉得是整篇访谈里最值得反复咀嚼的:voice AI 最深的护城河,不是模型,而是 eval system(评估系统)。

为什么这么说?因为每一次真实的对话,都在生成信号。这个信号可以被测量:AI 说了什么、用户反应如何、最终结果是什么、跟预期有没有偏差。把这些信号积累起来,不断跑测试,不断优化,就形成了质量飞轮。这种飞轮的力量在于它是复利式的——对话越多,数据越丰富,eval 跑得越准,优化方向越清晰,agent 质量越高,再吸引更多对话。这个循环跑起来之后,后来者很难在质量上追上,因为你不只是需要复制技术,还需要复制这个积累过程。

Mike 的判断是:很多创业者还在讨论模型是不是最好的,但其实真正的竞争要素是 eval 体系。谁能把生产环境里的每一次对话都变成产品数据,谁能最快从这些数据里学习和迭代,谁才有机会建立真正的质量壁垒。他甚至说,要在第一天就把 eval 基础设施搭起来,而不是等产品成熟了再补——学得最快的团队,才能给自己赢得构建更深东西的时间。

打开网易新闻 查看精彩图片

我想到的一个类比是:这就像一个优秀的医生,经手的病人越多,临床经验越丰富,诊断就越准。但关键在于,你必须系统性地整理、归纳这些经验,而不是让它们散落在记忆里。Voice AI 的 eval 体系,就是这个"系统性整理"的过程。做到了,这份经验就是可复用、可迁移的资产;做不到,再多的对话数据都只是一堆噪声。

#07 优雅的"移交"不是失败,而是产品设计

关于人机交接(handoff)这个话题,行业里一直有一种隐含的假设:AI 接了电话又移交给人工,说明 AI 不够好,是失败的标志。Mike 对这个逻辑提出了不同的看法,而且我觉得他说得非常务实。

他说,大多数人打电话进来,本来就已经是在处理一个 edge case(边缘情况)了。你打电话给银行,通常是因为网上办不了,是"万不得已"。所以接进来的这通电话,本身就可能是一个复杂情况。这种情况下,AI 能处理的就处理,处理不了的流转给人工,是完全合理的设计,不是失败。关键不在于 AI 能处理多少比例,而在于移交的过程够不够顺畅。移交得好,信任就建立了;移交得不好,哪怕之前对话再顺,最后那一脚踢给人工的瞬间如果体验很差,用户对整个系统的印象就会崩。Mike 说:"handoff 的流畅程度,是信任建立还是被摧毁的关键时刻。"

现阶段,voice AI 实现里还是会有 5%—10% 的通话需要升级给人工处理。Mike 的看法是,这不是问题,真正的问题是:当 eval 体系足够成熟,当我们对 agent 的行为有足够的把握,我们才会放心地把它连接到更多核心系统,给它更多权限去执行更复杂的任务。这是一个成熟曲线,不是一个非此即彼的选择。把移交设计成一个 feature,而不是一个 fallback,本身就是高水准的产品思维。

#08 哪里已经人满为患,哪里还是真正的蓝海

Mike 在访谈里给出了一个非常实用的行业地图,我觉得对很多做产品的人很有参考价值。

已经过度拥挤的方向:预约排程(scheduling)、催债(debt collection)、招聘(recruiting)。这些方向的逻辑很简单——高频、高量、对错误容忍度相对高,是最容易验证的场景,所以最先被大量创业者涌入。现在这几个方向,竞争已经非常激烈,没有明显差异化很难杀出来。

还有机会的地方,Mike 提到了几个很有意思的方向。法律行业的案件受理(legal intake),比如人身伤害类诉讼的初步案情收集。这是复杂度高、对话质量要求高、之前从来没人会想到用 AI 来做的场景,但从成本和规模来看,这里的价值非常大。另一个是专家网络访谈,Mike 投资的 Qualitate 就在做这件事。他分享了一个具体案例:一家企业在做并购(M&A)前的尽职调查,需要尽量多地做专家访谈。以前,一个分析师一个电话要花一个小时,记录、整理,非常耗人力。用 Qualitate 的方案,整个周末完成了 200 通专家访谈,周一早上所有反馈都整理好了。而且这个场景里,语音的优势非常明显:语气、停顿、情绪,这些在邮件或者文字问卷里完全看不到,但在语音里能捕捉到,会引导出下一个问题。这是一个文字交互根本替代不了语音的场景。

此外还有多模态混合场景(mixed modality):一边监控用户的屏幕操作轨迹,一边用语音实时指导,"往右一点,点那个按钮"——这种客服体验是完全不同维度的。还有工业现场检测,工人一边说话、一边拍照,所有数据整合起来给 AI 判断,这是把 voice AI 真正带进物理世界的尝试,比如屋顶检修、建筑工地质检这类场景。

我觉得 Mike 点出来的这些蓝海,有一个共同特点:它们都是"以前因为成本太高或技术不够而没法规模化的事"。Voice AI 不是在跟人工抢那些本来就存在的市场,而是在创造以前根本不存在的市场规模。这才是真正意义上的新增量,而不是存量竞争。

#09 给正在做 voice AI 的创业者

Mike 在访谈结尾给出了一个非常核心的忠告,我觉得值得完整传达。

他说,如果给做 voice AI 的创业者一个最重要的建议,就是:不要花时间去做一个只能完成工作流一部分、最后还是要移交给人工的 voice agent。这种东西很容易做出来,demo 好看,对话流畅,但本质上只是一个功能,不是一个真正的业务。真正值得花时间的,是找到一个你可以端到端拥有整个工作流的场景——从第一声铃响到最终动作完成,全部由 AI 负责。这样才有资格谈真正的规模效应,才有资格谈从 IT 预算跳到人力成本预算,才能建立真正的护城河。而且,这个工作流最好是经济价值很高的。做了一堆低价值的自动化,就算跑得再顺,天花板也很低。

打开网易新闻 查看精彩图片

关于定价,Mike 的建议也很清晰。现在不要强行做 outcome-based pricing(基于结果的定价),因为大多数场景里,"结果"很难精确定义和验证。现实中做得不错的公司用的还是 platform fee + usage(平台费加用量)的组合,对买卖双方都更清晰、更可预期。等到某个场景的结果足够标准化、可验证,再切换到结果定价。Intercom 的 Fin 是少数几个做到清晰结果定价的例子——按每条解决的工单收费,因为工单足够标准化、处理成本相对一致。但这个条件在大多数场景里并不具备。

关于什么样的公司值得在这个时代拿到 Series A(A 轮融资),Mike 说产品够不够"magic"(神奇)已经不是问题了,现在几乎所有产品演示都很神奇。他们更看重的是:这个团队有没有清晰的飞轮理论,他们打算怎么建立防御性——不一定从第一天就要有,但团队要能清晰表达这个路径。以及速度,不是以前意义上的速度,而是现在这个时代定义的速度。从有产品到出现模仿者,可能就是几周的事,你必须跑得比以前快得多。

#10 我的思考

听完这期访谈,有几个强烈的感受想和大家分享。

Voice AI 的核心价值,在于它是一种"过程捕捉"技术。文字系统记录的是结论,是决定,是最终状态。但语音记录的是过程,是推理,是所有那些"我们是怎么得出这个结论的"。这些过程数据,对 AI 来说价值极高。系统的记录也许只有"这笔单子成了",但里面那些谈判细节、顾客的顾虑、销售如何转折,全在语音里。我们才刚刚开始认识到这一点,这个潜力远远没有被挖掘。

很多人还在把 voice AI 的竞争想成技术竞争,谁的延迟低、谁的音色好、谁的识别准。但 Mike 给的框架告诉我,这个赛道真正的竞争,是在另外几个维度上——谁先在某个垂直场景里建立起足够强的数据飞轮,谁先在某个行业里赢得客户的信任,谁先把工作流的控制权拿到手。这不是技术问题,而是产品和商业问题。技术层面的差距在快速收窄,但这些维度的差距,一旦建立,就很难被追上。

关于监管行业快速采用这个反直觉的发现,让我重新思考了一件事:最难进入的市场,往往是最值得进入的市场。门槛高意味着进来了就不容易被赶走,切换成本极高,这是一种比技术壁垒更持久的护城河。做产品的时候,合规能力和可控性,不应该被看成负担,而应该被看成进入大市场的通行证。

最后,关于那个"从 IT 预算到人力成本预算"的转变,我认为这是整个 AI 时代最根本的商业逻辑变化。以前软件卖的是效率提升,现在软件卖的是劳动力替代。这两件事的定价逻辑、销售对象、预算来源完全不同。那些最早理解并落地这个逻辑的公司,会在这个时代建立非常强的竞争优势。Voice AI,只是这个逻辑在一个具体场景里最清晰的体现——但它揭示的,是整个 AI 应用层正在发生的根本性转变。

结尾

也欢迎大家留言讨论,分享你的观点!

觉得内容不错的朋友能够帮忙右下角点个赞,分享一下。您的每次分享,都是在激励我不断产出更好的内容。

欢迎关注深思圈,一起探索更大的世界。

- END -

两个“特别坑”的AI产品创业方向,你知道吗

打开网易新闻 查看精彩图片

速度将成为AI时代唯一的护城河

打开网易新闻 查看精彩图片

a16z重磅预测:Vibe coding赢者通吃?错了,垂直专业化才是未来

打开网易新闻 查看精彩图片