再忍一下，愚蠢的智能客服就要消失了|ivr|智能客服|语音识别|预设

世界上最难的工作，不是给你一个很高的kpi，而是领导让你先试试，做个案例出来。

翻译下：资源是没有的，具体做成什么样谁也不知道，但你要是做不好。。。

这不，为了拓展媒体矩阵，咱们编辑部决定进军播客领域，可大家都是常年坐在电脑前码字的I人，读个稿子毫无感情，再招个人显然也不会批预算。

于是，经典的职场场景出现了：小硅啊，你先去试试做个播客样本出来，最好不要花什么钱，内容时效性也要高，把咱们的图文内容编辑编辑搞成音频就好了。

虽然是“送命局”，但硅基君还是用AI工具给完成了，我们先来看一下成果。

这条音质不错，声音流畅又有感情的音频，你敢信居然是AI做的？

播客的原文来自咱们远川同事的稿子，在此基础上，硅基君用扣子（coze.cn）做了一个AI Bot，从文字到语音，前后就花了几分钟，之后再做类似的，花几秒钟丢进去就行了。

大模型这几年非常火，但在交互方式上都采用了聊天的形式，想让大模型做点复杂的任务就很困难。

各大厂商也都知道这问题，AI Bot或者叫AI Agent因此而生。

它利用大模型的推理能力，将复杂问题拆解为小问题，并定义它们之间的顺序关系，然后调用各种工具来解决这些问题。

随着AI技术的进步，AI Agent的使用场景更加广泛涉及智能客服、个人助理、自动驾驶、软件开发等多个领域。字节跳动的扣子就是AI驱动的新一代AI Bot搭建平台。

相较于GPTs只能用OpenAI自家的模型，扣子集成海内外各种顶尖的大模型，并且扣子还有丰富的功能组件生态，通过简单的创建，提供与传统App一样甚至超越的用户体验。

比如公众号里的AI客服，在没有扣子前，用户需要学习AI、小程序等，用上扣子分分钟搞定。即便是小白也不用担心学不会，B站上有很多教程，几分钟学会，基本是有手就行。

但这样就够了吗？未来的AI交互方式会是脑电波还是其他古怪的方式没人知道，但像电影里贾维斯那样，可以像人一样对话的AI助手想必才是人们想象中的未来。

在文字聊天的基础上，扣子新增了语音对话的功能，而且不是简单的文字转语音，而是“交流感”更强的语音功能，从“能说话”变成“会说话”。

相比于机械式念文字的AI，扣子智能语音OpenAPI首次将理解能力注入整个语音交互链路。

举个例子，我们刷内容平台的时候，可以看到一键朗读功能，虽然用到了AI，但也仅仅是把文字完整念一遍，如果你想让AI帮你把内容整理好，变成摘要再读给你听，这种功能就很少见。

扣子的智能语音OpenAPI就弥补了这一空白，能够理解全文，并且浓缩成精华版音频念给你听。

为了实现生物和非生物之间的对话交流这中二的愿望，智能语音这个科技点早早就被点亮，截止到扣子新发布的语音功能前，大致能分为三代。

第一代IVR，就像是一个提前安排好所有路径的导游，每一步都被精心设计和预设。

通过提前准备好用户可能会问的问题，并录好相对应的音频，当用户指定要咨询的内容（拨号）时，机器会返回相对应的内容。这种智能语音的智能程度取决于预设的知识树，也就是准备了多少语音。

典型的例子就是10086客服，从用户拨打客服热线的那一刻起，IVR就开始通过这棵树引导你。树的每一条分支都预设了固定的选项，而每个选项背后则是客服能够提供的标准化服务。

例如按1就可以查询账户余额，按2就能办理套餐变更，按3就能投诉……

问题也就显而易见，它不能实现预设指令之外的操作，除非按0转人工。

第二代IVR在第一代的基础上，借助自然语言处理能力的发展，具备了一定的交互能力。比如我们常见的Siri和智能音响。

举一个例子，我们想设置一个10点的闹钟，可以用各种语序，例如“我想订一个10点的闹钟”，也可以“明天早上10点叫我起床”。算法会识别这两句话，提取关键信息“10点”“闹钟”“叫起床”等，识别并定位到闹钟进行设置。

但此时的理解能力非常浅显，用户需要用很刻意的语句才能唤醒相对功能，如果用户说“明天和小王约好的会议前1小时提醒我”，算法会无法识别。

由于人们的语言习惯千变万化，经常会出现算法无法理解的内容，从而被用户吐槽为人工智障。

此外，第二代IVR系统仍然需要预设能力框架。这是因为在设计系统时，需要对常见问题、用户需求和可能的交互路径进行规划。预设能力框架为系统设定了基本的行为模式，确保系统在常见情况下能够迅速响应用户需求，保持一定的稳定性和一致性。

理解能力不强，功能有限，是第二代IVR存在的问题。

随着大模型的出现，AI在理解和表达能力上有了质的飞跃，但此时的交互方式是文字交流，随之诞生的所谓的音频大模型，本质上是将语音转化为文字，让大模型识别后输出文字，再转换成语音的过程。

但逻辑上这就导致会出现很多文字交互特有的问题，比如对方言的理解困难、对情绪难以理解、中途用户不能打断等。

用户使用音频大模型，如果愿意等待，还是可以获得不错的回答，但最大的问题就是，这不像人。人类交流时要考虑对方的预期情绪，听懂特殊的表达方式和背后的情感，可以随时打断换个话题。

这些功能，扣子在RTC技术的加持下，做到了与真人无异的语音交流方式。

图灵测试中，我们根据回答的内容判断对方是不是真人，在交流对话中判断的依据就更加复杂。

首先最重要的就是有即时反馈，其次就是在能力上，除了有常识外，还要有一些基础能力和记忆，最后就是人性特点，懂得语气能理解上下文。

扣子的智能语音通过基于火山引擎的RTC（Real-Time Communication）方案，把对话时的延迟充分降低。比如你对扣子说你好，它会像人类一样立刻回复你好。同时，如果对它的回复内容不满意，可语音打断开启新的话题或提问。

在没有使用RTC技术的AI上，这一很简单的回答也需要一系列推理后，延迟一段时间再进行回复，大大降低了人们的交流欲望。

而在能力、常识、记忆方面，扣子平台的AI Agent可以胜任。扣子作为AI Agent 搭建平台，包含了 Agent 各项能力，如记忆（文件盒子、数据库、变量）、知识（文本、表格、照片）、技能（插件、触发器）、编排（工作流、图像流）等。

最后，在情感理解上扣子通过BigTTS技术，让扣子不但有丰富的情感和语气，还可以中英混说。BigTTS也是大模型的产物，其通过大型预训练模型和深度神经网络，显著提升了语音合成的质量和多样性。

在理解能力上，扣子智能语音的BigASR技术起到了作用，同样借助深度学习，扣子可以更好的理解上下文，更像一个真人。

即时反馈，有常识和记忆，说话有语气有情感，扣子智能语音变得更像人了。

体现在用户使用方面，可以总结为四个优势。

优势一就是精准的语音识别。大模型的自动语音识别（ASR）技术可以将语音准确转换为文本，并且能够理解上下文。这意味着即使是提到过的名词和不同的说话风格，系统也能识别出来。在有噪音、专业领域术语或者中英文混合的情况下，识别效果依然出色。

第二个优势在于强大的AIAgent功能。扣子平台是一个具备多种功能的AI Agent工具。它不仅可以存储和记忆信息（如文件、数据库、变量），还能管理各种知识（包括文本、表格、图片）。此外，平台支持插件和触发器扩展功能，以及任务的自动化编排（如工作流和图像处理），使得处理任务更加智能高效。

系统采用了RTC技术，有效减少了数据传输的延迟。这意味着用户在使用时能够获得即时、顺畅的体验，语音交流时系统能快速响应。超低延迟也是扣子语音的第三大优势。

最后，深度学习加持下的文本转语音技术能够生成自然逼真的语音效果。它可以根据文本内容智能调整情绪和语调，生成清晰流畅的语音。无论是音质还是情感表达，甚至中英文混合朗读，效果都非常接近真人的表现，让听众体验更自然生动。

RTC技术来带了低延迟，AI Agent带来了记忆、推理能力，基于深度学习的TTS技术让智能语音有情绪，能共情。

这不就是一个理想中的，贾维斯那样的随时随身的智能助理吗？

对于普通用户来说，心情不好的时候和扣子智能语音聊聊天，它能感受到用户的情绪，并且返回和咨询师一样温柔的回答。在异国他乡，用扣子进行实时翻译，不用担心与外国人交流时候不同步。大模型与生俱来的百科全书属性，让用户可以哪里不懂问哪里。

设想一下，10086接入了扣子智能语音，用户想咨询业务不再需要学习专业术语，描述一下功能，AI就能帮你找到。当用户被无端扣费时，AI甚至能够听出用户着急的语气，安慰几句，虽然治标不治本，但心情肯定会好很多。最重要的是，扣子智能语音不会让用户干等着，无论情况有多复杂，AI都能“秒回”。

想象中的使用场景还有很多，但还是需要各行各业的朋友们来发挥想象力。

如果你想参与内测体验，关注「扣子Coze」公众号回复「语音」即可申请内测。期待大家的体验反馈！

全文完。

作者：董道力

编辑：张泽一

视觉设计：疏睿

责任编辑：张泽一

关于「新硅NewGeek」：我们以AI为圆心，追踪科技领域的方方面面，努力用最简单的方式阐述技术是如何改变世界。敬请关注。

再忍一下，愚蠢的智能客服就要消失了

热搜

热门跟贴

热搜

热门跟贴

相关推荐

数据中心运维应用智能客服大脑，问答匹配率达92% | 创新场景

半小时教你手搓AI视频通话，还有懒人版代码已开源

AI做数学学会「动脑子」！ UCL等发现LLM「程序性知识」，推理绝不是背答案

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

第一个被人类骗钱的AI傻了，近5万美元不翼而飞！Scaling Law还能带我们到AGI吗？

微软发明全新「LLM语言」，AI智能体交互效率翻倍！

字节AI版小李子一开口：黄风岭，八百里

字节大模型同传智能体，一出手就是媲美人类的同声传译水平

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

大模型如何助力企业AI创新？阿里云AI专家为你解答 哪些因素影响企业用户选择模型服务平台？检索增强R

巴西飞机着火降落全过程，机长努力的不让飞机迫降在居民区

常州坠湖直升飞机失事前视频 低空掠过一片露营地

五叔直播要爆料？纲黑都来凑热闹！

鹿晗直播连麦被粉丝惊呆，像这得多像啊

解禁！因违规被禁止关注一周后吴柳芳账号解禁，此前涨粉超200万

无人便利店发生的一幕，男子进店借用打火机，客服：要不你还是买一个吧

优衣库拒用新疆棉后续：账号涨粉，销量大增，评论区一片欢呼支持

博君一肖神图

好男人应该远离“那些直播间”

大模型如何助力企业AI创新？阿里云AI专家为你解答哪些因素影响企业用户选择模型服务平台？检索增强R

常州坠湖直升飞机失事前视频低空掠过一片露营地