世界上最难的工作,不是给你一个很高的kpi,而是领导让你先试试,做个案例出来。
翻译下:资源是没有的,具体做成什么样谁也不知道,但你要是做不好。。。
这不,为了拓展媒体矩阵,咱们编辑部决定进军播客领域,可大家都是常年坐在电脑前码字的I人,读个稿子毫无感情,再招个人显然也不会批预算。
于是,经典的职场场景出现了:小硅啊,你先去试试做个播客样本出来,最好不要花什么钱,内容时效性也要高,把咱们的图文内容编辑编辑搞成音频就好了。
虽然是“送命局”,但硅基君还是用AI工具给完成了,我们先来看一下成果。
这条音质不错,声音流畅又有感情的音频,你敢信居然是AI做的?
播客的原文来自咱们远川同事的稿子,在此基础上,硅基君用扣子(coze.cn)做了一个AI Bot,从文字到语音,前后就花了几分钟,之后再做类似的,花几秒钟丢进去就行了。
大模型这几年非常火,但在交互方式上都采用了聊天的形式,想让大模型做点复杂的任务就很困难。
各大厂商也都知道这问题,AI Bot或者叫AI Agent因此而生。
它利用大模型的推理能力,将复杂问题拆解为小问题,并定义它们之间的顺序关系,然后调用各种工具来解决这些问题。
随着AI技术的进步,AI Agent的使用场景更加广泛涉及智能客服、个人助理、自动驾驶、软件开发等多个领域。字节跳动的扣子就是AI驱动的新一代AI Bot搭建平台。
相较于GPTs只能用OpenAI自家的模型,扣子集成海内外各种顶尖的大模型,并且扣子还有丰富的功能组件生态,通过简单的创建,提供与传统App一样甚至超越的用户体验。
比如公众号里的AI客服,在没有扣子前,用户需要学习AI、小程序等,用上扣子分分钟搞定。即便是小白也不用担心学不会,B站上有很多教程,几分钟学会,基本是有手就行。
但这样就够了吗?未来的AI交互方式会是脑电波还是其他古怪的方式没人知道,但像电影里贾维斯那样,可以像人一样对话的AI助手想必才是人们想象中的未来。
在文字聊天的基础上,扣子新增了语音对话的功能,而且不是简单的文字转语音,而是“交流感”更强的语音功能,从“能说话”变成“会说话”。
相比于机械式念文字的AI,扣子智能语音OpenAPI首次将理解能力注入整个语音交互链路。
举个例子,我们刷内容平台的时候,可以看到一键朗读功能,虽然用到了AI,但也仅仅是把文字完整念一遍,如果你想让AI帮你把内容整理好,变成摘要再读给你听,这种功能就很少见。
扣子的智能语音OpenAPI就弥补了这一空白,能够理解全文,并且浓缩成精华版音频念给你听。
为了实现生物和非生物之间的对话交流这中二的愿望,智能语音这个科技点早早就被点亮,截止到扣子新发布的语音功能前,大致能分为三代。
第一代IVR,就像是一个提前安排好所有路径的导游,每一步都被精心设计和预设。
通过提前准备好用户可能会问的问题,并录好相对应的音频,当用户指定要咨询的内容(拨号)时,机器会返回相对应的内容。这种智能语音的智能程度取决于预设的知识树,也就是准备了多少语音。
典型的例子就是10086客服,从用户拨打客服热线的那一刻起,IVR就开始通过这棵树引导你。树的每一条分支都预设了固定的选项,而每个选项背后则是客服能够提供的标准化服务。
例如按1就可以查询账户余额,按2就能办理套餐变更,按3就能投诉……
问题也就显而易见,它不能实现预设指令之外的操作,除非按0转人工。
第二代IVR在第一代的基础上,借助自然语言处理能力的发展,具备了一定的交互能力。比如我们常见的Siri和智能音响。
举一个例子,我们想设置一个10点的闹钟,可以用各种语序,例如“我想订一个10点的闹钟”,也可以“明天早上10点叫我起床”。算法会识别这两句话,提取关键信息“10点”“闹钟”“叫起床”等,识别并定位到闹钟进行设置。
但此时的理解能力非常浅显,用户需要用很刻意的语句才能唤醒相对功能,如果用户说“明天和小王约好的会议前1小时提醒我”,算法会无法识别。
由于人们的语言习惯千变万化,经常会出现算法无法理解的内容,从而被用户吐槽为人工智障。
此外,第二代IVR系统仍然需要预设能力框架。这是因为在设计系统时,需要对常见问题、用户需求和可能的交互路径进行规划。预设能力框架为系统设定了基本的行为模式,确保系统在常见情况下能够迅速响应用户需求,保持一定的稳定性和一致性。
理解能力不强,功能有限,是第二代IVR存在的问题。
随着大模型的出现,AI在理解和表达能力上有了质的飞跃,但此时的交互方式是文字交流,随之诞生的所谓的音频大模型,本质上是将语音转化为文字,让大模型识别后输出文字,再转换成语音的过程。
但逻辑上这就导致会出现很多文字交互特有的问题,比如对方言的理解困难、对情绪难以理解、中途用户不能打断等。
用户使用音频大模型,如果愿意等待,还是可以获得不错的回答,但最大的问题就是,这不像人。人类交流时要考虑对方的预期情绪,听懂特殊的表达方式和背后的情感,可以随时打断换个话题。
这些功能,扣子在RTC技术的加持下,做到了与真人无异的语音交流方式。
图灵测试中,我们根据回答的内容判断对方是不是真人,在交流对话中判断的依据就更加复杂。
首先最重要的就是有即时反馈,其次就是在能力上,除了有常识外,还要有一些基础能力和记忆,最后就是人性特点,懂得语气能理解上下文。
扣子的智能语音通过基于火山引擎的RTC(Real-Time Communication)方案,把对话时的延迟充分降低。比如你对扣子说你好,它会像人类一样立刻回复你好。同时,如果对它的回复内容不满意,可语音打断开启新的话题或提问。
在没有使用RTC技术的AI上,这一很简单的回答也需要一系列推理后,延迟一段时间再进行回复,大大降低了人们的交流欲望。
而在能力、常识、记忆方面,扣子平台的AI Agent可以胜任。扣子作为AI Agent 搭建平台,包含了 Agent 各项能力,如记忆(文件盒子、数据库、变量)、知识(文本、表格、照片)、技能(插件、触发器)、编排(工作流、图像流)等。
最后,在情感理解上扣子通过BigTTS技术,让扣子不但有丰富的情感和语气,还可以中英混说。BigTTS也是大模型的产物,其通过大型预训练模型和深度神经网络,显著提升了语音合成的质量和多样性。
在理解能力上,扣子智能语音的BigASR技术起到了作用,同样借助深度学习,扣子可以更好的理解上下文,更像一个真人。
即时反馈,有常识和记忆,说话有语气有情感,扣子智能语音变得更像人了。
体现在用户使用方面,可以总结为四个优势。
优势一就是精准的语音识别。大模型的自动语音识别(ASR)技术可以将语音准确转换为文本,并且能够理解上下文。这意味着即使是提到过的名词和不同的说话风格,系统也能识别出来。在有噪音、专业领域术语或者中英文混合的情况下,识别效果依然出色。
第二个优势在于强大的AIAgent功能。扣子平台是一个具备多种功能的AI Agent工具。它不仅可以存储和记忆信息(如文件、数据库、变量),还能管理各种知识(包括文本、表格、图片)。此外,平台支持插件和触发器扩展功能,以及任务的自动化编排(如工作流和图像处理),使得处理任务更加智能高效。
系统采用了RTC技术,有效减少了数据传输的延迟。这意味着用户在使用时能够获得即时、顺畅的体验,语音交流时系统能快速响应。超低延迟也是扣子语音的第三大优势。
最后,深度学习加持下的文本转语音技术能够生成自然逼真的语音效果。它可以根据文本内容智能调整情绪和语调,生成清晰流畅的语音。无论是音质还是情感表达,甚至中英文混合朗读,效果都非常接近真人的表现,让听众体验更自然生动。
RTC技术来带了低延迟,AI Agent带来了记忆、推理能力,基于深度学习的TTS技术让智能语音有情绪,能共情。
这不就是一个理想中的,贾维斯那样的随时随身的智能助理吗?
对于普通用户来说,心情不好的时候和扣子智能语音聊聊天,它能感受到用户的情绪,并且返回和咨询师一样温柔的回答。在异国他乡,用扣子进行实时翻译,不用担心与外国人交流时候不同步。大模型与生俱来的百科全书属性,让用户可以哪里不懂问哪里。
设想一下,10086接入了扣子智能语音,用户想咨询业务不再需要学习专业术语,描述一下功能,AI就能帮你找到。当用户被无端扣费时,AI甚至能够听出用户着急的语气,安慰几句,虽然治标不治本,但心情肯定会好很多。最重要的是,扣子智能语音不会让用户干等着,无论情况有多复杂,AI都能“秒回”。
想象中的使用场景还有很多,但还是需要各行各业的朋友们来发挥想象力。
如果你想参与内测体验,关注「扣子Coze」公众号回复「语音」即可申请内测。期待大家的体验反馈!
全文完。
作者:董道力
编辑:张泽一
视觉设计:疏睿
责任编辑:张泽一
关于「新硅NewGeek」:我们以AI为圆心,追踪科技领域的方方面面,努力用最简单的方式阐述技术是如何改变世界。敬请关注。
热门跟贴