通信世界网消息(CWW)话音作为联结全球80亿人口的纽带,承载着人与人之间最基本、最可靠的沟通需求。在科技发展日新月异的当下,各行各业迎来前所未有的革新契机。特别是AI技术的蓬勃兴起,推动话音业务从传统音视频向多模态、交互式通信的形态转变,极大地促进了通话产业的繁荣发展,开辟了全新的增长点。借助AI技术为新通话赋能,构建智能体通话能力,重塑用户通话体验,正是打造智能业务新入口的黄金时机。
AI给通信产业带来的变化
2022年,ChatGPT横空出世,自此各种大模型相继亮相,人工智能进入蓬勃发展阶段,并逐步向多模态、智能体等方向发展。在通话领域,文本、图像、语音等多种模态数据处理技术日趋成熟,通信内容从传统音视频向全媒体、智能化演进。与此同时,IMS DC(数据通道)的标准制定工作也在持续推进。2024年6月,GSMA正式发布PRD TS.66 IMS Data Channel APISpecification,为构建全球统一的新通话应用生态提供了标准依据;3GPPR18标准正式冻结,为新通话商用的全面提速奠定了标准基础。随着DC标准的逐步演进,未来交互式通信将进一步降低对终端的依赖,从而促进运营商基于DC的交互式业务的落地。人工智能结合AIGC(生成式人工智能)、Agent、LLM(大型语言模型)、MLLM(多模态大语言模型)等技术,可实时感知用户意图,为用户提供交互式、沉浸式的通话体验。
“AIGC+语音驱动数字人”为用户提供个性化数字人形象,人人都能拥有自己的数字分身。AIGC技术已被广泛应用于各个领域,在实时通信领域被用于生成个性化数字人形象。通过图生图、图生视频、文生图和文生视频技术,降低个性化素材创作门槛,人人都可以拥有自己的数字分身。语音驱动数字人技术基于用户的语音输入,实时驱动数字人形象生成与语音同步的口型、表情和动作,让数字人更具生命力。
“AI Agent+LLM/MLLM”为数字助理装上“超级大脑”,为用户提供更加沉浸、智能、高效的体验。LLM/MLLM基于海量数据进行训练,具有数十亿甚至数千亿的模型参数,具备强大的理解、表达和泛化能力。基于LLM构建的AI Agent已在多个领域展现出巨大潜力,可以更准确地理解用户意图、情感以及上下文信息,与用户进行更自然、流畅的交流。基于MLLM构建的AIAgent不仅能够处理文本,还能理解和生成图像、音频、视频等多种模态的数据,增强数字助理的理解能力,为用户提供更丰富的交互体验。结合RAG(检索增强生成)和工具使用能力,增强AIAgent的知识获取与记忆能力,从而实现个性化的用户数字助理。
AI赋能新通话,智能体变革通话体验
通过AI赋能网络,新通话可实现智能体通信,为用户提供更加高效便捷的通话体验。为实现这一目标,需要在已有新通话基础架构上进行能力增强,引入通话智能面,实现多模态交互及第三方模型对接。
新通话智能体通信架构如图1所示。新通话能力平台基于业务AS(应用服务器)指示向新通话媒体面发起音视频或DC操作,如拉起单向视频实现网络侧点亮屏幕业务;同时,进行新通话智能面设备发现,并指示智能面完成语义交互。
图1新通话智能体通信架构
新通话媒体面可接受来自新通话能力平台的指示控制,进行媒体流复制、收号、字幕提示、放音等基础音视频能力操作,以及字幕流合成、虚拟背景替换、虚拟头像替换、媒体元素合成等相关媒体处理。同时,新通话媒体面负责将实时媒体流复制给智能面,完成进一步AI语义交互处理,并确保媒体流发送给终端的实时性不受影响。
新通话智能面可接收新通话媒体面复制的媒体流,提供通话语义智能交互及分发相关能力。它支持针对用户的意图识别、多模态(音频、文本、图片、视频)语义交互;同时,通话智能体平台基于用户意图进行灵活分发引流,可分发至内置的垂域语义交互模型或外置的大模型智能体、行业智能体进行复杂任务闭环。一方面,智能面可提供内置的工具调用、RAG知识库、用户偏好、长短期记忆等辅助能力。另一方面,智能面需构建AI安全能力,如安全围栏、AI标识、隐私保护等,以更好地应对网络攻击和数据泄露。
新通话智能体架构具备以下三方面能力。
一是多模态交互。“AIGC+大模型+算力”驱动音频、视频、文本、图片等多模态的语义理解、交互和信息流转换,让每一位用户都能拥有一个数字人形象,让每一个数字形象都可以通过AI实时驱动,提升用户的互动体验。
二是NaaS开放使能。新通话三通道能力基于企业接入网关,按应用能力区分IaaS、PaaS、SaaS等方式分层开放标准API,使能开发者和行业ISV。新通话被设计为一个开放的业务使能平台,南向汇聚音视频媒体处理、实时数据交互等网络能力;北向实现能力的聚合封装与开放共享,使能各类行业业务,调用聚合的新通话能力层,快速完成业务创新,繁荣行业应用生态,打开更广阔的市场空间。
三是使能外部大模型、工具。基于用户意图理解,自动调用垂域最优权威模型、工具,从而提供最佳解决方案,为用户提供最优的通话体验。例如,当涉及医疗领域问答时,自动调用业界权威医疗AI模型提供专业的医疗对话。
在未来,每个人都将拥有一个专属的通话智能体,用户可以自定义智能体形象并通过语音实时驱动进行互动。一方面,智能体具备代答能力,实现防漏接、防骚扰、防欺诈;另一方面,智能体可提供伴聊、陪聊能力,并且可以识别用户意图进行跨应用编排,例如外卖订购、酒店预定等,在通话中闭环业务,进一步提升用户体验,实现智能体走入千家万户、赋能千行百业。
智能体重塑运营商通话业务入口
AI引发的交互方式变革,给整个移动通信产业带来了前所未有的发展机遇。领先运营商已经将AI作为发展战略,通过传统通信网络基础设施、业务与AI技术结合,促进AI技术深入千行百业,助力电信运营商科技转型。
例如,中国移动发布“AI+”战略,基于“九天”大模型,打造从基础设施到核心能力的开放AI服务,以科技创新全面推进产业数智化转型,推动AI深度赋能数实经济发展,为新质生产力筑牢基础;韩国电信运营商SKT发布“AI金字塔战略”,围绕AI基础设施、AI转型和AI服务三个关键领域加速创新,拓展已有数字化服务能力,加速AI战略转型;韩国电信运营商LG U+基于“Growth Leading AX Company”(增长领先型AX公司)战略,成立“AIAgent特别工作组”,与终端厂商深度合作并发布AI通话助手“ixi-O”,实现AI代答、纪要、翻译、“钓鱼”警告等能力,增强用户体验,加速AX战略转型。
话音作为运营商的基础业务,拥有庞大的用户基数,基于AI的通话业务入口,可作为运营商实现AI战略落地的有力抓手。据华为MI数据统计,中国有17.5亿移动电话用户,每月平均有200多分钟通话时长,整体每月通话时长超过四千亿分钟。基于如此庞大的通话流量,如何发挥其价值?当前企业客服的APP线上业务咨询已经非常普遍,但数据显示,企业客服热线移动电话客服占比达60%~80%,例如运营商客服热线占比60%,某移动支付电话客服占比更是达到了80%,电话热线仍然是企业客服的主要入口。
由此可见,运营商的通话入口具备成为AI入口的流量优势。同时,运营商具备APP免安装、终端普惠和实时体验的天然优势,独有的公信力和社会责任可提供AI监管、隐私看护等方面的安全认证。在OTT、终端厂商、运营商发力抢占AI入口的当下,运营商基于“原生拨号盘”打造AI入口,有能力做到“三分天下有其一”。
产业携手,拥抱AI,合作共赢
AI的飞速发展将为通信产业带来颠覆式变革,从传统的音视频通话到多模态通信、智能体通信、沉浸式通信,AI将进一步改善通话体验、提升通话效率,以实现科技助老助残,践行“科技向善”理念。在AI加持下,新通话将进一步打开话音产业发展空间,这需要产业上下游伙伴(包括终端和芯片厂商、标准组织、三方行业、设备商、运营商等)携手共建,打通发展断点,共建通话新生态,推进新通话产业繁荣发展。
*本文刊载于《通信世界》
总第958期 2024年12月25日 第24期
热门跟贴