最近,WebRTC 的早期创建者之一,Fixie.ai 联合创始人兼 CTO Justin Uberti 近日宣布加入 OpenAI,领导实时 AI 项目的开发。他认为语音交互是AI的未来,我们正在回归对话式的社会。
JustinUberti加入OpenAI这个决策现在看起来顺理成章。早在今年5月,OpenAI发布第一个端到端voice-in, voice-out的大模型GPT-4o,十年前电影《Her》描述的场景开始照进现实。低延迟、高智能的AI,凭借信息秒回、不会失联、7×24h情感陪伴、随时提供情绪价值的能力,让AI的角色超越了简单的生产工具,开始深入地融入生活的方方面面。
事实上,近两年时间里,AI从“能说话”到“会说话”,能力越来越强,有关AI的讨论也不再局限于“AI助手”,话题甚至开始频繁出现"AI男友/女友",AI陪伴成为社交应用的主要发展趋势之一。根据 A16Z 的8月份最新报告,Top100的app中,16%的产品为 AI 陪伴类产品,且占top20中的6个。
当AI陪伴应用广阔的市场空间以及巨大的发展潜力得到市场广泛认可之时,其中一个值得关注的重点是,语音交互成为了当下最为关键的入口。
不管是星野、Character.AI、筑梦岛、Poly.AI等原生AI应用,还是国内头部泛娱乐app包括TT语音、Soul等推出 AI 分身、 AI 宠物、AI 伴侣玩法……不同应用的玩法和设计上虽然各有千秋,但核心要素都是以对话为主要交互方式,为用户提供情感体验。
上述现象背后潜藏着一个趋势性变化:随着AI陪伴应用市场的不断发展,也将激发用户对更优质的语音交互体验的强烈需求。而在AI技术引领的时代变革中,如何紧跟用户日新月异的需求,提升产品体验?
近日,「即构科技」发布的自研音频引擎——Purio AI音频引擎,给到市场一个新的解决方案。该方案通过三大核心技术:AI降噪、AI回声消除和音量均衡技术,为用户打造纯净、保真、舒适的听觉体验。不仅支撑社交应用用户获得更好的音质体验,还能配合最新的AI陪伴方案,让AI陪伴更拟真。
「即构科技」发布的自研音频引擎——Purio AI音频引擎
当语音成为交互的关键入口
毫无疑问,语音作为人类做自然便捷的沟通方式,是智能时代人机交互的关键入口。
一方面,通过RTC技术应用,低延时的快速响应让人与AI的互动更接近真实。另一方面,通过语音识别,让机器识别人的情绪、语调成为可能,最终输出更精准、更智能的回答。
从各大AI厂商的产品发展趋势亦可看到,语音是不可或缺的一环。比如GPT-4o发布以来,端到端实时多模态成为国内外厂商跟进的新方向,其中国外AI厂商Character.AI推出通话功能、微软AI表示年底将拥有实时语音界面,国内豆包8月宣布大模型已支持实时语音通话新功能、10月份Kimi发布语音通话功能……
可以预见,语音交互也将成为未来对话式多模态大模型交互的终极形态。
不过,语音交互对用户而言并不陌生,在已经成为生活中的点点滴滴的智能家居、手机、车载、智能穿戴、机器人等领域,语音交互技术已经实现快速渗透和落地,多数时候,只需张张嘴,机器能代替人类完成一系列任务。
并且,语音交互因其在促进陌生人社交关系以及提升熟人沟通效率方面具有显著效应,使其在社交、办公等场景被广泛运用,成为应用的基础能力。互动场景基于语音通话快速创新,比如游戏开黑、语聊派对、在线K歌、直播、教育等各类新颖、丰富、个性化的实时互动体验,渗透到用户的日常。
便捷性更是使得语音互动在随时随地发生,比如通勤时参与线上会议、用餐时与搭子远程唠嗑或者户外来一场直播等。随时随地互动的便捷习惯,也带来了比以往更复杂的通话环境,音质问题也比以往更加频繁了。
比如在人机互动中,嘈杂环境将明显降低识别准确率;多人会议中,任意用户携带明显噪音上麦,将冲击多人房氛围,不好的反馈也会影响用户本身的发言欲望,嘈杂的表现更会导致观众流失;K歌应用在复杂的环境下,人声音质也将变得“沉闷浑浊”甚至“漏回声”“吞音”,用户体验欠佳……
用户如何才能在复杂环境中拥有“丝滑”的交互体验?语音互动关键技术的创新突破是关键一环,重点在于如何在不失真的情况下尽量的把噪声去除的更干净,保证用户听的更清晰。
在这样的背景下,「即构科技」发布Purio AI音频引擎,通过升级AI降噪的算法效果、推出全新的的AI回声消除算法、动态响度均衡算法等核心算法,为用户带来纯净、保真、极致舒适的听觉体验。
用创新,为用户带来优质体验
Purio AI是「即构科技」专注于音质增强的最新技术。
据悉,「即构科技」从2015年就开始走上自研音频引擎创新之路,其中2015年自研3A音频引擎、2018年服务互联网头部客户超70%,并不断推出适合各行业的一键接入语音互动解决方案、在2021年首发打通音乐版权商的全套KTV解决方案,技术上首创场景化AI降噪、K歌专业AEC算法、首家支持单房间万人连麦的规模等等。
在2022年,「即构科技」正式发布AI降噪功能,彼时AI降噪在海外市场已经被广泛运用,而国内相对保守,根本原因在于国内对安静互动环境暂不依赖。然时过境迁,随着用户时常遇到噪音干扰,大到公共场所、户外闹市的人车嘈杂,室内场所的电视、音乐,小到键盘敲击、插拔耳机、咳嗽、吞咽等。
因此,好的语音互动体验,也就成为用户当下最迫切的需求。换言之,如何实现音质的提升,即主要的3A能力优化:降噪、回声消除、自动增益控制,成为解决用户痛点的核心能力。
首先,以降噪技术为例,传统降噪没法有效抑制瞬态噪声、传统回声消除对人声损伤较大等,也就存在环境适应能力差的问题。AI技术的发展与加入,通过其较强的泛化能力,正好弥补传统方式在复杂环境中的适应能力。
不仅如此,AI的能力让降噪和回声消除不仅能够适应用户多变的环境,有效抑制干扰同时还原人声,还能具备场景的识别能力,比如AI能充分理解“干扰”和“人声”的区别,做到精准分离;也能做到不同场景智能切换效果,比如进场音乐不是噪音、会议场景中掌声不是噪音等。
实际应用中,比如最早把AI引入到的移动社交产品的公司之一——趣丸科技,通过「即构科技」音频技术,保障2亿用户顺畅、优质的连麦体验,也持续为用户创造新的语音社交玩法。
趣丸科技2022年上线的“在线K歌”玩法,便是结合即构Purio AI音频引擎技术,实现了K歌场景效果的显著突破:动态响度均衡能力带来了精准人声伴奏对齐,解决K歌过程中人声与伴奏相互冲突的问题;K歌打分技术提供了准确且及时反馈的演唱评分系统,能够结合音高、节奏、吐字、气息等多维度,对用户的唱歌水平进行更加全面、客观的评价……
TT语音×即构科技合作案例
值得注意的是,AI的加入,实际上也为语音交互带来了新的挑战,其中最突出的影响莫过于模型复杂,性能消耗巨大,给实时场景交付提出了很大的挑战。即在时延和功耗方面,落地到中低端机型里面不仅延迟高功耗大,容易发热,应用很难运用AI能力。
为解决此类由AI加入所产生的拖后腿问题,「即构科技」通过重参数化、参数共享、模型量化等多种技术手段,实现低开销、低延时、高保真的效果。新品Purio AI音频引擎依然保持以往超低延迟、轻量化特性,在延迟方面AI级算法<10ms,低端机型的CPU功耗增量<4%,保证了终端用户高可用。
在过往的基础上,Purio AI具有全场景400+噪音种类识别与消除技术,相比2022年版本抑制效果提升52%。在多重高精度AI技术加持下,抽丝剥茧剔除噪音,精准还原人声,人声保真度客观指标达到业界领先水平。同时,其还具备场景化AI降噪能力,能够智能调节AI降噪策略;AI算法能够智能识别并消除高达99.9%的音频回声,多重高精度AI技术分离近端信号与回声信号,确保精准还原音质……
如今,「即构科技」音质增强技术已广泛用于直播、听歌、社交、电台等泛娱乐社交应用,以及金融双录、在线教育、视频会议、智能硬件等行业应用中。
热门跟贴