人工智能大模型已经从如火如荼之间开始进入到了落地焦虑之中,甚至已经牵连了英伟达的股价。因为大家逐渐开始发现,虽然这个东西很好
,但还找不到什么很大的商业用处。更多的人还是把它当做一个智能化的搜索引擎,虽然不能说没用,但怎么也不会超越搜索引擎,又何况里
面还有一些不准确的AI幻觉的部分。
不过最近讯飞发布的星火极速超拟人语音倒是给人一种科技的一小步,体验的一大步的超强迭代感。也许这才是人工智能大模型改变世界的真正方式。
人和AI的差距就是那几秒
人和AI到底差别在哪里?我想很多人都会认为,人显然不会像AI那么博学,甚至大部分人都谈不上有较高的学识。所以大家会认为大模型发展的方向一定是更加的准确和全能,能够解决更多的数据和问题,然后就在不断的提升算力和数据量,似乎进入到了一个无限竞争甚至得出了一个未来人工智能竞争的上限是电力供应的恐怖话题。
当然,我不反对这种观点,它也许确实是对的,或者代表了行业的方向,但回过头来去思考,这种全知全能到底是谁的需求?用户是不是真的有这么一个刚需去获得一个全知全能的大模型?
这让我想起成都车展上沃尔沃总裁对人工智能的一个吐槽,他说,“现在大家去试车,用语音说打开天窗,然后几秒后,天窗打开了,大家就说这个车智能化很好。一个物理按键一秒钟就能实现的功能现在要四秒才能完成
,这个功能的意义到底是什么,满足了什么需要又满足了谁的需要?”我们抛开这个话题本身不谈,我最大的发现则是这些智能外行人群也就是我们说的普通用户人群首先考虑的一个点是“4秒”和“1秒”之间的差别。
所以,综合一下就是,专业的人认为专业是最重要的,但普通的用户则认为,快捷是最重要的。放到AI这个领域上来说,最大的问题不是准确不准确,而是它思考的时间太长了,让我没有办法产生交流的感觉,最后就只剩下了命令和搜索的感觉。我反而觉得这是普通用户关注的真正焦点,也是人工智能大模型最终能够真正获得普及的关键。而讯飞星火极速超拟人语音是我发现第一个关注到这个问题并着手解决的人。
从微信语音到微信通话
讯飞是语音识别的专家,所以最早发现这个问题也就不足为奇。讯飞所关注到的用户痛点是,传统的语音交互想要实现和人的对话,一般需要通过三步来实现:1?把语音通过语音识别系统转换为文字;2通过大模型生成回复文本;3最后再用语音合成系统转成语音。
因为各个系统是串联的,所以这整个过程的平均延迟一般需要3秒左右。而人类从电话发明开始,就已经习惯于在各种场景下实时交流了。甚至很多人认为美国登月是假的一个重要原因就是,通话是实时的,而月球那么远信号来往是要有时间的。
讯飞的另一个发现则是,在语音转文字再转语音的过程中,语音的很多情感、副语言信息甚至是环境信息都会丢失,导致语音交互系统只能针对语音的文本内容进行回应,会忽略我们在语音中本身真实的情感、语气等元素。换句话说,就是内容都在,但感情没有了。而没有感情,也是人们无法将AI当做人来沟通和共情的关键,尽管AI可能比绝大部分人要聪明和博学很多。
而星火极速超拟人交互就是跨文本和音频模态端到端地训练了一个新模型,直接省去中间环节直接实现音到语音的建模,大大压缩了响应时间,于是就实现了真正类似人们交流的延迟,基本你话说完,就直接有了回应。
更重要的是,讯飞结合了自身作语音识别多年的经验和积累,利用讯飞多维度的语音属性解耦表征训练准则,将内容、音色、情感、语言、风格等信息进行解耦训练,保持了AI对情绪的理解和表达能力,这样就不再是一个冷冰冰的机器回答,而变的有情绪多了,给人的感觉就像钢铁侠的老版本AI升级到了贾维斯。整个交流从“微信语音模式”切换到“微信通话模式”了,感觉一下子就来了。
(http://www.njmyb.cn)
来源:http://www.taiyangcheng.com.cn
(http://www.241fzl.cn)
来源:http://www.shfengli.cn
(http://www.omidi.cn)
来源:http://www.karitraa.com.cn
(http://www.ghywkj.cn)
来源:http://www.sencraft.cn
(http://www.loudtalks.cn)
来源:http://www.wshikong.cn
(http://www.qqtu.net.cn)
来源:http://www.szjkn.cn
(http://www.v106.cn)
来源:http://www.zhangdudu.com.cn
(http://www.fujicn.cn)
来源:http://www.zhaohaoyao.cn
(http://www.kagey.cn)
来源:http://www.t059.cn
(http://www.liheqq.cn)
来源:http://www.saintrosa.cn
这个速度水平已经追平了GPT-4o,情感水平甚至还有所超越,明显快于其他大模型的产品,并且可以提供更多个性化的使用方式。比如用幽默调侃的语气讲个笑话,用诗歌的方式朗诵一篇文章,用方言给大家做个介绍,甚至模仿孙悟空或者蜡笔小新来聊个天等等。整个AI交互的场景和思路都一下子打开了,让人感觉一个变革的节点似乎终于来了。
变革节点到了
我一直认为,大模型提供的回答信息内容已经非常不错了,虽然达不到全知全能的水平,但是已经足够用了,而对于专业人士来说,他们也不指望大模型能真的解决专业问题,但一个数学家说的挺好,大模型给他提供了十个方案,他确定有一个是有启发的。
所以真正的困境还是在用户体验上,用户并不觉得他是一个可以互相交流的同类,而只是一个更聪明一点的智能音箱。而现在这个问题终于迎来的最简单的解决方案,把速度提上去,把感情加进来,让用户愿意跟你交流。想想再度自驾车的时候,能有个人工智能聊天也是很快意的一件事情,而之前大家没有这么做,显然就是因为那种唤醒模式和延迟时间,实在是聊不起来。
现在有了星火极速超拟人语音,这种真正像人一样的交互显然已经可以落地,汽车、手机、家居家电、智能硬件等领域的大模型交互也会彻底颠覆,用户终于可以不再把大模型当做一个工具,而是真正当做一个自己AI助手去交流。
这大概就是速度提升的一小步,却是体验提升的一大步了。而讯飞能够做到这样的突破,我想不仅仅是因为他们的敏锐和产品能力,更是因为他们在语音识别领域遥遥领先的积累。
讯飞在人工智能最大的特点其实是落地能力强,早早的就把大模型应用在了教育、医疗等多个方面,并且形成了非常强的产品思路。而现在星火极速超拟人语音的出现,无疑是这种思路持续发展的结果,也是一个非常有突破的关键点。
目前讯飞还在中石油等央国企大模型项目中不断中标,最近又刚刚拿下了东数西算贵安新区算力产业集群的配套项目,无疑也是这种能力的另一种体现。相信随着星火极速超拟人语音的落地和发展,讯飞星火大模型会带来一波真正的人工智能的落地契机,就好像当年语音输入给输入领域带来的颠覆一样。
热门跟贴