前段时间我在即刻上吐槽了一件事,就是一连数次,有好几个人拿着和豆包聊天的结果给我当建议...有我50多岁的丈母娘,有和我对接的某视频平台的运营。
emmm...我好像也没问你们啊。
似乎,大家使用豆包的意愿和接纳程度比我想象得高多了。
然后我查了下,根据QuestMobile的数据,2025年12月豆包的月活跃用户达到了2.27亿,是第二名DeepSeek的将近两倍。经过今年春节的一波增长,现在的数字只会更高。
讲道理,这数据实在有点超出我惯常的认知了,虽然大家都懂字节做增长是强项。
然后我特意去了解了下大家平时都是怎么用豆包的,大多数是拿来问问题、写写东西,用完就走。但也有个越来越有趣的变化:越来越多人开始和豆包「打电话」。
语音交互,终于等到了它的时代
说到和AI语音对话,我总会想起一个人——罗永浩。
2018年,老罗在鸟巢开了一场万人发布会,发布了一个叫TNT的产品。核心理念是:未来的电脑交互应该是语音+触控,不再需要键盘和鼠标。
发布会现场翻车了。语音识别磕磕绊绊,老罗急得满头大汗,台下的笑声从善意变成了尴尬。后来他自己回忆说:当年的语音没有AI加持,准确率虽然能到百分之九十几,但现场那个环境确实搞砸了。
TNT被当成了笑话,当年科技圈最大的乐子之一。但老罗说的那个方向,错了吗?
快进到2026年,你会发现一件有意思的事:老罗8年前畅想的东西,正在以另一种形式变成现实。
第一个信号是vibe coding。现在用AI写代码的开发者越来越多,其中相当一部分人开始用语音来下指令。道理很简单:说话速度是打字的3-4倍,对着Cursor说「把这个按钮改成蓝色」比打字快多了。我自己也是,用AI写代码这两年,越来越觉得很多指令用嘴说比打字自然。
第二个信号是Typeless这类语音输入产品火了。一个语音输入法,年度会员要1000多块人民币,居然还卖得不错。更有意思的是,很多vibe coder觉得贵,干脆自己用AI做了一个语音输入工具——用AI做的工具,来给AI输入指令,套娃了属于是。
第三个信号,就是豆包的2亿多用户。
这三件事其实都在说同一件事:语音交互不是未来,就是现在正在发生的事。 只不过它没有发生在老罗想象的桌面电脑上,它发生在手机上,发生在人和AI的对话里。
但语音交互有一个老问题一直没解决好。
为什么之前和AI打电话总觉得「不对劲」
你大概试过和AI语音对话吧。不管是Siri还是之前版本的豆包,体验都有一个共同的别扭感:你和AI之间,其实是在「轮流发言」,不是在「对话」。
你说一句,等一两秒,AI回一句。你还没说完,AI就抢话了。你在嘈杂的地方说话,AI把旁边大爷的广场舞指令当成了你的问题。
为什么会这样?其实是技术架构决定的。之前的AI语音基本都是一条流水线:先把你说的话转成文字(语音识别),再让大模型理解文字生成回复(语言模型),最后把回复转成语音播出来(语音合成)。三个环节排队走,每一步都有延迟,加起来就是那个尴尬的空白。就像你发微信等回复,只不过这个「正在输入…」变成了你们面对面干瞪眼。
但更别扭的地方在于,这条流水线是单向的。AI在说话的时候,它听不到你。你说话的时候,AI也没在听。跟打电话完全不是一回事。你以为你俩在聊天,其实你俩在轮流发语音。
打电话的时候,你和对方是同时在听、同时在说的。你说到一半停顿了,对方知道你在想,会等你。你说完了,对方马上接话。背景很吵,对方也能分辨出哪个是你的声音。
这个能力叫全双工。人类打电话天生就是全双工的,但AI语音对话一直做不到。
直到最近豆包的这次升级。
豆包语音通话的这次升级到底改了什么
豆包这次把语音通话的底层模型换成了端到端的全双工模型。
翻译成人话:以前是「你说完→它转文字→它想→它转语音→它说」,现在是「你说→它直接说」。中间少了好几道工序,就像从转三次公交变成了打直达车。这带来了三个直观的变化:
第一,它能一边说一边听了。 你打断它,它马上停。你嗯嗯啊啊表示在想,它知道你没说完,会等你。就这一点,体验差距就非常大。
第二,抗干扰能力明显变强。 旁边有人说话、有音乐、有环境噪音,它不会被误触发,也不会把别人的话当成你的指令。
第三,延迟降低了。 在需要快速接话的场景(比如玩成语接龙),它的反应速度明显快了。
听起来都是技术参数。但你真正用起来的时候,感受是很直接的:和豆包打电话,第一次开始像在打电话了。
我决定拿一整天来测一下,到底有多「像」。
带着豆包去逛AIFUT
4月8号,卡兹克办的AIFUT大会在北京亦庄开幕,就是之前Faker和TheShy打表演赛的那个电竞馆。34个AI展位,主论坛1000张票秒光,展区免费开放,从早8点到晚9点。
我决定做一个实验:这一整天的出行,在不同环境里和豆包打电话,看看全双工在真实场景下到底表现怎么样。
不过在出发之前,我做了一件事:先在对话里把AIFUT的活动信息喂给了豆包。 展会时间、地点、签到规则、展位分布,全部告诉它。这一步后来证明非常关键。
场景一:网约车上
坐上车,我拨通了豆包的语音通话。
「我一会要去参加那个AIFUT的展会,我有什么需要注意的吗?」
因为之前已经喂过信息,豆包马上就给了很具体的建议:提前在小程序完成签到能领5个FUT币、今天气温10到20度建议带件外套、场馆里不能吃螺蛳粉臭豆腐这些重味食物。
挺顺的。然后我追问:「哎我有什么东西是必须带着才行的吗?入场有啥要求不?」
它说身份证原件必带,签到领FUT币和主论坛入场都需要。
我一下慌了:「我靠我好像忘带身份证了,这怎么办?」
我当时是真慌了。但它倒是比我淡定,分情况回答:如果只是逛免费展区不用身份证直接进场就行,如果买了主论坛门票可以试试微信或支付宝的电子身份证,在卡包或证件夹里能找到,现场工作人员一般会认可。
坐在旁边的司机师傅看了我一眼,大概在想这人为什么对着手机自言自语还急得不行。
这段对话最让我意外的不是它回答得对不对,而是聊天的感觉。 因为提前喂了上下文,整个对话省去了大量解释背景的时间。我不需要说「AIFUT是一个AI展会,在北京亦庄,有34个展位」——它都知道。这让语音对话的效率提高了一个量级。
还有几个细节让我觉得这个对话确实不一样。
它在回答签到规则的时候,我突然想起来一个事,直接插了一句「等等」。它几乎是瞬间就停了,没有像以前那样把剩下的话说完才停。等我说完补充的问题,它接着往下讲,衔接得很自然。
另一个细节是节奏。我问「忘带身份证怎么办」的时候,其实后面犹豫了一下才补了一句「这怎么办」。中间大概停了两三秒。如果是之前的AI语音,这两三秒的空白它大概率就开始回答了,因为它以为你说完了。但豆包没有,它等到我真正说完了才接话。该等的时候等,该接的时候秒接。 这个节奏感确实挺像在和人聊天。
网约车里有一点路噪和导航播报声,完全没影响到对话。
场景二:主论坛辩论赛进行中
下午三点多,主论坛正在进行一场辩论赛,题目是「教别人用AI是可以教会的吗」。台上AJ、卡尔的AI沃茨、葬AI、Max For AI几个AI博主吵得不可开交,赛博禅心主持,骆轶航当评委。电竞馆的音响系统本来就是给英雄联盟比赛设计的,台上的声音在整个场馆里回荡,跟看世界赛团战差不多。
我就坐在观众席上。
这时候我掏出手机拨通了豆包。但我不太好意思大声说话——周围都是在听辩论的观众。所以我压低声音,问了一个很日常的问题:「我们现在打车回国贸的话,大概需要多久?」
这个问题其实不简单。首先,台上辩论声远比我的声音大。 这不是「有点背景噪音」的程度,而是台上好几个人在激烈对话、音响全开的那种环境,我的声音在里面几乎可以忽略不计。其次,要回答这个问题,豆包不仅要听清我说了什么,还需要知道我现在在哪(亦庄的电竞馆),再结合当前时间点来预估路程。
但它回答了,而且接话速度很快。我说完最后一个字,大概不到一秒它就开始回复了。不仅听懂了我的问题,还给出了从亦庄到国贸的打车时间预估。整个过程中,它没有一次被台上几个人的辩论声打断,也没有把辩手的话混进我的问题里。
你想想这个场景:一个几百人的电竞馆,台上四五个人在激烈辩论,音响全开,而你在观众席上小声问了一句「打车回国贸要多久」,AI居然能只听到你,还给出了靠谱的回答。
半年前的AI语音助手在这个环境里,大概率两种结果:要么直接听不清你在说什么,要么把台上辩手的话当成你的指令来回复。
但这次豆包在电竞馆里的表现,确实让我对全双工有了更直观的理解。它真正做到了在一堆人声里只听你一个人的声音。 这个能力听起来简单,但你亲身体验过在那种噪音里它还能准确回答你,感受是完全不同的。
一个让语音对话好用10倍的小技巧
测完这两个场景,我还发现一个挺实际的事:语音对话好不好用,不只取决于模型,还取决于你怎么用它。
之前我试过直接冷启动和豆包打电话,聊几句就觉得没什么意思。感觉像跟一个什么都不知道的陌生人尬聊,你说什么它都得从头理解,对话很浅。
但这次我在出发前花了两分钟,把AIFUT的活动信息喂给了它。结果整个出行过程中的对话质量完全不同:我说「展会」它知道我说的是哪个展会,我问「签到」它知道FUT币的规则,我说「忘带身份证」它能给出针对这个展会的具体建议。
这个发现其实很实际:如果你要在某个场景下持续用语音对话,先花1-2分钟把背景信息喂给它。 出差前告诉它你的行程、会议前告诉它议题、出门前告诉它今天的安排。有了上下文的语音对话和没有上下文的,完全是两种体验。
全双工解决的是「对话像不像打电话」的问题,但上下文解决的是「对话有没有用」的问题。两个加在一起,才是语音对话真正好用的状态。
和ChatGPT语音比起来怎么样
说到AI语音对话,绕不开ChatGPT的Advanced Voice Mode。
ChatGPT的语音模式也是端到端模型,也支持打断和情感表达,不少评测都说它是目前「最像真人的AI语音」。
但在国内用的话,豆包确实有几个实际的优势:
中文能力。 这不是客气话。AI语音对话对语言的要求远高于文字聊天——你要处理口音、方言、语气词、说话习惯。豆包能听懂18种方言,能用粤语、东北话、四川话输出。ChatGPT做英文没问题,做中文还是差一截。
在果壳的一次测评中,有一个很有意思的数据:让测试者判断「这是不是AI在说话」,ChatGPT有30%的对话被认为「一听就是AI」,豆包这个比例不到2%。
免费。 ChatGPT的Advanced Voice Mode需要Plus订阅,$20/月,而且有每日使用限制。豆包的语音通话功能是免费的。
可用性。 这个不展开说了,你懂的。能直接用和需要折腾才能用,这本身就是一道筛选。
不过公平地说,ChatGPT的语音在英文场景下的表现确实非常好,情感表达和幽默感都很自然。两个产品各有擅长的领域。
我的判断
回到开头的问题:2亿多人和AI打电话,他们在聊什么?
我觉得答案可能不在于「聊什么」。更有意思的问题是「什么时候聊」。
人和AI的交互,文字聊天覆盖的是你坐在电脑前、拿着手机、眼睛盯着屏幕的时间。但你回忆一下自己的一天:通勤、走路、排队、等人、发呆——这些时间加起来可能有好几个小时,过去AI根本触达不到。
语音通话打开的就是这块时间。
而全双工解决的是一个更底层的问题:让这种交互不再别扭。 之前的AI语音像是在用对讲机,按一下说一句,松开等回复。全双工之后,才真正像打电话。
在AIFUT逛了一整天,我印象最深的倒不是哪个展台的产品有多厉害。而是在网约车上和豆包聊展会攻略,我停顿了两三秒它耐心等着没插嘴;在电竞馆辩论赛最激烈的时候我小声问了句打车要多久,它一秒接话还答对了。
这些不是什么「黑科技」,这就是一个正常打电话应该有的体验。只不过电话那头不是人,是AI。
老罗2018年说语音交互是未来。他说对了。只不过这个未来的样子,是2亿多人拿起手机,和一个叫豆包的AI打了个电话。
热门跟贴