2亿多人开始和AI打电话，他们在聊什么？|手机|打电话|电脑|罗永浩|翻译|语音识别|豆包

前段时间我在即刻上吐槽了一件事，就是一连数次，有好几个人拿着和豆包聊天的结果给我当建议...有我50多岁的丈母娘，有和我对接的某视频平台的运营。

emmm...我好像也没问你们啊。

似乎，大家使用豆包的意愿和接纳程度比我想象得高多了。

然后我查了下，根据QuestMobile的数据，2025年12月豆包的月活跃用户达到了2.27亿，是第二名DeepSeek的将近两倍。经过今年春节的一波增长，现在的数字只会更高。

讲道理，这数据实在有点超出我惯常的认知了，虽然大家都懂字节做增长是强项。

然后我特意去了解了下大家平时都是怎么用豆包的，大多数是拿来问问题、写写东西，用完就走。但也有个越来越有趣的变化：越来越多人开始和豆包「打电话」。

语音交互，终于等到了它的时代

说到和AI语音对话，我总会想起一个人——罗永浩。

2018年，老罗在鸟巢开了一场万人发布会，发布了一个叫TNT的产品。核心理念是：未来的电脑交互应该是语音+触控，不再需要键盘和鼠标。

发布会现场翻车了。语音识别磕磕绊绊，老罗急得满头大汗，台下的笑声从善意变成了尴尬。后来他自己回忆说：当年的语音没有AI加持，准确率虽然能到百分之九十几，但现场那个环境确实搞砸了。

TNT被当成了笑话，当年科技圈最大的乐子之一。但老罗说的那个方向，错了吗？

快进到2026年，你会发现一件有意思的事：老罗8年前畅想的东西，正在以另一种形式变成现实。

第一个信号是vibe coding。现在用AI写代码的开发者越来越多，其中相当一部分人开始用语音来下指令。道理很简单：说话速度是打字的3-4倍，对着Cursor说「把这个按钮改成蓝色」比打字快多了。我自己也是，用AI写代码这两年，越来越觉得很多指令用嘴说比打字自然。

第二个信号是Typeless这类语音输入产品火了。一个语音输入法，年度会员要1000多块人民币，居然还卖得不错。更有意思的是，很多vibe coder觉得贵，干脆自己用AI做了一个语音输入工具——用AI做的工具，来给AI输入指令，套娃了属于是。

第三个信号，就是豆包的2亿多用户。

这三件事其实都在说同一件事：语音交互不是未来，就是现在正在发生的事。 只不过它没有发生在老罗想象的桌面电脑上，它发生在手机上，发生在人和AI的对话里。

但语音交互有一个老问题一直没解决好。

为什么之前和AI打电话总觉得「不对劲」

你大概试过和AI语音对话吧。不管是Siri还是之前版本的豆包，体验都有一个共同的别扭感：你和AI之间，其实是在「轮流发言」，不是在「对话」。

你说一句，等一两秒，AI回一句。你还没说完，AI就抢话了。你在嘈杂的地方说话，AI把旁边大爷的广场舞指令当成了你的问题。

为什么会这样？其实是技术架构决定的。之前的AI语音基本都是一条流水线：先把你说的话转成文字（语音识别），再让大模型理解文字生成回复（语言模型），最后把回复转成语音播出来（语音合成）。三个环节排队走，每一步都有延迟，加起来就是那个尴尬的空白。就像你发微信等回复，只不过这个「正在输入…」变成了你们面对面干瞪眼。

但更别扭的地方在于，这条流水线是单向的。AI在说话的时候，它听不到你。你说话的时候，AI也没在听。跟打电话完全不是一回事。你以为你俩在聊天，其实你俩在轮流发语音。

打电话的时候，你和对方是同时在听、同时在说的。你说到一半停顿了，对方知道你在想，会等你。你说完了，对方马上接话。背景很吵，对方也能分辨出哪个是你的声音。

这个能力叫全双工。人类打电话天生就是全双工的，但AI语音对话一直做不到。

直到最近豆包的这次升级。

豆包语音通话的这次升级到底改了什么

豆包这次把语音通话的底层模型换成了端到端的全双工模型。

翻译成人话：以前是「你说完→它转文字→它想→它转语音→它说」，现在是「你说→它直接说」。中间少了好几道工序，就像从转三次公交变成了打直达车。这带来了三个直观的变化：

第一，它能一边说一边听了。 你打断它，它马上停。你嗯嗯啊啊表示在想，它知道你没说完，会等你。就这一点，体验差距就非常大。

第二，抗干扰能力明显变强。 旁边有人说话、有音乐、有环境噪音，它不会被误触发，也不会把别人的话当成你的指令。

第三，延迟降低了。 在需要快速接话的场景（比如玩成语接龙），它的反应速度明显快了。

听起来都是技术参数。但你真正用起来的时候，感受是很直接的：和豆包打电话，第一次开始像在打电话了。

我决定拿一整天来测一下，到底有多「像」。

带着豆包去逛AIFUT

4月8号，卡兹克办的AIFUT大会在北京亦庄开幕，就是之前Faker和TheShy打表演赛的那个电竞馆。34个AI展位，主论坛1000张票秒光，展区免费开放，从早8点到晚9点。

我决定做一个实验：这一整天的出行，在不同环境里和豆包打电话，看看全双工在真实场景下到底表现怎么样。

不过在出发之前，我做了一件事：先在对话里把AIFUT的活动信息喂给了豆包。 展会时间、地点、签到规则、展位分布，全部告诉它。这一步后来证明非常关键。

场景一：网约车上

坐上车，我拨通了豆包的语音通话。

「我一会要去参加那个AIFUT的展会，我有什么需要注意的吗？」

因为之前已经喂过信息，豆包马上就给了很具体的建议：提前在小程序完成签到能领5个FUT币、今天气温10到20度建议带件外套、场馆里不能吃螺蛳粉臭豆腐这些重味食物。

挺顺的。然后我追问：「哎我有什么东西是必须带着才行的吗？入场有啥要求不？」

它说身份证原件必带，签到领FUT币和主论坛入场都需要。

我一下慌了：「我靠我好像忘带身份证了，这怎么办？」

我当时是真慌了。但它倒是比我淡定，分情况回答：如果只是逛免费展区不用身份证直接进场就行，如果买了主论坛门票可以试试微信或支付宝的电子身份证，在卡包或证件夹里能找到，现场工作人员一般会认可。

坐在旁边的司机师傅看了我一眼，大概在想这人为什么对着手机自言自语还急得不行。

这段对话最让我意外的不是它回答得对不对，而是聊天的感觉。 因为提前喂了上下文，整个对话省去了大量解释背景的时间。我不需要说「AIFUT是一个AI展会，在北京亦庄，有34个展位」——它都知道。这让语音对话的效率提高了一个量级。

还有几个细节让我觉得这个对话确实不一样。

它在回答签到规则的时候，我突然想起来一个事，直接插了一句「等等」。它几乎是瞬间就停了，没有像以前那样把剩下的话说完才停。等我说完补充的问题，它接着往下讲，衔接得很自然。

另一个细节是节奏。我问「忘带身份证怎么办」的时候，其实后面犹豫了一下才补了一句「这怎么办」。中间大概停了两三秒。如果是之前的AI语音，这两三秒的空白它大概率就开始回答了，因为它以为你说完了。但豆包没有，它等到我真正说完了才接话。该等的时候等，该接的时候秒接。 这个节奏感确实挺像在和人聊天。

网约车里有一点路噪和导航播报声，完全没影响到对话。

场景二：主论坛辩论赛进行中

下午三点多，主论坛正在进行一场辩论赛，题目是「教别人用AI是可以教会的吗」。台上AJ、卡尔的AI沃茨、葬AI、Max For AI几个AI博主吵得不可开交，赛博禅心主持，骆轶航当评委。电竞馆的音响系统本来就是给英雄联盟比赛设计的，台上的声音在整个场馆里回荡，跟看世界赛团战差不多。

我就坐在观众席上。

这时候我掏出手机拨通了豆包。但我不太好意思大声说话——周围都是在听辩论的观众。所以我压低声音，问了一个很日常的问题：「我们现在打车回国贸的话，大概需要多久？」

这个问题其实不简单。首先，台上辩论声远比我的声音大。 这不是「有点背景噪音」的程度，而是台上好几个人在激烈对话、音响全开的那种环境，我的声音在里面几乎可以忽略不计。其次，要回答这个问题，豆包不仅要听清我说了什么，还需要知道我现在在哪（亦庄的电竞馆），再结合当前时间点来预估路程。

但它回答了，而且接话速度很快。我说完最后一个字，大概不到一秒它就开始回复了。不仅听懂了我的问题，还给出了从亦庄到国贸的打车时间预估。整个过程中，它没有一次被台上几个人的辩论声打断，也没有把辩手的话混进我的问题里。

你想想这个场景：一个几百人的电竞馆，台上四五个人在激烈辩论，音响全开，而你在观众席上小声问了一句「打车回国贸要多久」，AI居然能只听到你，还给出了靠谱的回答。

半年前的AI语音助手在这个环境里，大概率两种结果：要么直接听不清你在说什么，要么把台上辩手的话当成你的指令来回复。

但这次豆包在电竞馆里的表现，确实让我对全双工有了更直观的理解。它真正做到了在一堆人声里只听你一个人的声音。 这个能力听起来简单，但你亲身体验过在那种噪音里它还能准确回答你，感受是完全不同的。

一个让语音对话好用10倍的小技巧

测完这两个场景，我还发现一个挺实际的事：语音对话好不好用，不只取决于模型，还取决于你怎么用它。

之前我试过直接冷启动和豆包打电话，聊几句就觉得没什么意思。感觉像跟一个什么都不知道的陌生人尬聊，你说什么它都得从头理解，对话很浅。

但这次我在出发前花了两分钟，把AIFUT的活动信息喂给了它。结果整个出行过程中的对话质量完全不同：我说「展会」它知道我说的是哪个展会，我问「签到」它知道FUT币的规则，我说「忘带身份证」它能给出针对这个展会的具体建议。

这个发现其实很实际：如果你要在某个场景下持续用语音对话，先花1-2分钟把背景信息喂给它。 出差前告诉它你的行程、会议前告诉它议题、出门前告诉它今天的安排。有了上下文的语音对话和没有上下文的，完全是两种体验。

全双工解决的是「对话像不像打电话」的问题，但上下文解决的是「对话有没有用」的问题。两个加在一起，才是语音对话真正好用的状态。

和ChatGPT语音比起来怎么样

说到AI语音对话，绕不开ChatGPT的Advanced Voice Mode。

ChatGPT的语音模式也是端到端模型，也支持打断和情感表达，不少评测都说它是目前「最像真人的AI语音」。

但在国内用的话，豆包确实有几个实际的优势：

中文能力。 这不是客气话。AI语音对话对语言的要求远高于文字聊天——你要处理口音、方言、语气词、说话习惯。豆包能听懂18种方言，能用粤语、东北话、四川话输出。ChatGPT做英文没问题，做中文还是差一截。

在果壳的一次测评中，有一个很有意思的数据：让测试者判断「这是不是AI在说话」，ChatGPT有30%的对话被认为「一听就是AI」，豆包这个比例不到2%。

免费。 ChatGPT的Advanced Voice Mode需要Plus订阅，$20/月，而且有每日使用限制。豆包的语音通话功能是免费的。

可用性。 这个不展开说了，你懂的。能直接用和需要折腾才能用，这本身就是一道筛选。

不过公平地说，ChatGPT的语音在英文场景下的表现确实非常好，情感表达和幽默感都很自然。两个产品各有擅长的领域。

我的判断

回到开头的问题：2亿多人和AI打电话，他们在聊什么？

我觉得答案可能不在于「聊什么」。更有意思的问题是「什么时候聊」。

人和AI的交互，文字聊天覆盖的是你坐在电脑前、拿着手机、眼睛盯着屏幕的时间。但你回忆一下自己的一天：通勤、走路、排队、等人、发呆——这些时间加起来可能有好几个小时，过去AI根本触达不到。

语音通话打开的就是这块时间。

而全双工解决的是一个更底层的问题：让这种交互不再别扭。 之前的AI语音像是在用对讲机，按一下说一句，松开等回复。全双工之后，才真正像打电话。

在AIFUT逛了一整天，我印象最深的倒不是哪个展台的产品有多厉害。而是在网约车上和豆包聊展会攻略，我停顿了两三秒它耐心等着没插嘴；在电竞馆辩论赛最激烈的时候我小声问了句打车要多久，它一秒接话还答对了。

这些不是什么「黑科技」，这就是一个正常打电话应该有的体验。只不过电话那头不是人，是AI。

老罗2018年说语音交互是未来。他说对了。只不过这个未来的样子，是2亿多人拿起手机，和一个叫豆包的AI打了个电话。

2亿多人开始和AI打电话，他们在聊什么？

热搜

热门跟贴

热搜

热门跟贴

相关推荐

奥特曼说AI将"便宜到不用计费"，但1.2万亿美元的算力账单正在

AI时代，英语为何更加重要？

这不是一个关于AI的故事，这是一个关于你的故事

AI会取代我们吗？

AI算力对比：中国曾领先美国，但如今美国68.9%，中国14.5%

AI 强到这一步了？发布上线，但不敢让普通人用

AI大范围使用会面临哪些问题？

AI开始改变法律行业的运营方式

AI安慰了1000次后，用户把对话框删了

AI正在批量制造伪专家，这些关键信号要警惕

AI无处不在，请大家擦亮眼睛，也希望平台监管严格！

00后，在AI杀疯了！

帅化民：AI没有电，就是巧妇难做无米之炊！中国得天独厚！

她飞了2000公里去讲AI，门口被问"你是服务员吗"

瑞幸请罗永浩代言，自讨苦吃

张雪机车燃爆封神！国产2B语音模型重磅开源，全网听完都起鸡皮疙瘩

关店104家，亏损5个亿，贾国龙的生意难在了什么地方？

老罗一句“用红米等于混的不行”，扎了多少人的心？

我用Meta“华人天团”打造的新模型，一张图复刻了一个“豆包App”

只靠“聊个天”就圈粉上亿人，播客为什么这么火？