2026 年,你理想中的 AI 助手是什么样的?

回想过去,Siri 的出现曾让人眼前一亮。语音唤醒、简单问答、调用软件执行基本操作……这些能力在当时已经足够惊艳。

但近两年,随着大模型能力的飞速发展,我们对 AI 助手也有了更高的期待:它不应该只是一个“你说一句、它答一句”的对话机器,而应该更接近真人交流的状态——能够自由流畅主动对话、可以随时被打断、在合适的时机主动提醒,甚至做到边听、边看、边思考、边回答。

然而现实是,即便是当前最先进的模型,在“说话”时依然会“闭上眼睛、捂住耳朵”。你可以向它提问,但它只能被动回应,无法主动察觉环境变化并及时介入。这与我们心中那个类人的 AI 助手,仍有不小的距离。

要想达到与人更相似的交互效果,模型首先需要具备持续听和看的能力。但这带来了一个两难困境:持续处理音视频流需要巨大的算力,云端部署虽能提供充沛算力,却不可避免地引入延迟问题;更关键的是,当 AI 助手需要时刻感知你的环境时,无法回避将音视频实时上传云端带来的隐私风险。

在这些背景下,端侧 AI 是一条理想的解决路径。本地运算既能保障响应速度,又能从根本上规避数据外泄的风险,这在机器人、自动驾驶等需要实时决策的场景的可控性来说尤为重要。然而,如何在算力有限的端侧设备上跑出足够强的智能,始终是行业共同面临的难题。

面壁智能是该领域的探索者之一。作为一家将“高效”作为第一性原理的大模型公司,它专注于提升智能密度,即用更小的参数实现更强的性能。其 MiniCPM 系列模型以“以小博大”著称,全平台下载量已突破 1,800 万,早在 2024 年就已将 GPT-4o、GPT-4V 级别的核心能力成功部署到手机、汽车等端侧设备上。

图丨刘知远(左)和姚远(右)(来源:受访人)
打开网易新闻 查看精彩图片
图丨刘知远(左)和姚远(右)(来源:受访人)

今天,面壁智能发布的 MiniCPM-o 4.5,是他们在端侧全模态交互方向上的最新答卷。DeepTech 独家专访了清华大学计算机系长聘教授、面壁智能联合创始人兼首席科学家刘知远与清华大学人工智能学院助理教授、面壁智能多模态首席科学家姚远,深入探讨了新模型的技术突破、背后的技术理念,以及他们对下一代智能交互的展望。

9B 参数,如何实现“听说同步”?

MiniCPM-o 4.5 是面壁智能继去年发布的 MiniCPM-o 2.6 之后推出的重要升级。面壁团队此次首创了原生全双工技术,采用端到端的全模态架构,结合全双工多模态实时流机制、主动交互机制、可配置语音建模设计,让参数规模仅为 9B 的 MiniCPM-o 4.5 在交互体验上实现了大幅提升。

(来源:面壁智能)
打开网易新闻 查看精彩图片
(来源:面壁智能)

所谓“全双工”,通俗来说就是模型可以同时看、听和说,对话不需要像传统模型那样轮流进行。而“全模态”,则是指模型能够同时处理视频、音频、文本等多种信息输入,并以文本和语音形式输出回应。两者结合,意味着 MiniCPM-o 4.5 能够在“说话”的同时继续观察和倾听环境变化,并根据新的信息实时调整回应策略。

这和人类的真实对话更加相似。我们可以从生活中的场景中来理解这种能力:就像推销员对顾客讲解商品时,并不会滔滔不绝地讲话,而是一边说话一边观察对方的反应,并能够根据实际情况实时插话、调整或互动。

相比之下,传统多模态大模型只能处理离线静态数据,且在全模态方面往往只能处理文本+单一模态(例如视觉/语音)。更关键的是,当模型开始生成回复时,它必须先完成整个回应过程,才能重新接收外部信息。用面壁智能技术团队的话来说,就像人在说话时捂住眼睛和耳朵,是一种“对讲机”式的对话。

这种设计在实际使用中会造成诸多不便。比如,当你让 AI 描述眼前的画面,而画面内容突然发生变化时,它无法感知这种变化,只能基于几秒钟前的旧信息继续幻觉般的描述,甚至可能“胡说八道”。

再比如,在智能驾驶场景中,如果 AI 正在播报导航信息,却无法同时感知路况变化,可能错过重要的安全提醒时机。

MiniCPM-o 4.5 通过全双工技术架构,为这个问题提供了一种新的解决方案。该模型将并行处理的视频流和音频流切成极小的切片,采用脉冲式信息处理方式。

具体来说,模型不再是一口气吞下整个视频或音频文件,而是将多模态信息实时交替地输入到语言模型主干中,在信息建模方面实现毫秒级时间线上同步所有输入和输出流。

它更像是在探索一种伴随态 AI,而不只是聊天机器人。伴随态的优势是,不持续提问也会收到持续反馈以及行为随环境变化而调整,让模型可以做到即时自由的对话,而非只是一问一答的机械交互。

例如,现在只需一句指令,就能让模型对白板画画进行实时描述。

这种持续感知和主动提醒的能力有望在一些场景中,为用户带来全新体验,例如在车机/移动场景,帮助司机减少频繁左顾右盼寻找停车位或店铺。

此前,面壁智能的 MiniCPM-V 系列曾展示这样一个案例:在车载记录仪上,告诉用户刚才路过了几家怎么样的店铺,但它还是一种概念的验证,更像是一种“事后总结”;而本次发布的模型 MiniCPM-o 4.5 则实现了对当下状态即时提醒和实用价值。

在车机智能座舱场景,你只要告诉模型“帮我找停车位”或“看到咖啡店告诉我”,模型可根据实际情况即时反馈和提醒,这样司机可减少左顾右盼找停车位或店铺的精力,进而更专注地开车。

值得注意的是,市面上已有一些模型具备类似的实时对话或可打断的能力,但它们中的大多数需要依靠 VAD(语音活动检测,Voice Activity Detection)等外部工具来实现。

VAD 的作用是检测环境中是否有人在说话,一旦检测到语音信号,系统就会强行中断模型的输出,然后重新开始一轮“听→处理→说”的流程。

姚远对 DeepTech 解释道:“当前通行的模型被打断停下来的机制,可以理解为并不是它‘感知’到的,其实是 VAD 听到后告诉它‘你别说了’。”

换句话说,VAD 只能检测到有声音,但无法理解声音的内容和意图。比如你正在和 AI 对话,旁边有人咳嗽一声,或者电视里传来人声,系统就可能误判为用户在说话,导致 AI 莫名其妙地停下来;又比如,你只是“嗯”了一声表示自己在听,系统也可能把这当成打断信号。

而且 VAD 的判断存在滞后,它无法从语义上判断用户是否真正说完了,只能机械地依赖声音信号:在检测到人声停止后,还需等待一段时间确认没有后续语音,才会判定说话结束。这种“硬等”的机制导致系统响应总是慢半拍,造成不流畅的用户体验。

与之不同,MiniCPM-o 4.5 的感知和判断能力是模型内生的。在持续接收视觉和听觉信息的同时,模型会同步不断进行语义理解与“用户是否正在说话”“自己是否需要说话”的高频判断。

因此,它在保持感知的同时,可以根据环境瞬时的变化实时反应,以最合适的时机、最恰当的内容回复,让大模型对于信息的感知与传递不会慢半拍。

这个特性可进一步应用在具身智能领域,为机器人提供持续感知的大脑底座。

目前,具身智能机器人在控制方面已展现出良好的能力,领域内的共识是:多模态大模型是具身智能的核心认知底座之一,有望为后者提供对多模态世界的基本理解、知识、规划能力。在未来,机器人可能可以对微波炉“叮”的声音、敲门、水龙头漏水等事件具有持续的感知力,并在更多场景中提供及时响应与主动服务。

当然,这些展示的案例只是展示模型的能力,后续还需要产品方面更深入的打磨和调优,以保障用户在使用模型过程中的高度可控。

刘知远对 DeepTech 解释道:“就像《星际穿越》里的机器人塔斯,它能主动说话、讲笑话,但当主角觉得幽默不合时宜,一句‘调低幽默值’,它就会立刻收敛。”未来,MiniCPM-o 4.5 或许也能具备类似的可控性。

除了对话响应能力大幅提升外,在基础能力方面,MiniCPM-o 4.5 延续了前代产品的亮眼表现,在流式全模态能力、视觉能力和语音能力方面保持同尺寸领先水平。

(来源:资料图)
打开网易新闻 查看精彩图片
(来源:资料图)

语音交互是本次升级的重点之一。通过深度挖掘海量互联网对话数据、专业级语音录制资源,以及端到端模型结构的优化,MiniCPM-o 4.5 在音色自然度、语调丰富性、语音稳定性等方面显著提升。

尤为突出的是,它有效解决了长语音合成中常见的错字率高、效果不稳定等问题——即使生成大于 1 分钟的长语音,依然保持较好的稳定性、一致性与流畅感。更值得一提的是,该模型支持推理阶段的声音克隆:仅通过系统提示词和几秒钟的语音样本,即可模拟特定人物的语音风格与表达习惯。

让智能真正跑起来的,不只是算法

有了模型还不够,为了打通到应用落地的“最后一公里”,面壁智能本次还透露了将在年中发布的基于 NVIDIA Jetson 系列模组的“松果派”(Pinea Pi)开发板套件。

其产品定位是 Agent 原生的端侧多模态开发板,目的是让开发者用简单方式快速开发端侧智能硬件,将端侧智能设备的定义权交到用户和开发者手中。

(来源:资料图)
打开网易新闻 查看精彩图片
(来源:资料图)

目前,开发者想要完成 AI 智能硬件开发,需要面对英伟达等芯片公司提供的 C++、CUDA 和 TensorRT 等复杂技术栈,开发门槛较高。而市面上的开发板大多是芯片公司提供的裸板,外设需要开发者自行购买、适配驱动、手动搭建多模态 Pipeline。

松果派则希望改变这一现状。它被设计为“开箱即用”的完整解决方案,预装了完整的多模态 AI 开发环境,包含摄像头、麦克风等必要外设,以及经过优化的驱动程序和中间件。

从商业模式角度看,松果派采用了类似早期香橙派、树莓派的策略。通过标准化、开放的硬件形态教育市场,吸引开发者加入生态。

除了硬件,面壁智能还将配套推出了高效推理框架和演示系统。未来两者都将开源,为开发者提供完整的开发工具链。

始于非共识的创新:他们没有继续押注更大的云端模型,而是端侧

在刘知远看来,端侧 AI 并不是短期押注某个产品的形态,而是过去数十年信息革命向智能革命演进过程中,必然会出现的一层结构。“这并不是因为它更容易做,”他说,“而是真正能承载智能革命的大规模落地,一定发生在距离用户最近的地方。”

刘知远指出:就像 PC 发展早期一样,当计算能力足够强大时,计算会从大型机向个人设备转移。AI 的发展也将遵循同样的规律。

因此,他提出“未来计算三分天下”的观点:超算用于科研探索,云计算支撑通用服务,而端侧计算(端算)将成为体量最大、最贴近人类日常的智能形态。

届时,“超智-云智-端智”可能呈现金字塔式的分布结构。从规模 × 频率 × 场景密度进行判断,刘知远认为,端侧的核心价值不是算力,而是贴近现实:尽管单个端侧设备的智能不一定最强,但从体量分配来看,端侧智能承载的是整个人类社会的日常运转,因而必然会超过超智和云智。

2022 年底,OpenAI 正式发布 ChatGPT,大模型由此进入爆发期。随后,领域内开始争相复现大模型的能力:堆参数、租算力成为扎堆的方向。

而在此之前,刘知远已做出了另一种选择。早在 2018 年,他已明显察觉到 AI 向“通用”的关键转折点迈进,开始从专用系统迈向通用和强大的系统。他对大模型发展模式的判断是:与集成电路、计算机、搜索引擎等技术历史上的变革类似,一旦技术成熟,创新的主体一定不再只是高校,而是系统性研发——通过科技公司的推动缩短从前沿探索到产业应用的链条。

2020 年底,大模型还未火爆,刘知远当时正与唐杰(现清华大学教授)、黄民烈(现清华大学教授)、文继荣(现中国人民大学高瓴人工智能学院院长)等在智源开发“悟道”大模型。直到 2021 年 3 月发布完悟道 1.0 之后,刘知远萌生创业的想法,并于 2022 年 8 月联合创立面壁智能。

“当时最直接的动力,是看到大模型展现出的通用能力:one for all(一个模型覆盖多任务),远远超出我们当年在各自细分方向上的经验。那时候,我们在学术方向还在研究自然语言处理里的具体任务,比如机器翻译、关系抽取、脑图估计等等。”刘知远回忆道。

与后来行业普遍选择押注更大的云端模型不同,面壁智能从一开始就将重心放在端侧 AI 上。这在当时,是一条明显的“非共识”路径。

而这种路径在刘知远看来是正是驱动创新的源泉:99% 的人都认为正确的方向,往往已经没有太大的空间。他认为,有人做了 A,不是再 copy 做 A+。“最底层、最可贵的地方在于,应与之协同构建出共生共荣的生态,这种非共识的创新性正是中国创业公司稀缺之处。”

无论从投资还是产业发展角度,继续在同一条路径上扎堆、跟风并不是一个明智的做法:是一条必然内卷的路线,当下的时代应该多开拓和创新。

从 2000 年前后的互联网发展的历史浪潮中,也可以印证这一点:当时百度、搜狐等企业“百花齐放”,20 多年后的今天,放眼全球社会各方面都已浸透互联网的身影,并催生了各种衍生产业。

2010 年,中国的创业风向已经由过去的“Copy to China”转变到创新商业模式,逐渐发展出淘宝、美团、滴滴等一系列企业。

到 2020 年之后,伴随着大模型与 AI 的这一波浪潮,可以看到的是:包括 AI for Science 在内的模式创新,正成为驱动整个产业变革、形成新生产力的核心力量。“我们正在做的事情只不过是顺应了技术的发展浪潮、顺应了时代的发展。”刘知远表示。

产学研协同的落地逻辑:从技术迭代到 AGI 的长期探索

当然,产业化这条路与学术界“少量跑通即可闭环”有本质的不同。姚远指出,学术界强调从最前沿探索遥远的可能性,而产业化必须抗住海量数据的检验。因此,如何找到学术界的前沿方向与工程可落地的交集,极其考验工程直觉。

假如一条主线模型是通向 AGI 必须持续推动的核心,他们会从各篇论文里“采蜜”式地挑精华,一旦技术本身不够简洁、没有直击本质,反而堆了很多臃肿设计,它就会妨碍这条主线长期迭代。

这一代从面壁模型迭代中也可以看到:从 MiniCPM-1 到 MiniCPM-o 系列,每一代都会引入新的教师模型。团队不仅让模型的基础能力保持优异,更在不断拓展其能力边界。沿途积累的所有关键技术技巧与优化策略,都被持续集成并兼容到最新的代码库中。姚远表示:“目前的 o 4.5 版本已全面兼容之前所有版本的技术,这说明它们彼此之间具备高度的可叠加性。”

刘知远指出,如果将 AGI 看成是一张拼图,最关键的一块未必是高等数学,也未必是专业能力,而是具备很强的人类智商水平。因此从这个角度来看,全模态的全双工是可能很慢但值得努力的方向,也是通往未来 AGI 的关键拼图之一。“既然大家都还没做出来,那么让端侧、全双工在真实系统里跑起来就是我们的机会。”

他认为,从整个人类的未来长远发展来看,AI 扮演的角色是:替代人类花费大量机械、重复的脑力劳动去完成的事情,而人类则花更多精力去做顶层规划、做创新、去思考更有意思的事情。“Agent 在中文里有一个传神的名称叫代理,AI 更重要使命是陪伴人类完成自身共同进步的工作,这也是对促进新质生产力发展来说长远和重要的标志。”

他们并不担心 AI 走得太快,而是认为过去 100 多年,人类整体的科学与创新其实在减速,就好像是《三体》中智子将科技锁死了。

“我们已经很久没有建立关于世界、宇宙的‘新坐标’了,尽管人类在很多方面已竭尽全力,但很难进到知识的边界再去拓展版图,它的科学基础仍然是一两百年前的东西。”刘知远指出,这背后的逻辑是:人类已无法成为全人类知识的主人,未来唯有依靠 AI,让我们重新执掌全人类的知识,进而实现对世界的全面认知。

结语

全模态的意义不止是交互,很可能是模型增长的新路径。未来,它可能会以伴随态出现在我们生活的方方面面:盲人辅助、智能车机、帮助记录上课/会议并自动整理、语音提问即时答疑……

新方向让我们看到了更多的可能性:大模型正在从问答模式向持续参与现实世界转变。但需要看到的是,技术目前仍处于早期探索阶段,我们并不是要将生活的全部全都交给它,而是通过风险把控和配套人工辅助核验等机制,共同解锁 AI 的能力边界。

当 AI 具备类人的感知交互,人与智能的边界正在被重新定义。

运营/排版:何晨龙