作者 | 王启隆

出品丨AI 科技大本营(ID:rgznai100)

2026 年初的科技圈发生了一个很有意思的现象:二手市场上的 Mac Mini 突然成了理财产品,价格一路飙升。

名为 OpenClaw(以及其前身 Moltbot)的开源项目在 GitHub 上爆火,一夜之间,全球的开发者和极客们似乎达成了一种共识:我们不再满足于在网页框里和 ChatGPT 聊天,我们需要一个 Agent(智能体),一个能接管我的鼠标键盘、能帮我整理本地文件、能像私人管家一样处理繁杂事务的“数字分身”。

但这股狂热背后,很快就暴露出了一个巨大的逻辑黑洞。

当你兴奋地在本地部署好 OpenClaw,看着它接管你的电脑时,你很快会发现——这个所谓的“本地管家”,本质上是一个把你的隐私数据打包发送给云端 API 的搬运工。每一次屏幕截图的分析,每一次语音指令的理解,都要跨越几千公里的光缆,传到某个不知名的数据中心,计算完再传回来。

延迟、隐私泄露、断网即智障。这三个幽灵,让所谓的“个人智能”变成了一个随时可能断线的风筝。

也是在这个时间节点,我走进了五道口科建大厦。比起外面对于 Agent 概念的狂热追捧,这里正在进行的一场发布显得有些“反潮流”。DeepSeek、Qwen、GLM 皆有消息要在近期发布大参数模型,而面壁智能则是一如既往地掏出了一个仅有 9B(90亿参数)的小模型 MiniCPM-o 4.5,以及一块看起来朴实无华的硬件开发板 松果派(Pinea Pi)

他们试图回答的问题,正是当今热潮下最被忽视的那个痛点:如果 AI 真的要接管我们的生活,它能不能把“脑子”长在它自己的“身体”里?

这场对话,无关乎谁的模型跑分更高,而关乎 AI 进化的下一个分支——从“云端的神谕”变成“指尖的直觉”。

打开网易新闻 查看精彩图片

告别“对讲机”:当 AI 终于学会了“被插嘴”

在很长一段时间里,人与 AI 的语音交互——无论是 Siri 还是早期的 GPT-4o 语音模式——都被困在一个名为“回合制”的牢笼里。

这种体验就像是使用老式的军用对讲机:你说完一句话,必须停顿,等待 VAD(语音活动检测)算法判定你“闭嘴”了,它才切断麦克风,把声音发给云端。云端处理完,再把回复发回来。

AI 在“说话”的时候,它的耳朵是聋的。

面壁智能的演示现场,清华大学人工智能学院助理教授、面壁智能多模态首席科学家姚远向我们展示了什么叫“全双工”(Full-duplex)。这不仅仅是一个通信术语,它是让 AI 从“机器”变成“人”的关键一跃。

演示的场景非常生活化:一个人在白板上随意涂鸦,一边画一边跟 AI 闲聊。

画笔刚刚落下几根起伏的波浪线,MiniCPM-o 4.5 的声音就响起了:“看这线条的走势,你是打算画一片大海吗?”

画画的人并没有停笔,也没有按任何暂停键,只是随口回了一句:“没,你再看看。”

在传统的交互逻辑里,这句话大概率会被 AI 忽略,或者因为 AI 正在说话而造成识别冲突。但在这里,AI 几乎是毫秒级地改了口:“哦!看见那两个圆圆的眼睛了,原来是个卡通小人啊,这表情看着挺乐呵。”

这个过程没有那个“看门人”。MiniCPM-o 4.5 实现了真正的“感知不中断”——它的“眼睛”和“耳朵”是常开的。即使它自己正在说话,它也能同时听到你的插话,或者看到画面的变化,并实时决定是闭嘴倾听,还是调整话术。

官方将这种能力总结为“边看、边听、主动说”。

这背后的技术难度极高。模型需要在一个统一的时间轴上,同时处理输入的视频流、音频流和输出的语音流、文本流。面壁智能通过“时分复用”机制,将并行的全模态流划分为微小的时间片,让 9B 的小模型也能像杂技演员一样,同时抛接好几个球。

打开网易新闻 查看精彩图片

这带来的改变是颠覆性的。AI 不再是一个需要你按键触发的工具,它变成了一个始终在线的观察者。

它每秒钟都在以 1Hz 的频率进行决策:现在的环境变化重要吗?值得我打断主人吗?

这种混乱、实时、多并发的交流,才是真实世界的本来面目。如果不打破“回合制”的枷锁,AI 永远只能是像《钢铁侠》里早期的机械臂,而不是那个随时能吐槽、随时能帮忙的贾维斯。

GitHub:https://github.com/OpenBMB/MiniCPM-o

Hugging Face: https://huggingface.co/openbmb/MiniCPM-o-4_5

ModelScope: https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

打开网易新闻 查看精彩图片

9B 的反击:用“密度法则”对抗“暴力美学”

这次发布的另一个争议点在于参数量。在各家大厂都在卷千亿甚至万亿参数的当下,面壁为什么死磕 9B 这个小尺寸?

在与清华大学计算机系长聘教授、面壁智能首席科学家刘知远教授的交流中,他详细解释了一遍面壁智能看家的核心理论:Densing Law(密度法则)

打开网易新闻 查看精彩图片

刘教授现场画了个图,讲解两个 Law 之间的关系

过去几年,行业里信奉的是 Scaling Law(尺度法则),简单说就是大力出奇迹,模型越大越聪明。这就像早期的计算机,为了更强的算力,把机器造得像房子一样大。

“Scaling Law 并没有失效,但我们不能只看这一条路。” 刘知远认为,AI 的发展正在进入“摩尔定律”时刻。芯片的性能提升不是靠把芯片做成足球场那么大,而是靠更先进的光刻机,在指甲盖大小的地方塞进更多的晶体管。

同理,AI 的未来不在于把模型做得无限大,而在于提高“知识密度”

“我们要做大模型界的光刻机。”这是面壁智能内部的一个核心信条。按照他们的测算,大模型的知识密度现在大约每 100 天就能翻一倍。这意味着,今天 9B 模型能做到的事情——全模态理解、高刷视觉识别、端到端语音对话——可能相当于一年前 70B 甚至更大模型的能力。

打开网易新闻 查看精彩图片

仅靠 9B 参数,在全模态、视觉理解、文档解析、语音理解和生成、声音克隆等方方面面,均做到了全模态模型 SOTA 水准

MiniCPM-o 4.5 就是这个理论的最新产物。它把视觉理解、文档解析、语音理解和生成、声音克隆等能力 All in One,塞进了一个 9B 的躯壳里。

这个判断极其关键。因为只有模型足够小,它才能跑在你的手机上,跑在你的车机里,跑在机器人那颗并不算强大的芯片上。

李大海在采访中也直言:“纯云端的方案,没法解决隐私和延迟。”

回到开头 OpenClaw 的例子。为什么大家那么渴望本地运行?因为谁也不想把自己的银行账单、私人邮件传到云端。而对于未来的机器人、智能眼镜来说,如果每做一个动作都要把视频传到云端分析,那个高昂的推理成本和带宽成本,足以让任何一家商业公司破产。

面壁在赌一个未来:最极致的智能,一定是在端侧的。 它不需要无所不知(那些百科全书式的知识可以偶尔问问云端),但它必须反应极快、极其懂你、并且绝对安全。

打开网易新闻 查看精彩图片

松果派:一家模型公司的“越界”阳谋

如果说 MiniCPM-o 4.5 是面壁打造的“灵魂”,即将在今年年中发布的“松果派”(Pinea Pi)就是他们试图定义的“躯体”。

这在行业里其实是个挺“非主流”的动作。一家做算法模型的软件公司,突然发了个硬件开发板。通常我们认为,软件公司做硬件,要么是想通过卖硬件赚钱(像苹果),要么是软件卖不动了想换个赛道。

那么,这究竟是一款什么样的硬件?

打开网易新闻 查看精彩图片

从拆解结构来看,松果派与其说是一块像树莓派那样的“裸板”,不如说是一个高度集成的“AI 智能体原生套件”。

它的核心是一颗算力澎湃的 Orin AGX 64G 模组,这为端侧运行 9B 这样参数规模的模型提供了物理保障。但不同于传统开发板需要你自己去买摄像头、配麦克风、还要被各种驱动兼容性折磨,松果派直接在机身顶端集成了高清摄像头和环形麦克风阵列,并配备了主动散热风扇以及 HDMI、Type-C、USB-A 和千兆网口等丰富接口。

换句话说,这是一个“开箱即用的物理大脑”。通电的一瞬间,住在里面的 MiniCPM-o 4.5 就拥有了眼睛和耳朵,能听能看。对于开发者来说,这意味着你不需要懂复杂的硬件电路,只需要把它像乐高积木一样塞进机器狗、服务机器人或者智能座舱里,你的设备就立刻拥有了理解世界的能力。

面壁 COO 雷升涛在现场讲了一个真实的故事。他们之前给一家车企做“遗留物提醒”功能——就是当你下车时,如果手机忘在车里了,车机要提醒你。

一开始,他们把模型部署上去,延迟高达 4 秒。

你想想这个场景:你关上车门,走了两步,甚至都进电梯了,车机才慢悠悠地喊一声“手机忘拿了”。这功能有啥用?

这 4 秒里,模型推理其实只占了一小部分时间。大量的时间被浪费在了摄像头数据的采集、编码、传输、解码,以及芯片内存的搬运上。因为现有的硬件架构,压根就不是为这种“流式全模态”模型设计的。芯片厂商设计芯片时,想的是怎么解码高清电影,怎么跑王者荣耀,而不是怎么让一个大模型同时处理视频流和音频流。

为了解决这个问题,他们不得不深入到底层,跟芯片厂商一起改驱动、改架构,把延迟硬生生从 4 秒压到了 1 秒以内。

这让他们意识到一个问题:如果没有一个好的“身体”,再聪明的“大脑”也发挥不出来。

松果派的存在,就是为了“打个样”

它不是为了跟树莓派抢极客市场,而是为了给整个行业——给开发者,也给芯片厂商——定义一种标准:什么样的硬件才叫 Model-Native(模型原生)?

在这个板子上,MiniCPM-o 4.5 可以跑得飞快,视频流的处理路径是最短的,内存的占用是极致优化的。他们希望通过这个板子,告诉所有的硬件厂商:“看,路要这么修,车才能跑得快。”

这一招其实是“阳谋”。面壁通过开源模型和参考硬件,正在构建一个庞大的端侧生态。我们可以看到,MiniCPM-o 4.5 已经基于统一系统软件栈众智 FlagOS,在天数智芯、华为昇腾、平头哥、海光、沐曦等 6 款国产主流芯片上获得了端到端推理性能的提升。

打开网易新闻 查看精彩图片

具身智能的“最后一公里”:1Hz vs 10Hz

如果现在把一群 AI 圈的人放在一个房间里聊天,话题经常会自然延伸到那个终极科幻场景——机器人。

现在的机器人行业,其实挺尴尬的。做本体的厂商(波士顿动力那些)把运动控制做得炉火纯青,机器人能空翻、能跳舞。但如果你让它“去厨房把那个红色的杯子拿来”,它可能就傻了。

因为它有发达的小脑(运动控制),却缺一个聪明的大脑(理解与决策)。

李大海在采访中提出了一个非常精准的“频率分层理论”,即“1Hz vs 10Hz”

“机器人的运动控制,比如保持平衡、抓取物体,属于 10Hz 甚至更高频的直觉反应。”李大海解释道,“这部分也就是我们常说的‘小脑’,目前行业解决得已经不错了。但真正的瓶颈在于 1Hz 的智能。”

什么是 1Hz 的智能?

它是深度思考,是规划,是对环境的复杂理解。当你告诉机器人“我渴了”,它需要理解这句话背后的意图(找水),环顾四周确认杯子的位置(感知),规划一条避开障碍物的路线(规划)。

“现在的机器人,往往是 10Hz 很强,1Hz 很弱。”姚远补充道。这就导致了一个尴尬的现状:机器人能精准地把杯子拿起来,但它不知道该去拿哪个杯子,或者在听到门铃响时不知道该先去开门还是继续倒水。

MiniCPM-o 4.5 的出现,本质上就是试图成为那个通用的 1Hz 大脑

它不仅仅是一个聊天软件,它更像是一个通用的“感知中枢”。当把它装进机器人里,机器人就不再是一个瞎子和聋子。它可以一边走(小脑控制),一边看路边的障碍物,一边听主人的指令,一边思考该怎么规划路线(大脑控制)。

而且,因为它是端侧模型,这一切都不需要依赖不稳定的 Wi-Fi 网络。即使在没有信号的地下室,或者在火星上,这个机器人依然是有智慧的。

这种“端侧大脑 + 本地小脑”的架构,或许才是具身智能走出实验室、进入家庭的唯一解。

那么,当大厂也开始下场做手机助手、做端侧模型时,创业公司的护城河究竟有多深?

李大海在现场的回答显示出一种难得的清醒:“我们不打阵地战。”

他把 AI 市场分为了两类:

  • 一类是 通用搜索与问答,这是巨头的必争之地。无论是 ChatGPT 还是豆包,本质上都是在抢占下一个时代的搜索入口。这是一个赢家通吃的统一市场,创业公司进去大概率是炮灰。

  • 另一类是端侧智能,这是一个高度碎片化的市场。

“端侧市场不是铁板一块。”李大海分析道,“汽车、手机、PC、机器人、甚至智能眼镜,每一个终端的硬件架构不同,使用场景不同,用户的隐私需求也不同。”

在这个碎片化的战场里,巨头的“通用大模型”往往因为水土不服而难以落地。你不能直接把一个千亿参数的模型塞进车机里,也不能指望一套标准 API 适配所有的机器人底盘。

这就给面壁留出了巨大的“修路”空间。

他们愿意干苦活累活:去适配几十种不同的芯片,去压榨每一毫秒的延迟,去设计松果派这样的参考硬件。这些工作琐碎、繁重,但一旦做成,就会形成极高的壁垒。

MiniCPM-o 4.5 已经支持了 16 种不同大小的 int4 和 GGUF 量化模型,通过 llama.cpp 和 Ollama 就能在本地设备上高效推理。这种极致的工程化能力,正是面壁在“夹缝”中生长出来的根系。

“我们是在制造大模型时代的 ‘光刻机’,也是在铺设端侧智能的 ‘高速公路’。”

当开发者习惯了在松果派上开发,当车企习惯了 MiniCPM 的低延迟,当机器人厂商习惯了 1Hz 的智能分层,面壁智能就不再只是一个卖模型的公司,而是成为了端侧生态的基础设施。

走出科建大厦的时候,天色已晚。北京的寒风中,路边的大屏幕上正播放着某大厂“全知全能”AI 的广告。而在我身后这间普通的会议室里,一群人正在试图把 AI 从神坛上拉下来,塞进芯片,塞进板卡,塞进每一个具体的、微小的设备里。

OpenClaw 掀起的 Agent 热潮或许只是一个序幕,而真正的故事,可能就始于这块不起眼的开发板和这个只有 9B 大小的模型。这不仅是一场技术的突围,更是一场关于 AI 究竟该属于“巨头”还是属于“个体”的权利争夺战。