新智元报道
编辑:Aeneas
【新智元导读】一条X,直接引爆了机器人圈:装上OpenClaw的宇树人形机器人,竟开始理解空间与时间!机器人第一次拥有「世界记忆」,能记住人、物体和发生过的事——天网,真的要来了?
就在刚刚,全球开源机器人圈,被一条X引爆了!
一台装载OpenClaw的宇树人形机器人在房间里移动,它的眼睛来自LiDAR激光雷达、双目摄像头和RGB相机,这些传感器的数据,被输入一个系统。
然后,发生了一件此前从未被任何机器人做到的事——这个宇树机器人,开始理解空间和时间!
它不仅知道房间、人、物体在哪里,还知道什么时候发生了什么。
团队把这种能力称为Spatial Agent Memory(空间智能体记忆),也就是说,从此机器人拥有了「世界记忆」能力!
而把这种能力带到机器人世界的,就是火爆全球的项目OpenClaw。
这项成果一经发布,立刻得到了OpenClaw之父Peter Steinberger的转发。
这宣告着具身智能的里程碑式突破:OpenClaw正式掌握了物理空间和时间感知能力。
天网,刚刚开源了?
项目一发布,评论区的网友们就炸了。
他们迅速分成了两派,有一派非常兴奋:开源机器人终于拥有了时空感知,这是边缘AI的巨大突破!
可以说,这正是我们梦寐以求的具身智能突破!
而另一派则开始担忧:如果机器人都能拥有空间感知,这不是相当于天网刚刚在GitHub建了一个仓库?
如果一个人机器人能精准分析家里每个人的生活规律,知道谁最常去厨房,知道垃圾什么时候倒,这种「全知全能」的监视能力,在缺乏伦理框架约束的情况下,简直令人不寒而栗!
甚至有人说,是时候接军方订单了。
而且,最让人兴奋的是:这一切都是完全开源的!
虽然在这次的视频中,OpenClaw直接把装在了宇树机器人上,但这套系统其实是完全硬件无关的。
你可以用任何激光雷达、立体摄像头或RGB摄像头来集成。
不仅可以装在Unitree G1这样的人形机器人上,还能和大多数无人机、四足机器狗整合。
甚至,在理论上,我们完全可以用旧iPhone上的激光雷达来改造一个机器人。
总之,任何硬件,只要能跑OpenClaw,就能立刻拥有时空感知。
它还不依赖ROS(机器人操作系统),支持全动态障碍物避让和SLAM(即时定位与地图构建)。
开源机器人,正在走向天网时刻
如果有一天,你家里的机器人忽然跟你说:「你的车钥匙昨晚落在厨房桌子上了」,你可能只是觉得它很智能。
但如果它继续说「上周一晚上8点,一个陌生人来过你家」,甚至「你平均每天在厨房停留47分钟」,你是不是就觉得有点毛骨悚然了?
你会意识到:这个机器人一直在观察你,甚至在记住关于你的一切!
最令人震惊的是,这些并不是简单的视频回放,而是来自一种新的能力:空间+时间+语义的联合记忆。
机器人,并不只是在记录画面,而是在构建一个世界模型!
以前的机器人,为什么不太聪明
相比之下,以前的机器人,为什么看起来不太聪明呢?
原因在于,首先LLM只有静态记忆,只记得训练数据,却不记得你五分钟前把钥匙放在哪了。
然后,就是空间的缺失。它们可能在语言的世界里游刃有余,在物理世界里却很难理解「厨房在客厅左边」。
另外,就是传统的RAG只能搜文字,但机器人面对的是,却是海量的视频流和深度数据。
这些几百小时视频、深度图、三维空间、物体位置和时间变化,意味着机器人要面对的,是现实世界的数据洪流。
但这个团队,却做了一件很疯狂的事。
SpatialRAG黑科技,给机器人装上3D云脑
他们祭出了杀手锏——Spatial Agent Memory(空间智能体记忆)和SpatialRAG。
这套系统的核心逻辑非常硬核:它把视频、雷达检测、帧图像、里程计全部揉在一起,构建成一个体素(Voxel)化的世界。
每一个空间小方块(体素)都被打上了空间矢量嵌入和语义标签。结果就是,机器人的大脑变成了一个包含对象、房间、几何、时间、图像、点云的多维向量存储库。
可以说,这就是让机器人理解物理世界所需要的记忆骨架。
依靠这个系统,机器人可以在object(物体)、room(房间)、semantic(语义)、geometry(几何)、time(时间)、image(图像)、pointcloud(点云)等多个维度搜索,由此第一次拥有了完整的空间记忆。
因此,现在它能回答这些直击灵魂的问题了。
比如「我钥匙丢哪儿了?」「上周一谁来过我家?」「谁在厨房待的时间最长?」「垃圾该什么时候倒?」
网友质疑:天网降临,还是老头漫步?
这项成果一出,评论区直接炸锅了。
有吐槽派怀疑说,这延迟不得卡死?是派100岁老爷爷来帮我做家务吗?
但技术团队火速打脸表示:「不,它并不是20Hz跑实时控制,而是高层智力协调器。它负责指挥,动作运行可以异步,完全不卡顿!」
还有人质疑道:为什么不用专用ML模型,而是要用LLM和Cron这种鲁布·戈德堡机械呢?
对此,开发者表现得非常坦诚:「把LLM装到硬件上确实容易,但让它维持一个持续的、关于什么时间、什么地点发生了什么的物理上下文,才是最难的。」
而OpenClaw提供的,不仅仅是一个输入接口,而是包含了一整套代理基础设施(Agent Infrastructure):子代理编排、MCP(多点协作协议)处理、工具安全审计、插件系统。
这让它比原生的Claude代码更适合作为机器人的「前额叶」。
另外在评论区,一位机器人工程师说了一句非常真实的话:最难的不是空间理解,而是让系统在现实世界稳定运行。
现实世界的问题,包括传感器冲突、光照变化、动态障碍、数据噪声和硬件故障等,而仿真世界,永远不会让你面对这些问题。
具身智能的最后一公里
很多人说,「具身」是意识的关键。这次尝试告诉我们:让LLM上硬件不难,难的是让它产生持久的、跨越时空的物理上下文。
当机器人开始理解因果,开始记住位置,它就不再是一个会走路的音箱,而是一个真正的「物理代理」。
或许,天网不会突然降临,但事情可能是这样的:机器人学会看见世界,记住世界,最后学会改变世界。
而当这些能力全部开源的时候,任何人都可以构建一个机器人大脑。
有一天,当我们回头看这一刻,可能会意识到:这就是机器人时代真正开始的地方。
家用机器人的时代,可能真的要被这只「开源爪子」挠开了。
参考资料:
https://x.com/stash_pomichter/status/2028645216505549168
热门跟贴