这次 WAIC,群核的朋友邀请我去看看,有东西要开源:InteriorGS

去之前,我先转了转其他展位
最火的地方,莫过于 「镇馆之宝」:机器人在卖可乐

里三层,外三层,水泄不通
挤进去看了会儿,机器人正识别订单、抓取可乐、递给观众
掐表一看:两分半
要是真在打工,应该早就被炒了

现在工厂里的机械臂,一分钟能完成几百个动作,误差不超过 0.1 毫米
怎么到了这儿,卖瓶可乐都费劲?

后来想明白了:工厂是机器人的「理想国」
工厂里,一切都是确定的:零件位置,传送带速度...不会有偏差
所以,机器人的动作,都可以写死,然后无限循环

真实世界,很不一样
可乐会在冰柜里、货架上,也可能卖完了
下单的,可能是可口可乐,也可以是百事可乐,还可能要樱桃味的(这个我是真喜欢)
遇到有人插队怎么办?小孩子够不着怎么办?
到处都是问题,到处都得处理

不是机器人笨,而是他真没见过
机器人需要「见世面」的机会,在各种场景中练习

展位的意外收获

到了群核展位,先看了个有趣的案例:
杭州老照相馆的 3D 重建

这家开了 60 年的照相馆,店主周爷爷身体不好,很久没法去店里了

群核的工程师,复刻了整个照相馆
效果确实惊人,连桌上的灰尘、墙上的光影都清晰可见

这背后的技术,叫做「3D高斯

传统的建模,是画三角形
游戏里的人物、建筑,放大看全是三角形。精度越高,三角形越多,文件越大

3D高斯」,则是用「光点」来还原空间
几张照片就能生成场景,文件比传统方法小 90%,还能实时渲染

这次开源的「InteriorGS」,就是整套「3D高斯室内场景」数据集

 卖瓶可乐要「2分半」,机器人的问题在哪?
打开网易新闻 查看更多视频
卖瓶可乐要「2分半」,机器人的问题在哪?

InteriorGS数据示例:机器人视角

 卖瓶可乐要「2分半」,机器人的问题在哪?
打开网易新闻 查看更多视频
卖瓶可乐要「2分半」,机器人的问题在哪?

InteriorGS数据示例:无人机视角

这套数据集中,包含 1000 个场景,涵盖 80 多种环境类型,从普通住宅到便利店、博物馆

这些场景中,有超过 55.4 万个物体实例,分属 755 个类别,每个物体都配有3D边界框和语义标注

语义是什么:说白了,就是告诉机器人空间里有啥,空间关系怎么样

仔细看,会发现这里的一个细节:

每个场景都提供了占用地图(occupancy map),白色表示能走,黑色表示障碍
这让机器人知道哪里能走,哪里不能走

更棒的是,数据集还包括了地面机器人和无人机的导航轨迹示例,让 AI 更好的在复杂环境中,进行学习

这里补充一个背景,具身智能的训练数据,现在遇到了两大问题:

  • • 极度缺乏 3D 场景/数据

  • • 缺少对 3D 场景/数据的属性标注

缺乏 3D场景/数据」好理解,就没那么多模型
缺少对 3D场景/数据素材的属性标注」呢?你把模型给了机器人,比如一个逼真的客厅,机器人也搞不清楚哪是沙发、哪是茶几,更不知道沙发软、茶几硬

而群核的尝试,把3D高斯叠加他们家的空间大模型,这样既能低成本完成海量3D数据,也能补齐了物理属性的缺失问题。

到了这里,就结束了吗?
InteriorGS,只是冰山一角

群核有个SpatialVerse,算得上「3D 领域的ImageNet

ImageNet ImageNet 是一个包含超过 1400 万张标注图片的数据库,用于训练 AI 识别物体 2012年在其竞赛中,深度学习首次大获成功,开启了 AI 革命
SpatialVerse

开头那个卖可乐的机器人,还记得吗?
动作迟钝的核心原因:练习不够
(时长不到两年半)

学生巩固知识,要做练习题
机器人,需要去刷场景

SpatialVerse,便是「刷场景」的平台,就像黑客帝国里的数字道场

在这个过程中,SpatialVerse提供四种关键能力:

物理增强能力
是SpatialVerse最独特的部分。每个3D模型都被赋予真实的物理属性——密度、摩擦力、弹性、阻尼等参数。更重要的是对活动部件的运动约束:门能够按照真实铰链开合,把手可以按照实际机构旋转,抽屉沿着轨道滑动。让虚拟训练的经验,能够直接迁移到真实世界

分割标注能力
通过自动化技术结合人工审核,为每个物体提供精确的语义标签、材质信息和状态描述。这种多维度标注对提升AI模型的场景理解能力至关重要。

场景增强能力
解决了训练数据多样性的问题。一个整洁的样板间可以通过场景繁化变成生活化的真实环境——自动添加日常物品、调整家具摆放、改变光照条件、更换材质纹理。平台的模型包支持批量生成场景变体,让同一个基础场景产生成百上千种训练样本。

多平台支持能力
确保了数据的通用性。平台实现了向Omniverse、Unreal Engine、Blender,以及MuJoCo等仿真环境的工程化转换,同时也支持例如UC Berkeley开源的RoboVerse在内的开源仿真平台。研究团队可以在熟悉的工具链中直接使用这些数据。转换流程经过优化,能够在保证数据完整性的前提下快速处理大规模数据集。

SpatialVerse 的背后,是群核十多年来的积累

群核科技创始人黄晓煌,之前在伊利诺伊大学香槟分校读博,方向是用「GPU做高性能计算

黄晓煌的导师,问了他一个前瞻性问题:
当算力提升1000倍,你要研究什么?

黄晓煌的选择是:
模拟物理世界的运行

2011年,黄晓煌从英伟达回国创业
方向便是基于GPU的「渲染引擎」,诉求「物理正确

而这项技术,被落地到了家装设计上,成为了「酷家乐

2013年,酷家乐上线,让设计师能在网页上快速渲染效果图,在大家居行业一炮而红。

这里,要说一下什么是「物理正确」?
指的是:渲染出的图像,要与真实物理世界一模一样。无论是材质的反光、阴影的角度、还是光线的折射,每个细节都要符合物理规律

在家装这个场景下,「物理正确」尤其重要。毕竟,东西都是要生产出来的,尺寸错一毫米都不行。

多年下来,群核科技平台上沉淀下来海量3D数据,光 3D 模型就有 3.2 亿个。
每一个沙发的尺寸、每一扇门的开合方式、每一个抽屉的深度,都被精确记录,质量,足以支撑真实生产

到了2018年,群核联合帝国理工、南加州大学等高校推出 InteriorNet,这是当时全球最大的室内场景深度学习数据集

论文发表后引起轰动,硅谷巨头纷纷发来合作邮件。

在后来,李飞飞的论文指出:

在高仿真场景下训练机器人,可以达实景训练99%的效果。

而群核,恰好拥有最大规模的「物理正确」的空间数据

从InteriorNet 到 SpatialVerse,群核完成了从「数据集」到「智能训练平台」的进化

有一家公司,做扫地机器人的,用 SpatialVerse 训练识别宠物粪便

养过宠物的都知道,最炸裂的无过是:
「猫猫软便」+「拉外面」+「机器人拖地」

然后,猫屎就会被平铺在整个房间

这个事儿,如果让机器人实景训练...不敢想
为此,群核的设计师「研究了好些宠物粪便」,做出了逼真的3D模型

有设计师在微博吐槽:“猫屎有必要做得这么逼真吗......”
正是这种逼真,让扫地机器人学会了避雷

这个案例很有意思,代表问题:机器人要见识各种奇葩场景,但有些场景,你是真不想在现实中复现

智元机器人也在用 SpatialVerse,他们要训练机器人操作各种物体

银河通用在优化导航算法,穹彻智能、智平方、松应科技等公司也都成了用户

大家图的是什么?省事儿

与其让机器人在家里打翻东西,不如先让他在虚拟空间里多练练,把错误犯个遍

今年3月,群核开源了空间理解模型SpatialLM,一度登上Hugging Face趋势榜前三,便是训练自 SpatialVerse 的

更有意思的是,2025年谷歌与斯坦福联合发表的论文FirePlace,专门提到了SpatialVerse:数据能打,每个模型的物理属性都是真的

这篇论文,研究的是让AI学会布置房间

听起来简单,但细想想挺难的,AI 是真的不懂
沙发不能悬空吧?台灯得放桌上吧?书架和墙之间要留点距离吧?

从扫地机器人,到谷歌斯坦福论文,大家要的东西其实一样:「物理正确」的训练场景

SpatialVerse,则把工厂用的精确数据,变成了AI可用的训练资源

最后

离开WAIC时
我又想起那个卖可乐的机器人
还像个婴儿

解法很简单:多练
提前练习,把该犯的错都犯了
如果几年后,机器人可以很轻松的考淀粉肠,那意味着什么?
机器人的福报,到了(笑

千万个虚拟场景,千万种未来可能