卖瓶可乐要「2分半」，机器人的问题在哪？|可乐|机器人|深度思考模型|焦糖|真实世界|算法

这次 WAIC，群核的朋友邀请我去看看，有东西要开源：InteriorGS

去之前，我先转了转其他展位
最火的地方，莫过于 「镇馆之宝」：机器人在卖可乐

里三层，外三层，水泄不通
挤进去看了会儿，机器人正识别订单、抓取可乐、递给观众
掐表一看：两分半
要是真在打工，应该早就被炒了

现在工厂里的机械臂，一分钟能完成几百个动作，误差不超过 0.1 毫米
怎么到了这儿，卖瓶可乐都费劲？

后来想明白了：工厂是机器人的「理想国」
工厂里，一切都是确定的：零件位置，传送带速度...不会有偏差
所以，机器人的动作，都可以写死，然后无限循环

真实世界，很不一样
可乐会在冰柜里、货架上，也可能卖完了
下单的，可能是可口可乐，也可以是百事可乐，还可能要樱桃味的（这个我是真喜欢）
遇到有人插队怎么办？小孩子够不着怎么办？
到处都是问题，到处都得处理

不是机器人笨，而是他真没见过
机器人需要「见世面」的机会，在各种场景中练习

展位的意外收获

到了群核展位，先看了个有趣的案例：
杭州老照相馆的 3D 重建

这家开了 60 年的照相馆，店主周爷爷身体不好，很久没法去店里了

群核的工程师，复刻了整个照相馆
效果确实惊人，连桌上的灰尘、墙上的光影都清晰可见

这背后的技术，叫做「3D高斯」

传统的建模，是画三角形
游戏里的人物、建筑，放大看全是三角形。精度越高，三角形越多，文件越大

「3D高斯」，则是用「光点」来还原空间
几张照片就能生成场景，文件比传统方法小 90%，还能实时渲染

这次开源的「InteriorGS」，就是整套「3D高斯室内场景」数据集

InteriorGS数据示例：机器人视角

InteriorGS数据示例：无人机视角

这套数据集中，包含 1000 个场景，涵盖 80 多种环境类型，从普通住宅到便利店、博物馆

这些场景中，有超过 55.4 万个物体实例，分属 755 个类别，每个物体都配有3D边界框和语义标注

语义是什么：说白了，就是告诉机器人空间里有啥，空间关系怎么样

仔细看，会发现这里的一个细节：

每个场景都提供了占用地图（occupancy map），白色表示能走，黑色表示障碍
这让机器人知道哪里能走，哪里不能走

更棒的是，数据集还包括了地面机器人和无人机的导航轨迹示例，让 AI 更好的在复杂环境中，进行学习

这里补充一个背景，具身智能的训练数据，现在遇到了两大问题：

• 极度缺乏 3D 场景/数据
• 缺少对 3D 场景/数据的属性标注

「缺乏 3D场景/数据」好理解，就没那么多模型
「缺少对 3D场景/数据素材的属性标注」呢？你把模型给了机器人，比如一个逼真的客厅，机器人也搞不清楚哪是沙发、哪是茶几，更不知道沙发软、茶几硬

而群核的尝试，把3D高斯叠加他们家的空间大模型，这样既能低成本完成海量3D数据，也能补齐了物理属性的缺失问题。

到了这里，就结束了吗？
InteriorGS，只是冰山一角

群核有个SpatialVerse，算得上「3D 领域的ImageNet」

ImageNet ImageNet 是一个包含超过 1400 万张标注图片的数据库，用于训练 AI 识别物体 2012年在其竞赛中，深度学习首次大获成功，开启了 AI 革命

SpatialVerse

开头那个卖可乐的机器人，还记得吗？
动作迟钝的核心原因：练习不够
（时长不到两年半）

学生巩固知识，要做练习题
机器人，需要去刷场景

SpatialVerse，便是「刷场景」的平台，就像黑客帝国里的数字道场

在这个过程中，SpatialVerse提供四种关键能力：

物理增强能力
是SpatialVerse最独特的部分。每个3D模型都被赋予真实的物理属性——密度、摩擦力、弹性、阻尼等参数。更重要的是对活动部件的运动约束：门能够按照真实铰链开合，把手可以按照实际机构旋转，抽屉沿着轨道滑动。让虚拟训练的经验，能够直接迁移到真实世界。

分割标注能力
通过自动化技术结合人工审核，为每个物体提供精确的语义标签、材质信息和状态描述。这种多维度标注对提升AI模型的场景理解能力至关重要。

场景增强能力
解决了训练数据多样性的问题。一个整洁的样板间可以通过场景繁化变成生活化的真实环境——自动添加日常物品、调整家具摆放、改变光照条件、更换材质纹理。平台的模型包支持批量生成场景变体，让同一个基础场景产生成百上千种训练样本。

多平台支持能力
确保了数据的通用性。平台实现了向Omniverse、Unreal Engine、Blender，以及MuJoCo等仿真环境的工程化转换，同时也支持例如UC Berkeley开源的RoboVerse在内的开源仿真平台。研究团队可以在熟悉的工具链中直接使用这些数据。转换流程经过优化，能够在保证数据完整性的前提下快速处理大规模数据集。

SpatialVerse 的背后，是群核十多年来的积累

群核科技创始人黄晓煌，之前在伊利诺伊大学香槟分校读博，方向是用「GPU做高性能计算」

黄晓煌的导师，问了他一个前瞻性问题：
当算力提升1000倍，你要研究什么？

黄晓煌的选择是：
模拟物理世界的运行

2011年，黄晓煌从英伟达回国创业
方向便是基于GPU的「渲染引擎」，诉求「物理正确」

而这项技术，被落地到了家装设计上，成为了「酷家乐」

2013年，酷家乐上线，让设计师能在网页上快速渲染效果图，在大家居行业一炮而红。

这里，要说一下什么是「物理正确」？
指的是：渲染出的图像，要与真实物理世界一模一样。无论是材质的反光、阴影的角度、还是光线的折射，每个细节都要符合物理规律

在家装这个场景下，「物理正确」尤其重要。毕竟，东西都是要生产出来的，尺寸错一毫米都不行。

多年下来，群核科技平台上沉淀下来海量3D数据，光 3D 模型就有 3.2 亿个。
每一个沙发的尺寸、每一扇门的开合方式、每一个抽屉的深度，都被精确记录，质量，足以支撑真实生产

到了2018年，群核联合帝国理工、南加州大学等高校推出 InteriorNet，这是当时全球最大的室内场景深度学习数据集

论文发表后引起轰动，硅谷巨头纷纷发来合作邮件。