对话 | 唐小引 嘉宾 | 唐睿
责编 | 梦依丹
出品 | CSDN(ID:CSDNnews)
当大模型开始“看懂”空间、理解物理、做出行动,人工智能的形态正在发生一次根本性变化——从“对话系统”,走向“行动智能”。
在这条路径上,一个词被频繁提起:空间智能。
如果说 LLM 让机器拥有了像人类一样思考的大脑,那么空间智能则试图赋予机器像人类一样观察、理解并在三维世界中行动的身体与感官。
它并非凭空出现,而是扎根于计算机图形学对几何、材质与光照的长期积累,依托 GPU 并行计算对物理世界的高保真模拟,通过“先模拟世界,再理解智能”的路径,逼近真实智能的边界。
正是在这个被李飞飞等顶尖学者视为“通往 AGI 的关键拼图”的领域,群核科技(酷家乐)首席科学家唐睿已经深耕多年。
从浙江大学的“求是”精神到英国巴斯大学的“跨界”洗礼,再到伴随群核科技走过十余年的技术长征,唐睿的职业生涯本身就是一部从“图形学渲染”走向“空间智能体”的进化史。
他曾面临一个终极的技术命题:手握高性能计算资源,我们究竟是用它来模拟物理世界的影像,还是模拟具备智能的生命体?
左:唐睿,右:唐小引
在全球机器学校技术大会现场,唐睿在与 CSDN 《万有引力》栏目的深度对话中,不仅给出了他的答案,更剖 析了行业深处的痛点与机遇。以下是访谈中唐睿表达的一些观点提炼:
空间智能与具身智能的关系:服务与被服务——空间智能是具身智能(Embodied AI)的基础设施。如果说具身智能是最终要在物理世界行动的“人”,那么空间智能就是它的“眼睛”和“训练场”。空间智能通过生成 3D 场景和仿真数据,解决具身智能训练数据严重不足的痛点;
解决“数据饥渴”的终极之道在硬件:目前行业主要依靠“正向设计”(如设计师使用软件创作)和“合成数据”来弥补数据缺口。但唐睿认为,这仍是“从蛋里孵蛋”。真正的终极解决方案在于感知硬件的普及——当眼镜、手机、手表都能无感采集空间数据时,数据瓶颈将被彻底打破;
2D、视频与 3D 并非路线之争,而是融合演进:在构建世界模型的路径上,视频生成(2D)与 3D 生成并非割裂。行业正在走向融合:利用 3D 的结构稳定性来解决视频生成的“时空一致性”问题,反之利用视频模型的多视角能力辅助 3D 重建。这是一个螺旋上升的过程;
未来预判:硬件爆点将在 24 个月内到来——AI 开发 AI 的循环已经开启,软件迭代速度极快。唐睿预测,空间智能的下一个真正爆点将等待硬件的突破。当每个人都能低门槛地对现实空间进行捕获和还原时,行业将迎来质变,这个窗口期大约在两年(24 个月)左右。
欢迎 收听音频播客,如有兴趣观看完整视频,可在文末获取
以下是对话的完整内容:
唐小引:屏幕前的小伙伴们大家好,欢迎收看《万有引力》。今天我们来到全球机器学习技术大会的现场,特别邀请到了群核科技首席科学家唐睿老师,和大家一起深入分享他的技术人生成长,还有大家当前很关注的对于空间智能的整个思考、研究以及实践。欢迎我的本家唐老师,可以给大家打个招呼,然后做一下自我介绍。
唐睿:大家好,我是来自群核科技的唐睿。我的主要研究领域是计算机图形学和人工智能,也会涉及到一些具身智能、交互感知相关的工作。
唐小引:我想先理清一下概念,具身智能和空间智能,它们的关系和不同点是什么?
唐睿:我觉得空间智能在某种层面,无论是在算法还是交互层面,是服务于具身智能的。因为如果我们说人类终极的 AGI,是不仅能够观察、理解、思考这个世界,甚至还应该能像人类一样去和这个世界交互。我们说的具身智能里的 AI,就是要和这个世界进行交互的。
所以,至少我们现在在做的空间智能,是关于 3D 世界,或者说包括 2D 视频这类世界的生成方式。由于现在具身智能会考虑到数据不足的问题,所以会需要基于一些 2D 的交互视频,或者 3D 的可交互场景,再加上仿真计算这样的方式,去产生大量的数据,用于具身智能未来和真实物理世界交互的训练,甚至是验证。
从 CG 到空间智能:唐睿的技术启蒙之路
唐小引:您可以接着谈谈自己的故事,是怎么从 CG 一步步走上空间智能之路的?
唐睿:其实也不能算一步步走到空间智能这一步。CG 里面会涉及到我们称之为 Shape 或者 Geometry Analysis,也就是空间几何的理解,它其实本身也是一种智能。当我画出一个椅子的时候,在计算机里,如果你不告诉它这是一把椅子,那它应该如何去理解?这本身就是智能的一部分。
除此之外,CG 的另一大核心是大家玩游戏时很熟悉的“渲染”。渲染的本质是对光传播的模拟。比如我们看到一个金属质感的物体,是因为光源照射到一个具备特定物理属性的表面,光线反射后进入了相机或人眼。
所以,CG 的本质到底是什么?我们董事长的博士导师——也是 CUDA 的鼻祖级人物——他们当年在美国交流时曾提出过一个终极命题:我们掌握了像 GPU 这样高性能的并行计算能力,究竟是该用它来模拟物理世界,还是去模拟智能体?
最早在 2011 年的时候,不管是我们董事长把这个命题带回国,还是后来创业,由于当时 AI 远没有现在普及,大家对智能的理解也没那么深。所以最开始,我们选择了前者——用并行计算去做传统渲染,也就是“模拟物理世界”。
转折点发生在 2017 年。
一方面,我个人博士期间研究的是 3D 人脸识别,这恰好是 CG 与机器学习(当时的概念)的交叉领域;但更重要的启发来自于 AlphaGo。AlphaGo 给我们的震撼在于,它通过在虚拟棋盘上的仿真,利用强化学习,仅用极短的时间和算力,就模拟了人类上千年甚至更久远的棋局演变。
这让我们意识到“模拟智能”的时机到了。所以从 2017 年开始,我们回归到了那个终极命题的另一面:结合群核已有的海量空间数据,开始尝试利用并行计算去模拟空间智能,或者说去构建“空间智能体”。
跨领域的求是创新:贯穿中英的学术生涯
唐小引:好,我们不妨把视角拉得更远一点,聊聊您的个人经历。从国内的浙江大学,到英国的巴斯大学,再到现在投身群核科技,您能分享一下这几个阶段的心路历程和核心收获吗?
唐睿:在浙江大学的时期,对我来说更像是从校园向社会的过渡——它虽然不完全是社会,但已具备了社会的某种缩影。回顾浙大时光,最大的收获莫过于校训中的“求是”二字。这也深刻塑造了我们现在的做事准则:无论是在做产品、解决方案,还是做基础科研,首要原则就是遵循事实。以事实为本,去推理、去创新。
其实关于浙大,除了官方校训,私下里大家对竺可桢老校长的“两个问题”(你来浙大做什么?将来要做什么样的人?)还有一个略带戏谑的民间回答,那就是——“混、混混”。
以前大家可能觉得这是玩笑,但现在我重新审视这个字,“混”其实代表了一种发散性的思维,一种打破边界的融合。这在本质上与校训里的“创新”是一脉相承的。
非常巧合的是,这种思维延续到了我下一段经历中。我在英国巴斯大学求学时,我的导师是 Darren Cosker(皇家工程院院士)。他的治学风格非常“野”,或者说非常不拘一格,核心就是跨领域(Cross-domain)。
举个例子,我们在实验室里做人脸识别,同时也有团队在做肢体的数字孪生(Digital Twin)和行为学习。Darren 会极力主张将这些技术与体育、健康,甚至教育产业进行跨界结合。
大家可能知道,巴斯大学有“英国体校”之称,很多英国奥运选手都出自这里。他们拥有一套非常科学的训练体系,而这套体系的背后,很大程度上依赖于我们的 CG 技术——即通过对人体姿态和肌肉行为的高精度仿真来辅助训练。
在这个过程中,我们也见证了数据价值的演变:以前我们是做大数据分析,而现在更多是通过智能数据(Intelligent Data)的方式去优化仿真模型。这种跨界研究最终催生了许多落地成果,不仅是在体育界,也包括影视表演领域,比如电影《猩球崛起》就与我们实验室有过深度合作。
所以回过头看,这两段经历非常神奇。从浙大的“求是与跨界思维”,到巴斯大学的“跨领域实践”,它们共同构建并深刻影响了我现在的思维结构。
总结起来就是:跨领域的求是创新。
唐小引:我想进一步探讨一下中英培养体系的差异。今天很巧,您和老师两位演讲嘉宾都曾在英国深造。但我之前去欧洲,与当地的 AI 从业者交流时,听到一种声音是觉得英国的“AI 氛围”相对较弱。但我看着其实有很多的人是从英国接受了人工智能教育,然后回来落地生根。
唐睿: 我不确定王老师具体的留学时间,但我是在 2014 年回国的。那个时间节点很有意思——2012 到 2013 年左右,AlexNet 才刚刚横空出世,那是深度学习爆发的起点。换句话说,当时我们现在所定义的“AI”概念,还没有被全社会广泛认知或接受。
关于您提到的“氛围弱”,我认为需要辩证地看。
如果从产业影响力来看,确实存在这种情况。因为中国和美国拥有全球最大的消费市场,AI 的发展不仅取决于技术,更取决于产业推广和应用场景的规模化效应。正是这种庞大的市场需求,造就了 AI 产业应用最先在中美这两个大市场爆发。相比之下,英国在“产业落地”的喧嚣度上可能确实不如中美。
但如果从科研深度来看,英国的底蕴非常深厚。
据我所知,我的导师 Darren 目前就任职于微软剑桥实验室,而孕育了 AlphaGo 的 DeepMind,当时就在 UCL(伦敦大学学院)隔壁。可以说,英国汇聚了大量顶尖学者和核心算法的源头创新。
所以,英国的“强”在于学术研究的深度,而中美的“强”更多体现在产业落地的广度和市场的速度。这就是为什么很多在那边接受了深层理论教育的人,最终选择回到拥有更广阔应用土壤的国内来发展。
十年群核路:从 IC 到技术管理者的蜕变
唐小引:我们可以接着聊聊您现在在群核所做的事情。您是怎么加入群核的?以及我看这几年您对外分享过智能体、仿真等方向的内容。您可以讲讲您在群核的故事,以及不同时期的侧重点。
唐睿:我怎么加入群核的?非常巧合,这是我第一份工作。这份工作干了十多年,也没去找别的。
其实我刚去群核的时候并不知道这家公司是做什么的,我就知道有很多 GPU,这是硬件层面吸引我的地方。因 为我之前也是做偏图形学的机器学习交叉领域,GPU 本来就能做机器学习,同时它天然就是为计算机图形学设计的,这是硬件层面的吸引力。
我面试群核花了两天时间。第一天是 12 月 23 号,第二天是 12 月 24 号。第二天面试到晚上 11 点多,是两天长时间的面试。面试从和程序员一起写代码,到和三位创始人聊天,每位创始人都聊了两到三个小时。我就感觉到了一种非常简单、开放的文化。最后一天是平安夜,和 CEO 陈航聊到了十点多。
我非常诧异,我一个还没完全毕业的小伙子去实习,跟我同龄的人已经是 CEO 了,平安夜还不回家,跟我在这聊技术,还带我参观 GPU 机房和集群。我是被这样的基因或者文化吸引的。
唐小引:你有把这个问题抛给他吗?
唐睿:问了,他说创业就是这样的。
唐小引:这是属于刚刚加入的故事。接着这十几年里面,您可以分几个阶段给我们讲一下。
唐睿:关于技术路线的阶段——从“模拟物理”到“模拟智能体”——刚才我已经谈过了。所以我想换个维度,从职业身份的转变来聊聊:即我如何从一个个人贡献者一步步蜕变为一名技术管理者。
这中间我踩过不少坑,也积累了很多感悟,大致可以归纳为两个层面的挑战。
第一个挑战是工作习惯的重塑,尤其是从纯技术向管理的过渡。做 IC 时,我只需要专注解决技术难题。但转型做 Team Leader 后,最大的难点在于心态上很难“放下”——很难放下亲手写代码和啃论文的执念。但现实是,你必须分出精力去把控团队方向、进行向上沟通、了解财务状况,甚至洞察市场动态。
在这个过程中,我养成了一个关键习惯:利用碎片化时间。哪怕只有半小时空档,也要思考如何快速进入状态。即便这半小时不足以彻底解决一个复杂问题,但你要能维持住思考的连贯性,做好上下文的衔接。
第二个挑战,也是更深层的感悟,是我所定义的“技术责任心”。这里的“责任心”,本质上是对一线技术人员的一种保护机制。
我们在工作中经常面临一个权衡:一线技术人员到底需不需要具备深层次的产品、技术乃至业务价值的思考?我的观点是:如果他们具备这种视野,那是锦上添花,但如果他们暂时没有,这绝不应成为他们的包袱,这本该是我们 Team Leader 的天职。
无论是描绘宏大的蓝图,制定长期规划,还是设定短期的 POC(概念验证)目标,将技术语言转化为业务价值,这是管理者必须承担的责任。
这标志着我从单一的“技术思维”,正式跨越到了融合“技术、产品与业务”的复合型思维模式。
唐小引:所以这十几年最关键的一点是学会了怎么去做好一个技术管理。
唐睿:对,其实学会了 PUA 自己。
唐小引:这也是一个很好的技术人成长路线。当然这个我先不展开了,因为时间关系,再加上您本身现在选择的是技术管理的路线。
唐睿:对,其实自己也还在写一些代码,做一些科研。
唐小引:现在还在写代码?
唐睿: 每天会花一两个小时看论文,利用碎片化时间去实现一些 GitHub 上新的模型。
锚定空间智能:机遇、挑战与“3D 界的 ImageNet”
唐小引:接着我们聊聊空间智能。锚定空间智能这个方向是从什么时候开始的?节点是什么?接着,我很好奇今天看到很多以前做 CV 或者 AI 大佬都投身这个方向。这个方向为什么如此重要?当前大家看到的机会和方向是什么?面临的问题又是什么?
唐睿:我们真正开始投身到空间智能,起点应该是 2017 年。我们开始用自己的数据去塑造一些简单的空间智能体,比如自动设计、自动打光、自动材质编辑等。
那时候我们也是采用一种数据驱动的方式。因为我们发现自己本身已经收集了大量的数据,可以拿这些数据去驱动一个……那时候不能叫大模型,而是驱动一个辅助设计算法。在 2017 年,这个辅助设计算法又能让我们的工具更高效、更智能,从而形成一个飞轮。当时没意识到这是一个飞轮的概念,但现在来看,可以把它定义成一种飞轮。
唐小引:为什么是在这个时间点?当时整个业内在 AlphaGo 席卷之下,应该很多是往识别方向去做的。当时的一个契机是什么呢?
唐睿:当时契机还是我们意识到 AlphaGo 之所以能打败人类围棋高手,也是数据驱动的。当然,在强化学习里,它通过强化策略加上随机扰动,能够产生大量的数据,通过这种数据驱动的形式,去产生新的智能体。所以我们当时没有完全 follow 强化学习的思路,而是 follow 了一套数据驱动的范式。
所以我们在 2018 年提出了 “3D-Internet”,2019 年,我们和中国科学技术大学的刘立刚老师团队在顶会上提出了数据驱动范式下的户型自动设计方案,后面也把它应用到了我们的产品里。
唐小引:我看您前面说要做 3D 界的 ImageNet。到现在实现的成果是什么样的?
唐睿:从商业化落地来看,进展非常顺利。目前市面上许多头部做具身智能或者 3D 空间生成的团队,都是我们开源数据集以及闭源商业化数据集的客户。由于签署了 NDA(保密协议),具体客户名单不便在这里公开。
唐小引:没关系,我们理解保密需求。您只需分享那些可以公开的技术进展即可。
唐睿:撇开商业客户不谈,从纯技术和学术合作的角度来看,我们最近产出了大量成果。我们与字节跳动、Adobe、谷歌以及浙江大学等机构都有深度的论文合作,核心都是基于数据驱动的方式,去探索空间智能的不同维度。
正如我这次演讲所提到的,我们正在尝试对“3D 空间”进行解构。空间看似复杂,但拆解到最基础的层级,核心元素其实只有三样:几何、物理材质和光。
以现在的热门模型为例,像腾讯的“混元 3D”这类大模型,主要解决的是“生成空间内容”的问题,也就是几何和材质的生成。但有了物体还不够,这些几何体和材质需要通过特定的布局才能组合成一个有意义的空间。
所以,我们的研究重点主要分两块:
第一,是空间内几何体和材质的高质量生成;
第二,是研究空间内物体的合理摆放与布局。
在此基础上,我们与浙江大学的合作更进一步。除了物体,我们还在研究“光的布局”——包括光线的摆放位置、照射方向。
更极客一点的探索是:我们是否能用 AI 大模型去拟合光线的物理传播过程? 也就是用 AI 来模拟传统物理渲染中的光照计算。
数据难题与未来图景:室内数据采集与硬件突破
唐小引:您在演讲中提到一个观点让我印象深刻:相比室外自动驾驶场景,室内空间的数据获取和标注难度反而更大。我作为外行可能会觉得室内环境相对封闭应该更容易,为什么业内会有这样的判断?难点究竟在哪里?
唐睿:这是一个非常好的问题。我们可以对比一下室外自动驾驶的数据获取方式。像室外数据,或者说自动驾驶行业,它的数据获取方式,就是车上搭着摄像头。
唐小引:它跑着跑着就有了,我经常看到。
唐睿:对,它就能收集数据了,可能你跟一个市政府、区政府签一个许可就可以了。所以采集是一种产生数据的方式,我们称之为逆向捕获重建。
另一种是正向设计。像自动驾驶领域,就会拿《GTA 5》作为一个仿真场景,再让一辆虚拟的车在《GTA 5》的世界里开,它也能够产生数据。所以自动驾驶使用这种方式,现在的具身智能其实也一直在用这种方式。
但是,真实数据的采集,第一,它的许可很难获取,或者在家里采集的话,会涉及到用户隐私。当然,像埃隆·马斯克这种不差钱的,他们做 Optimus 的时候,我记得是在德州做了一个很大的场馆,每个馆里都有一个机器人,还有人类操作员去给机器人下达任务,然后机器人就去做抓取或者行动,以此来产生数据。但这里面一方面是刚才提到的隐私问题。
另一方面,机器人任务可比车子复杂多了。车子操作的方式就是前后左右,它唯一的目标就是不要碰到任何东西,并且能从 A 点到 B 点。但对于机器人来说,抓一个光滑的杯子和抓一个塑料的笔,其实都是两种任务,因为你接触到的物理属性、物理对象的大小和形状都不一样。圆形的杯子你可能是这么抓,马克杯你可能勾住把手就行了。所以,由于任务的多样化,会导致数据的非集中化程度非常高,成本就会出现问题。所以大家也是参照自动驾驶领域,合成数据对于具身智能来说是非常关键的一种数据产生范式。
唐小引:对于空间智能而言,下一步的进化形态会是什么样的? 比如过几年,在我的室内环境里,会发生哪些本质的升级?
唐睿: 要回答机器人的升级路径,我们得回归本质。撇开具体的算法不谈,机器人在空间中的核心链路一共分四步:第一是空间感知,第二是空间理解,第三是空间推理与决策,最后是空间行动。
未来的升级,也会沿着这四个维度逐层展开:
首先是“空间感知”的泛化。
感知设备正在经历一场从“高冷”到“普及”的下沉。早期的空间扫描设备只出现在军工、航天或博物馆数字化等国家级项目中;后来下放到了工厂和新能源车上(如激光雷达);随着硬件发展,未来空间感知设备最终会普及到每个人手里,甚至戴在眼睛上。 虽然现在大众的目光主要聚焦在 ChatGPT、Agent 等软件层面上,但其实硬件感知能力的进化速度是非常快的,这块板子很快会补齐。
其次是“空间理解”的质变。
这正是我们在今年(2025 年) 3 月 GTC 大会上发布 Spatial-LM(空间语言模型) 的初衷。
它与传统的 ChatGPT 或图像理解模型最大的不同在于输入数据:我们不再处理平面的文本符号或像素图片,而是直接处理由感知设备采集的 3D 点云或 3D 高斯数据。
在这个阶段,AI 的任务不再是泛泛地识别,而是要精准地感知几何目标。比如,它不仅要知道“这是一把椅子”,还要知道“这个空间的尺寸是否允许人类通行”。它需要反馈给我们非常精准的几何结构、颜色、光照乃至物理属性的信息。
最后是“空间推理与交互”的智能化。
这也是我们开源 Spatial-LM 也是希望呼吁整个社区关注的方向。到了这一步,我们需要通过仿真和合成数据的方式,去产生海量的高质量交互数据。 只有这样,我们的智能体才能真正学会如何在物理世界中顺滑地行动,变得更加“聪明”。
技术路线之争:合成数据、2D 与 3D 的融合探索
唐小引:对,仿真和合成数据。我最开始听黄仁勋本人就在强调这个。现在因为互联网数据耗尽的问题,在直接的 AI 软件层面,大家也在主攻这个方向。那相应地,具身智能和空间智能也都在做这个方向,从技术挑战上有什么不同点吗?
唐睿:先讲不同点还是相同点。我觉得技术是 Application-Driven(应用驱动)的。
唐小引:我发现这是您的理念,您在始终强调这个。
唐睿:对,因为做技术管理者需要连接技术和应用。换句话说,资源是有限的,在有限的资源下怎么样创造最大的价值?那就必须要把前面的应用场景考虑清楚。
当我们谈论“空间智能”的合成数据时,它的复杂度是随着应用场景的需求分层级递进的:
第一层是“视觉级”需求。
比如做家装设计或空间渲染,它的核心诉求是“看”。只要渲染得逼真、美观就足够了,这是一个静态的维度。
第二层是“游戏级”需求。
如果是手机游戏或 VR 体验,光“看”是不够的,还需要基础交互。比如不能出现“穿模”——你不能直接穿过桌子或墙壁;柜门要能打开;物体要能被拿起来。但在这一层,物理属性往往是简化的,游戏引擎并不在乎你抓取一个物体用了多少牛顿的力,只要逻辑通顺即可。
第三层,才是具身智能所需的“物理仿真级”需求,我们称之为“Sim-Ready”。
当你需要生成数据去训练机器人时,对物理属性和交互准确度的要求会呈指数级上升。机器人需要知道物体的摩擦力、质量分布、形变属性等。
所以,我们的工作也是层层递进的:
首先构建一个静态场景;
然后通过数据增强赋予其物理属性,使其变成动态的可交互场景;
最终达到“Sim-Ready”的标准,即可以直接用于物理仿真训练的场景。
目前,我们团队的前沿研究正在主攻“Sim-Ready”方向,而我们的核心业务则更多聚焦在空间设计应用层面。
最后补充一点,虽然物理仿真的合成数据对具身智能至关重要,但这并非全部。空间智能主要解决的是“数据短缺”和“空间理解”的问题,充当了机器人的“训练场”和“眼睛”。 但具身智能作为一个集大成的领域,还面临着机械硬件、电路、电池能源等硬科技的挑战。在我看来,具身智能和太空探索一样,都是人类技术的终极形态之一。
唐小引:您认为终极目标是具身智能,而非空间智能?就是说我们对于 AGI 的探索,终极目标是落在具身智能上吗?
唐睿:我觉得是在具身智能上。如果我自己来定义一个 AGI,那它一定就是跟人一样。如果这个 AGI 只在屏幕空间里,那它可能会考虑到空间智能这些事情。但真正走进物理世界,具身智能是和屏幕空间对应的物理世界里的 AI,那它可能更高级。
唐小引:我看到当前具身智能在构建世界模型,空间智能也在做。有一个观点说,空间智能是构建世界模型的前提,然后通过世界模型才能到达 AGI。您对这个逻辑有什么看法?或者可以分享一下您的观点。
唐睿:我的观点是,这还是一个对 AGI 的定义问题。如果这个 AGI 是在屏幕空间里和人类对话的,那他不需要空间智能。但如果他需要在屏幕空间里去创造 3D 世界,甚至像具身智能一样走出屏幕空间,那空间智能或者说世界模型就非 常关键了。
提到世界模型和空间智能的关系,我觉得目前业界其实并没有一个统一的标准定义。
如果我们将世界模型定义为“能够预测世界的下一个状态”或者“能够创造一个新世界”的能力,那么鉴于人类本身是三维生物,构建世界模型的路径自然分化为两派:一派是基于视频生成,另一派是基于 3D 结构构造。当然,这两者的基座往往都离不开大语言模型。
值得注意的是,这两条技术路线并非割裂,而在互相借鉴与融合。
首先是“视频辅助 3D”:
比如我们在做前馈式的高斯生成时,如果初始输入只有一张单图,要重建出高质量的 3D 高斯体,必须先有多视角的图像信息。这时,我们就会借用 Video Diffusion 模型,先生成多视角的视频帧作为中间素材,再喂给 3D 算法进行重建。
反过来是“3D 反哺视频”:
大家发现纯视频模型有一个致命弱点:当时间线拉长后,视频内容的一致性很难维持。比如你在视频里向前走了一段路再回头,原来的物体可能变样甚至消失了。
为了解决这个问题,大家开始引入 3D 概念。尝试将 3D 表征或 3D 隐空间作为中间媒介。利用 3D 天然的结构稳定性,来强制约束视频生成过程,确保其在空间和时间维度上保持高度一致。
所以,这并不是 谁是谁的前提,更像是一个螺旋上升、互为支撑的过程。
唐小引:我听到对 于空间智能技术路线的争议,比如大家提到的空间一致性,以及视频生成和 3D 场景生成的路线之争。您是 3D 这条路线的支持者是吧?
唐睿:也不能算,我两个都在做。
唐小引:都会用,所以是融合派。
唐睿:是。其实不管我们做 2D 的 Diffusion,还是做 Video Diffusion,大家会发现你要把分辨率拉大,或者把视频的长度拉长,显存就不够了。我们做 3D 的时候也会出现这个问题。所以它其实还是一个资源限制导致我们现在必须以一种融合的方式去进行。
未来如果 GPU 显存无限大,或者我们有一种新的、不是 Transformer 这样的算法,甚至我称之为一种 3D 的……如果我们定义一个 3D 的 Killer concept 出现,那可能原来的基础算法就翻篇了。就像以前大家做图像会用 CNN,当然 CNN 在某些领域还非常好用,但是当 Transformer 出现以后,原来大家用 CNN 甚至 RNN 的很多方法,其实真的已经翻篇了。大家为什么现在还在融合,或者说为什么还在探索,其实也是在找一个 Killer concept 。
唐小引:那围绕空间智能还有哪些技术路线的争议吗?我发现大家的各种讨论都还蛮有意思的。
唐睿:围绕空间智能,我觉得不存在争议,因为现在大家还在一条船上探索。
唐小引:那在探索中有什么共识和非共识吗?在技术这个维度上。
唐睿:共识是数据都缺少。非共识,我觉得也不能叫非共识,因为这个领域还是比较前沿的,你会发现还有很多论文在做,这里面 还有很多探索空间。当一个领域不怎么出现新论文时,可 能已经去泡沫化了。现在这 里面还有泡沫,就说明还有很多事情有价值,不管是商业价值还是技术探索价值,还能去做。
唐小引:您刚才说的都缺数据,这是痛点。那相应地有什么解决方案?这些方案因为本身也在摸索,有什么是可行的,有什么是可能是各执己见的?
唐睿:可行的方案,我觉得就是早上说的正向设计和逆向设计的方式。正向设计让设计师通过设计软件去创作一个 3D 空间或物体,它的成本和代价还是比较高的。我们的做法是,因为我们有室内空间设计这个业务,设计师在我们平台去创造空间的时候,它不仅仅是为 AI 训练产生价值,它最主要、最直接的价值是服务于空间设计、空间展示、空间交互这样的需求。所以那部分价值已经在市场上浮现出来,设计师也能够通过这个获得回报。
我们所以有这个数据,但我个人觉得从数据的角度来说,它不是一个最高效的产生数据的方式。最高效的方式应该是,就像我们戴手表或者用手机的时候,你在日常生活的每一个行为、每一个动作,都能产生数据,那才是解决数据问题的最终之道。所以我们也在跟不同的硬件去生态合作。
所以,至少在空间智能领域,我们是不会去忽视硬件发展的。当我的眼镜、手机甚至手表都能采集空间数据时,这可能是解决空间数据不足的最终解决方案。这是我的一个认知。至于分歧,如果说技术上有分歧,那就是把 2D Diffusion 和3D Diffusion 哪个作为中间媒介来做。你用不同的中间媒介,比如 3D 作为中间媒介,那视频就是最终的成品;如果你说 2D 作为中间媒介,那 3D 就是最终的成品。
开源的力量:共建空间智能生态
唐小引:可以再谈谈开源。群核在开源方面做了很多,可以讲讲吗?比如您和公司管理层对于开源策略的思考,以及群核开源策略的演进。
唐睿:我们也有点照猫画虎,硅谷这边很流行开源文化。从我做技术的角度,如果不谈技术国界和边界,我们最希望的是开源。当然也要从商业化的角度去思考,因为现在至少在世界模型或者空间智能这个角度,还没有一个核心概念出现。在这种情况下,我们选择把数据和模型开源出去,本质上是抛砖引玉,希望能集结整个社区的智慧,共同探索和定义这个领域的未来标准。
另一个角度,开源和我们服务的生态定位有关。打个比方,我们的三维空间数据,大家也会拿来去训练 Embodied AI,也会训练 3D 世界模型。那以 Embodied AI 为例,我们会发现在市场上,全球角度来说,真正能够去训练机器人对空间理解、空间交互的团队是非常少的。但是又有很多小型团队希望参与到这个游戏里面来。
这就是我们为什么去开源 Spatial-LM 这样一个空间理解模型的意义。你可能自己没办法去训练一个这样的模型,但是我把 API 做好,甚至我把我们已经训练好的模型先放出来,然后你自己有一些数据以后,也能够在我的模型基础上去微调出一个符合你业务场景的模型,让更多的人参与到这个游戏里面来。这是我们在空间理解这块做的。就像空间生成,其实我们也会在年底的时候发布一个跟空间生成相关的大模型出来。
也是同样的逻辑,并非一定要技术人员才能创业。我们希望更多的产品经理也能够跳出来用起来,然后把商业模式……因为其实在 AI 时代,技术很关键,但是另外,对产品的定义、对用户的定义,以及用户数据和模型的飞轮,其实也是一个 AI 企业,尤其是 AI 初创企业,能够成功的关键。
唐小引:最后总结一下。从空间智能的技术发展上来看,比如数据、算力、模型这些方面,在接下来的一段时间(可以是短期或长期),还会有哪些关键的突破?这是技术发展。然后相应地体现到人,回归到人身上。
现在我理解空间智能开始被越来越多的开发者知道,这可能核心得益于比如群核是杭州六小龙之一,比如李飞飞这位知名的 AI 学者也在投身这个方向。但很多人可能刚从陌生到逐渐了解,您有哪些思考和建议,可以分享给希望投身空间智能领域的人?
唐睿:这很难说。在前 AI 时代,或者说再往前一两年,都是人在开发 AI,现在你已经能够看到……就像 xAI 他们已经在做的一些事情,包括我觉得这可能也是 CSDN 在致力研究的一些事情,就是 AI 真的是在参与到 AI 的开发过程里面去了。所以当这个循环转起来以后,AI 的发展技术是非常可怕的。
当然,提到空间智能它的突破点,我觉得等硬件。
从软件的角度说,AI 已经能开发 AI 了。算力不由我们决定,我们搞不了芯片。然后从数据的角度来说,如果要产生一个爆点,这个爆点一定是在我们对现实的创作,或者说我们创作 3D 空间的方式上。原来创作 3D 空间的方式,刚才提到只能是设计师去设计。当每个人都可以对空间进行捕获、进行还原的时候,它会是一个爆点。这个爆点我觉得应该两年,可能 24 个月。
第二个问题其实这也是我们团队里搞科研时会定义的一个态度。一个思维态度是Be Critical, Be Creative,就是用批判和创造性的态度去看问题。另外,在能力角度,不能光想,想法本身不值钱,你一定要去做实现。
所以做空间智能的时候,可能也跟我自身的经历有关,我做过图形学。图形学里面我们不光是像 CV 里看到这个东西是蓝色就是蓝色,当我这个灯换成一个红色的光时,它照下来就是紫色了。所以把这种批判和创造性的理念放到多个领域里面去,会有很大的帮助。
唐小引:所以我理解还是思维上的转变。
唐睿:其实也不是,咱们科研工作者都得持续地保持这样一种,说白了就是进取的态度。
唐小引: 好的,谢谢唐老师为我们带来的精彩分享。谢谢大家,下次再见。( 投稿或寻求报道:zhanghy@csdn.net )
↓想要观看完整视频的小伙伴可戳~
关于《万有引力》:
这是由 CSDN &《新程序员》执行总编唐小引主理的对话栏目。技术趋势多变,一不留神总担心错过。正在发生的技术事件,对于我们开发者意味着什么?我们面临的诸多困惑从何寻找答案?《万有引力》即志在于此,直面事件与困惑,抽丝剥茧,解读技术真相。
栏目定位:一档面向开发者群体,聚焦解读技术真相的对话栏目。
视频观看平台:CSDN 视频号、CSDN 网站 & App
多形式:文章、视频、音频都会有,持续关注 CSDN 公众号都可获取,欢迎大家关注!
热门跟贴