打开网易新闻 查看精彩图片

群核科技董事长黄晓煌

2025年,同Agent一样火的概念是“空间智能”。AI教母李飞飞称,空间智能是AI的下一个前沿。国内群核科技,一直在空间智能领域有很大投入。

12月9日群核科技2025酷+大会结束后,CEO陈航和董事长黄晓煌以及负责AI产品的龙天泽三人一起接受媒体群访。

因为一直在三维世界深耕底层能力,如渲染引擎、GPU超级计算,基于底层能力上的软件产品也大多服务B端客户,以至于让群核科技不被外界熟知。实际上,群核科技同深度求索(DeepSeek)、宇树科技等公司并称为杭州六小龙,成立10余年来已获得十几轮融资。

陈航和黄晓煌是浙大竺可桢学院同寝室的舍友,两人毕业后均赴美留学,黄晓煌还短暂在英伟达任职过。2011年两人回国创立群核科技,黄晓煌担任董事长,陈航出任CEO。

在这次大会上,陈航提出一个观念,当AI开始迈向三维世界,需要空间智能的“卖水人”,而群核科技开放底层能力,要成为空间智能的“卖水人”。

从二维世界进入到三维世界,AI进化的最大问题是缺失高质量、结构化的物理世界数据。我们了解到,过去十余年,群核科技3D空间的数据呈现出指数级的增长,目前已经有超过5亿个3D场景。这个庞大数据集,对训练垂类模型优势很大,但对通用空间大模型的训练而言,还只能算是毛毛雨。

“空间智能,如果以ChatGPT的发展演变比较的话,还相当于GPT2.0 或者2.5的时代,这其中最关键的还是数据问题。”群核科技的首席科学家周子寒告诉我们,和大语言模型不同,网络上现成的数据很多,而空间智能适用的存量数据远远不够。

从GPT2.0到GPT3.0,大模型参数量从15亿涨到上千亿,有百倍的增长。而对于更前沿的三维数据,想要实现模型拐点,需要多少数据集完全是未知。

群核科技的路线演变,朝着一个更有野心的方向。借助Aholo平台,把更多的底层技术能力开放给生态伙伴,汇集更多的3D数据,反哺给空间大模型,不断提升性能,从而形成一个闭环或者数据飞轮。

相比以往,群核科技还有一个新的变化,将业务从面向B端客户的SAAS软件,延伸到C端。比如此次发布的LuxReal视频生成工具,和当前市场上的视频生成工具不同,它们依托底层物理空间的技术能力,实现3D建模,相当于为视频里的主体一致性多构建了一道防护墙。

因此,LuxReal生成视频里的主体在360度旋转,或者做一些复杂动作时,肉眼察觉不出主体有任何变形。从最早推出家装设计类工具酷家乐(海外版COOHOM),到现在的LuxReal,群核已经有4、5个主要产品。黄晓煌说,无论哪个产品增长更快,对平台和底层能力的需求,都会引发快速增长。

以下是包括白鲸实验室在内的多家媒体与群核科技的对话,为了方便阅读,内容做了精简处理。

01

空间大模型是世界大模型的解法

问:现在空间智能是大家非常关注的话题,你们如何定义空间大模型?它和世界大模型的区别是什么?

龙天泽:现在讨论比较多的一个是世界模型,一个是空间大模型,两者有很多的共通之处,像世界模型,大家有各种不同的解法,我觉得空间大模型是世界模型的一种解法。有一种流派的做法是,用前面几帧的图片来推测下一帧的图片,这里面还没有太多空间的概念,而是靠一个物理世界运作的逻辑。

这或许有点抽象。人类对于世界的理解,不是基于眼睛看到的东西去做推测,比如说人看到一个水瓶被扔了出去,可以精确预测到它被抛出去后的轨迹,这是依靠大脑直接推理出来的。

另外一个流派就像我们做的,先把三维重建起来,把各种物理模型模拟出来,恢复水平的物理信息,然后它被扔向空中后,怎么自由落体,都是根据物理规则算出来的。

这两个流派的做法不太一样,但都属于世界模型的一种。到底人类是怎么理解物理世界的,这也是学术界和工业界都在探索的方向。人类理解世界,肯定不是数学公式算出来的,最终机器人用哪一种方法,其实两个流派都在摸索。

:你们一直强调物理世界正确,担不担心未来通用大模型,通过暴力学习把物理世界学会了?

黄晓煌:这是个很好的问题,我不排除这种暴力方法能学会物理的一致性。之前也一直说,我们更多是生态的一份子,大家都在推动解决这个问题,就像我们内部也会调用视频生成的大模型一起解决问题。

如果突然有人发现某个方法可以解决一致性问题,同时又能解决生存问题,高效训练的话,大家都用那个方法做就好了。我们创业挺多年,方法一直迭代,之前认为不可能的事情也逐渐变得可能,其实非常乐于见到类似像Sora(OpenAI)这类公司,用暴力方法解决所有问题,我们直接调用就行。

龙天泽:之前我们内部一直在讨论这个问题,答案是像Sora这样的视频模型,一定是会越来越接近物理真实的。但这里面涉及到第一性原理问题,我们不认为这种视频模型能从二维中学到三维的东西。

简单的物理场景下,算法会越来越能够实现一致性,所以有可能就不需要3D了。但群核的优势在于,现实世界一定不存在复杂的3D硬件和市场需求,而这些就是我们去满足的场景。

数据是有天花板的,文本模型现在已经遇到数据天花板,视图模型迟早也有这一天。而当全世界所有的视频都拿来训练一遍后,会发现它的物理规律很难再往上走一个台阶,这时候就是我们的优势。

空间模型和语言模型,有人认为语言才是攻克AGI的重要路径,有人可能会觉得是空间才是最重要的。你们怎么看?

龙天泽:李飞飞为什么会提出世界模型才是AI时代的下一个技术前沿?本质上她认为这个世界的建模不是通过语言建模,而是通过三维空间去做的建模。这是第一性原理。

从技术上看,语言模型和空间大模型的技术并不冲突。大语言模型里的token在空间里变成提速信息,如果把训练数据换成提速信息,它就是一个新的空间大模型。其实在这里面算法可以迁移,只是训练数据会有不同。

02

未来可能10台机器人服务一个人

问:现在群核的客户里有一些扫地机器人,想问一下具身智能行业客户情况怎样?

黄晓煌:扫地机器人是我们客户里很小一部分,因为国内扫地机器人公司也就几家。我们很多的合作,大部分还是服务工业机器人,收入预期现在不能聊,属于静默期。但我们这方面的客户目前非常多。

:一个中型具身智能的公司,会产生多大的需求?

黄晓煌:就这么说,机器人要学会在房间里搬椅子,起码要有10万个方案的训练,就干一件事情,你想想日常你要干多少事情?

:怎么理解这10万个方案?

黄晓煌:比如说一个方案1000块,10万个方案,光买这个方案就要花一个亿。

:你们很多产品已经在行业里得到了应用,面临的挑战是什么?

黄晓煌:我们仍然处于行业发展的初期,有各种各样挑战,有法规问题、技术问题,也有合作问题。

如果具体一点,机器人行业的挑战是算法没有形成共识,中国团队可能更倾向于真实数据,欧美团队更倾向于大量的合成数据。我们也没有办法改变大家对于正确做法的认知,也不确定谁对谁错。

但是我们能做的就是,让技术更好地去满足两者的需求,比如服务中国的客户,尽可能的采用重建技术,服务国外的客户就用生成技术。这两者用不同的方式去实现。

现在有种比较主流的说法,具身智能的训练数据来自数字世界和真实世界占比是9:1。

黄晓煌:我们有的客户是用9:1的配比,但这里面随着技术的变化,配比也一直在变化。就像陈航(群核科技CEO)今天讲的3D重建产品,不断在缩短数字世界跟物理世界的信息差距,数字世界里的数据尽可能接近于完全真实的世界。

这也是我们努力的方向,我相信,数字世界里面的训练占比还会继续提升。

工业智能在全球AI界都非常火热,在可预见的未来,空间智能会长成什么样子?它会成为互联网下一代的水电煤吗?

黄晓煌:我前段时间在乌镇大会上也说了,未来可能会由10台机器人服务一个人。这时,机器人不仅需要理解物理世界,还要能在复杂的物理世界工作,空间智能会非常关键,变成类似水电煤的基础设施。

但多长时间能够完全落地,让这些机器人能很好地服务一个人,这个时间不好预估。但我觉得未来肯定是往这方面发展的。

:群核获得的数据更多是室内的空间数据。相对来说,室外的空间数据获取相对简单一点,但是LuxReal生成视频是全场景数据,这个问题是怎么解决的?

龙天泽:这里其实有两个角度,第一个角度是对比一下同行,目前同行的数据集我印象里都是小几万,或者是小几十万的级别。但我们第一版3D场景是104万,对外官方口径是4.41亿个3D模型(相当于最小的物体单元),其中可训练的数据至少能有几千万,所以第一版104万数据集,暂时没遇到不同行业不同场景的分布问题。

未来假设我们拓展到千万级别场景的数据,的确会遇到刚才说的问题,可能我们的数据更偏室内,室外场景怎么解决。

第二个角度是,3D世界跟其他不同的是材质表现。举个例子,木纹在室内是地板,在室外就是木头,这对于3D而言,材质其实是一个更基础的训练信息,而模型训练使用的室内数据,其实已经包含了大量室外所需要具备的材质信息。室外3D资产的材质,我们室内数据也是有的,只是分布会有一些不一样。

从以上两个角度看,我们本身庞大的数据池,可能是一个断崖式领先的数据量。因为3D和材质的这种属性化差异,使得这种按行业或者场景划分,并不一定是最科学的方法,反而不会成为我们的瓶颈。

03

当前的视频生成工具接近GPT3.5时刻

:跟Sora相比,你们新发布的视频生成工具LuxReal的独特竞争优势是什么?

龙天泽:我们开拓新产品的起点有两类,一类是从技术本身考虑,一类是从商业角度考虑。LuxReal是基于技术第一性原理考虑的。举个简单的例子,比如现在为什么会有transformer,是因为上一代的循环神经网络底层有根本缺陷,现在的视频算法,其实像是在二维像素层面去模拟三维空间。

我们会认为,如果现实世界有高保全需求还原的场景,3D重建一定是必不可少的一步。所以LuxReal的初心是,如何用三D重建模态提升视频的一致性,比如像电商营销、短剧,我们这个技术出来了以后,去找市场上的垂直商业节点。

跟Sora的区别是,我们完成了真实的3D建模步骤,那意味着可以更好实现空间一致性,因为3D本身就是空间一致性的。而现有的一些产品主要靠视频模型去控制,视频模型的原理是在每一帧连续的运行下去猜下一帧,才能保持空间一致性。从技术上看,一定是有了3D建模加持的视频生成模型,才能在一致性上更具可控性。

举个极端例子,Sora如果开源了,我们马上能把Sora的能力也调过来,基于我们的3D建模做出比Sora更棒的视频。所以我们跟市场上友商的关系是,若他们愿意把API或者跟底层的一些接口能力开放出来,和我们的3D管线做嵌套对接,完全可以合作生成一致性更好的视频。

:现在市面上的视频生成工具生成时间比较短,从时长上看挑战是什么?

龙天泽:目前生成时间其实取决于GPU的显存,算法参数量的大小。当下因为我们聚焦的场景,比如说是某些短剧和营销视频,单分镜生成时间大概是5~6秒。我们是一个智能体,会基于一个需求先生成故事,然后生成不同的分镜头,最后拼在一起。

整个过程还能加入语音、音乐等,最后时长可以自定义10秒、20秒、30秒,但单分镜大概上限是6秒左右。

LuxReal,如果对比现在的语言类模型,它处于一个什么样的阶段?

龙天泽:LuxReal是多种算法能力叠加在一起,所以如果按商业落地性来说的话,相当于达到GPT3.5,接近商业化可落地的拐点。在我看来,至少在某些垂直营销领域接近这个时刻,已经可以从所谓的一个创业demo,变成一个真正可以端到端交付的营销视频产出。

:你们已经推出多个产品面向市场,为什么还要做一个Aholo开放平台?

黄晓煌:我们其实最核心的是空间智能的能力,包括渲染、空间的理解、生成这类的算法,原来是放在内部,这次把这些能力开放出来,通过Aholo平台,像酷家乐,或者今天发布的LuxReal等这类产品,都是建立在我们的核心能力上面。

打开网易新闻 查看精彩图片

群核科技Aholo空间智能开放平台全景图

这些产品哪一个成长得更快,我们不确定,但对底层能力的需求以及增长一定会很快。

:Aholo开放平台延伸为空间重建、生成、编辑和理解,这几类产品现在市场需求情况如何,主要壁垒在哪?

黄晓煌:目前我觉得壁垒体现在几个方面,一是从技术难度上看,肯定是空间生成和空间理解,技术难度是高的,要说谁最高我也不确定。这两个技术难度的天花板都非常高。

空间的重建,目前看需求大,技术壁垒暂时没那么高。因为我们在宣推重建时,更多的是解决过去大家争论的,真实世界和数字世界的数据之间有gap。有了重建,这个gap就小了很多。

它的难点不在于算法本身,而是经营难题。你要能支持市面上各种各样的硬件。因为各家机器人企业的硬件设备都不一样,可能有成百上千种,每一种的数据格式和形态都不同。能不能把每一种形态都顺利支持,建立一个数据互联互通,这可能是另外一个难题,我们也在解决。

问:你们自称是一个拿着锤子找钉子的商业模式,刚刚开始去做酷家乐,一直到现在推出了一个工业AI孪生平台,这种看起来成熟的打法,在你们内部是怎么确定的?

黄晓煌:工业AI孪生平台SpatialTwin这种产品,我们很多年前就想过要做,但有碍于技术或市场条件,一直没推出来。很多时候都是外部环境变化了,憋了很多年的技术突然就可以上线了。

技术变化是可以提前被预见的,而市场变化则是无法预料的。就像去年发布会上,我绝对不知道今年的人形机器人、DeepSeek会这么火,社会变化太快了,至少我们还在牌桌上,也没有miss时代的机遇。

我们一直两条腿走路,一个前沿技术研究的团队在做技术探索,锤子始终在找钉子到来的机会。当钉子因为技术演变到了这个节点,我们就会快速跟上,这是中小厂的特点。它可以小步快跑,迅速迭代,可以先用市场来验证,再继续往前去走。

撰写|刘培

编辑|吴寻

「白鲸实验室」原创文章

转载、交流、合作请添加微信:liujiaquan2025