对话杭州六小龙群核科技：目前视频生成工具，临近GPT3.5时刻|六小龙|大模型|杭州|算法|群核科技

群核科技董事长黄晓煌

2025年，同Agent一样火的概念是“空间智能”。AI教母李飞飞称，空间智能是AI的下一个前沿。国内群核科技，一直在空间智能领域有很大投入。

12月9日，群核科技2025酷+大会结束后，CEO陈航和董事长黄晓煌以及负责AI产品的龙天泽，三人一起接受媒体群访。

因为一直在三维世界深耕底层能力，如渲染引擎、GPU超级计算，基于底层能力上的软件产品也大多服务B端客户，以至于让群核科技不被外界熟知。实际上，群核科技同深度求索（DeepSeek）、宇树科技等公司并称为杭州六小龙，成立10余年来已获得十几轮融资。

陈航和黄晓煌是浙大竺可桢学院同寝室的舍友，两人毕业后均赴美留学，黄晓煌还短暂在英伟达任职过。2011年两人回国创立群核科技，黄晓煌担任董事长，陈航出任CEO。

在这次大会上，陈航提出一个观念，当AI开始迈向三维世界，需要空间智能的“卖水人”，而群核科技开放底层能力，要成为空间智能的“卖水人”。

从二维世界进入到三维世界，AI进化的最大问题是缺失高质量、结构化的物理世界数据。我们了解到，过去十余年，群核科技3D空间的数据呈现出指数级的增长，目前已经有超过5亿个3D场景。这个庞大数据集，对训练垂类模型优势很大，但对通用空间大模型的训练而言，还只能算是毛毛雨。

“空间智能，如果以ChatGPT的发展演变比较的话，还相当于GPT2.0 或者2.5的时代，这其中最关键的还是数据问题。”群核科技的首席科学家周子寒告诉我们，和大语言模型不同，网络上现成的数据很多，而空间智能适用的存量数据远远不够。

从GPT2.0到GPT3.0，大模型参数量从15亿涨到上千亿，有百倍的增长。而对于更前沿的三维数据，想要实现模型拐点，需要多少数据集完全是未知。

群核科技的路线演变，朝着一个更有野心的方向。借助Aholo平台，把更多的底层技术能力开放给生态伙伴，汇集更多的3D数据，反哺给空间大模型，不断提升性能，从而形成一个闭环或者数据飞轮。

相比以往，群核科技还有一个新的变化，将业务从面向B端客户的SAAS软件，延伸到C端。比如此次发布的LuxReal视频生成工具，和当前市场上的视频生成工具不同，它们依托底层物理空间的技术能力，实现3D建模，相当于为视频里的主体一致性多构建了一道防护墙。

因此，LuxReal生成视频里的主体在360度旋转，或者做一些复杂动作时，肉眼察觉不出主体有任何变形。从最早推出家装设计类工具酷家乐（海外版COOHOM），到现在的LuxReal，群核已经有4、5个主要产品。黄晓煌说，无论哪个产品增长更快，对平台和底层能力的需求，都会引发快速增长。

以下是包括白鲸实验室在内的多家媒体与群核科技的对话，为了方便阅读，内容做了精简处理。

空间大模型是世界大模型的解法

问：现在空间智能是大家非常关注的话题，你们如何定义空间大模型？它和世界大模型的区别是什么？

龙天泽：现在讨论比较多的一个是世界模型，一个是空间大模型，两者有很多的共通之处，像世界模型，大家有各种不同的解法，我觉得空间大模型是世界模型的一种解法。有一种流派的做法是，用前面几帧的图片来推测下一帧的图片，这里面还没有太多空间的概念，而是靠一个物理世界运作的逻辑。

这或许有点抽象。人类对于世界的理解，不是基于眼睛看到的东西去做推测，比如说人看到一个水瓶被扔了出去，可以精确预测到它被抛出去后的轨迹，这是依靠大脑直接推理出来的。

另外一个流派就像我们做的，先把三维重建起来，把各种物理模型模拟出来，恢复水平的物理信息，然后它被扔向空中后，怎么自由落体，都是根据物理规则算出来的。

这两个流派的做法不太一样，但都属于世界模型的一种。到底人类是怎么理解物理世界的，这也是学术界和工业界都在探索的方向。人类理解世界，肯定不是数学公式算出来的，最终机器人用哪一种方法，其实两个流派都在摸索。

问：你们一直强调物理世界正确，担不担心未来通用大模型，通过暴力学习把物理世界学会了？

黄晓煌：这是个很好的问题，我不排除这种暴力方法能学会物理的一致性。之前也一直说，我们更多是生态的一份子，大家都在推动解决这个问题，就像我们内部也会调用视频生成的大模型一起解决问题。

如果突然有人发现某个方法可以解决一致性问题，同时又能解决生存问题，高效训练的话，大家都用那个方法做就好了。我们创业挺多年，方法一直迭代，之前认为不可能的事情也逐渐变得可能，其实非常乐于见到类似像Sora（OpenAI）这类公司，用暴力方法解决所有问题，我们直接调用就行。

龙天泽：之前我们内部一直在讨论这个问题，答案是像Sora这样的视频模型，一定是会越来越接近物理真实的。但这里面涉及到第一性原理问题，我们不认为这种视频模型能从二维中学到三维的东西。

简单的物理场景下，算法会越来越能够实现一致性，所以有可能就不需要3D了。但群核的优势在于，现实世界一定不存在复杂的3D硬件和市场需求，而这些就是我们去满足的场景。

数据是有天花板的，文本模型现在已经遇到数据天花板，视图模型迟早也有这一天。而当全世界所有的视频都拿来训练一遍后，会发现它的物理规律很难再往上走一个台阶，这时候就是我们的优势。

问：空间模型和语言模型，有人认为语言才是攻克AGI的重要路径，有人可能会觉得是空间才是最重要的。你们怎么看？

龙天泽：李飞飞为什么会提出世界模型才是AI时代的下一个技术前沿？本质上，她认为这个世界的建模不是通过语言建模，而是通过三维空间去做的建模。这是第一性原理。

从技术上看，语言模型和空间大模型的技术并不冲突。大语言模型里的token在空间里变成提速信息，如果把训练数据换成提速信息，它就是一个新的空间大模型。其实在这里面算法可以迁移，只是训练数据会有不同。

未来可能10台机器人服务一个人

问：现在群核的客户里有一些扫地机器人，想问一下具身智能行业客户情况怎样？

黄晓煌：扫地机器人是我们客户里很小一部分，因为国内扫地机器人公司也就几家。我们很多的合作，大部分还是服务工业机器人，收入预期现在不能聊，属于静默期。但我们这方面的客户目前非常多。

问：一个中型具身智能的公司，会产生多大的需求？

黄晓煌：就这么说，机器人要学会在房间里搬椅子，起码要有10万个方案的训练，就干一件事情，你想想日常你要干多少事情？

问：怎么理解这10万个方案？

黄晓煌：比如说一个方案1000块，10万个方案，光买这个方案就要花一个亿。

问：你们很多产品已经在行业里得到了应用，面临的挑战是什么？

黄晓煌：我们仍然处于行业发展的初期，有各种各样挑战，有法规问题、技术问题，也有合作问题。

如果具体一点，机器人行业的挑战是算法没有形成共识，中国团队可能更倾向于真实数据，欧美团队更倾向于大量的合成数据。我们也没有办法改变大家对于正确做法的认知，也不确定谁对谁错。

但是我们能做的就是，让技术更好地去满足两者的需求，比如服务中国的客户，尽可能的采用重建技术，服务国外的客户就用生成技术。这两者用不同的方式去实现。

问：现在有种比较主流的说法，具身智能的训练数据来自数字世界和真实世界占比是9:1。

黄晓煌：我们有的客户是用9:1的配比，但这里面随着技术的变化，配比也一直在变化。就像陈航（群核科技CEO）今天讲的3D重建产品，不断在缩短数字世界跟物理世界的信息差距，数字世界里的数据尽可能接近于完全真实的世界。

这也是我们努力的方向，我相信，数字世界里面的训练占比还会继续提升。

问：工业智能在全球AI界都非常火热，在可预见的未来，空间智能会长成什么样子？它会成为互联网下一代的水电煤吗？

黄晓煌：我前段时间在乌镇大会上也说了，未来可能会由10台机器人服务一个人。这时，机器人不仅需要理解物理世界，还要能在复杂的物理世界工作，空间智能会非常关键，变成类似水电煤的基础设施。

但多长时间能够完全落地，让这些机器人能很好地服务一个人，这个时间不好预估。但我觉得未来肯定是往这方面发展的。

问：群核获得的数据更多是室内的空间数据。相对来说，室外的空间数据获取相对简单一点，但是LuxReal生成视频是全场景数据，这个问题是怎么解决的？

龙天泽：这里其实有两个角度，第一个角度是对比一下同行，目前同行的数据集我印象里都是小几万，或者是小几十万的级别。但我们第一版3D场景是104万，对外官方口径是4.41亿个3D模型（相当于最小的物体单元），其中可训练的数据至少能有几千万，所以第一版104万数据集，暂时没遇到不同行业不同场景的分布问题。

未来假设我们拓展到千万级别场景的数据，的确会遇到刚才说的问题，可能我们的数据更偏室内，室外场景怎么解决。

第二个角度是，3D世界跟其他不同的是材质表现。举个例子，木纹在室内是地板，在室外就是木头，这对于3D而言，材质其实是一个更基础的训练信息，而模型训练使用的室内数据，其实已经包含了大量室外所需要具备的材质信息。室外3D资产的材质，我们室内数据也是有的，只是分布会有一些不一样。

从以上两个角度看，我们本身庞大的数据池，可能是一个断崖式领先的数据量。因为3D和材质的这种属性化差异，使得这种按行业或者场景划分，并不一定是最科学的方法，反而不会成为我们的瓶颈。

当前的视频生成工具接近GPT3.5时刻

问：跟Sora相比，你们新发布的视频生成工具LuxReal的独特竞争优势是什么？

龙天泽：我们开拓新产品的起点有两类，一类是从技术本身考虑，一类是从商业角度考虑。LuxReal是基于技术第一性原理考虑的。举个简单的例子，比如现在为什么会有transformer，是因为上一代的循环神经网络底层有根本缺陷，现在的视频算法，其实像是在二维像素层面去模拟三维空间。

我们会认为，如果现实世界有高保全需求还原的场景，3D重建一定是必不可少的一步。所以LuxReal的初心是，如何用三D重建模态提升视频的一致性，比如像电商营销、短剧，我们这个技术出来了以后，去找市场上的垂直商业节点。

跟Sora的区别是，我们完成了真实的3D建模步骤，那意味着可以更好实现空间一致性，因为3D本身就是空间一致性的。而现有的一些产品主要靠视频模型去控制，视频模型的原理是在每一帧连续的运行下去猜下一帧，才能保持空间一致性。从技术上看，一定是有了3D建模加持的视频生成模型，才能在一致性上更具可控性。

举个极端例子，Sora如果开源了，我们马上能把Sora的能力也调过来，基于我们的3D建模做出比Sora更棒的视频。所以我们跟市场上友商的关系是，若他们愿意把API或者跟底层的一些接口能力开放出来，和我们的3D管线做嵌套对接，完全可以合作生成一致性更好的视频。

问：现在市面上的视频生成工具生成时间比较短，从时长上看挑战是什么？

龙天泽：目前生成时间其实取决于GPU的显存，算法参数量的大小。当下因为我们聚焦的场景，比如说是某些短剧和营销视频，单分镜生成时间大概是5~6秒。我们是一个智能体，会基于一个需求先生成故事，然后生成不同的分镜头，最后拼在一起。

整个过程还能加入语音、音乐等，最后时长可以自定义10秒、20秒、30秒，但单分镜大概上限是6秒左右。

问：LuxReal，如果对比现在的语言类模型，它处于一个什么样的阶段？

龙天泽：LuxReal是多种算法能力叠加在一起，所以如果按商业落地性来说的话，相当于达到GPT3.5，接近商业化可落地的拐点。在我看来，至少在某些垂直营销领域接近这个时刻，已经可以从所谓的一个创业demo，变成一个真正可以端到端交付的营销视频产出。

问：你们已经推出多个产品面向市场，为什么还要做一个Aholo开放平台？

黄晓煌：我们其实最核心的是空间智能的能力，包括渲染、空间的理解、生成这类的算法，原来是放在内部，这次把这些能力开放出来，通过Aholo平台，像酷家乐，或者今天发布的LuxReal等这类产品，都是建立在我们的核心能力上面。

群核科技Aholo空间智能开放平台全景图

这些产品哪一个成长得更快，我们不确定，但对底层能力的需求以及增长一定会很快。

问：Aholo开放平台延伸为空间重建、生成、编辑和理解，这几类产品现在市场需求情况如何，主要壁垒在哪？

黄晓煌：目前我觉得壁垒体现在几个方面，一是从技术难度上看，肯定是空间生成和空间理解，技术难度是高的，要说谁最高我也不确定。这两个技术难度的天花板都非常高。

空间的重建，目前看需求大，技术壁垒暂时没那么高。因为我们在宣推重建时，更多的是解决过去大家争论的，真实世界和数字世界的数据之间有gap。有了重建，这个gap就小了很多。

它的难点不在于算法本身，而是经营难题。你要能支持市面上各种各样的硬件。因为各家机器人企业的硬件设备都不一样，可能有成百上千种，每一种的数据格式和形态都不同。能不能把每一种形态都顺利支持，建立一个数据互联互通，这可能是另外一个难题，我们也在解决。

问：你们自称是一个拿着锤子找钉子的商业模式，刚刚开始去做酷家乐，一直到现在推出了一个工业AI孪生平台，这种看起来成熟的打法，在你们内部是怎么确定的？

黄晓煌：工业AI孪生平台SpatialTwin这种产品，我们很多年前就想过要做，但有碍于技术或市场条件，一直没推出来。很多时候都是外部环境变化了，憋了很多年的技术突然就可以上线了。

技术变化是可以提前被预见的，而市场变化则是无法预料的。就像去年发布会上，我绝对不知道今年的人形机器人、DeepSeek会这么火，社会变化太快了，至少我们还在牌桌上，也没有miss时代的机遇。

我们一直两条腿走路，一个前沿技术研究的团队在做技术探索，锤子始终在找钉子到来的机会。当钉子因为技术演变到了这个节点，我们就会快速跟上，这是中小厂的特点。它可以小步快跑，迅速迭代，可以先用市场来验证，再继续往前去走。

撰写｜刘培

编辑｜吴寻

「白鲸实验室」原创文章

转载、交流、合作请添加微信：liujiaquan2025

对话杭州六小龙群核科技：目前视频生成工具，临近GPT3.5时刻

热搜

热门跟贴

热搜

热门跟贴

相关推荐

大模型的下半场，属于拥有云+AI全栈引擎的玩家

不平衡数据下对比学习的理论分析：从训练动态到剪枝解决方案

行业最大规模具身数据集：10Kh RealOmni-Open DataSet

智谱加入“养龙虾”潮，AI Agent进入“干活时代”

行业最大规模具身数据集！出自简智机器人GenRobot.AI

全民装虾，一戳就破的AI幻觉

别再让大模型“想太多”！最新研究揭示 LLM 推理效率的关键瓶颈

携程招招招人啦！150-200/天！周末双休&节日福利！氛围轻松！

太扎心！34 岁杭州大厂程序员被裁当场痛哭，28 万补偿杯水车薪！

真心劝大家，不要把命押在别人的算法上！

身高还能这么算？这算法比计算机都严谨，看完悟了！

深度剖析东大对萨德问题态度转变的内在逻辑，一起来听听

东华软件：神农新论主要是农业大模型，目前细分模型是糖业大模型，已与客户达成合作

【动态】徐汇区举办“护航大模型·预审加速——专利预审模速空间专场辅导”活动

不要捏，不要踩，杭州街头正大量出现！不少人吐槽：苦不堪言

VESPA 80周年骑遇派对，招募开启！

杭籍、非杭籍在杭州退休的区别！

大风315 | 游客称飞3000公里在西双版纳一景区游玩，因明星录制综艺节目被清场；景区：具体情况需由游客回应

机器人捡零件拼装自己，只为活下去

是时候展示真正的技术了，这球看的太过瘾，球拍差点都抡出火星子