打开网易新闻 查看精彩图片

出品|虎嗅科技组

作者|宋思杭

编辑|苗正卿

头图|《华尔街之狼》剧照

虎嗅注:世界模型是属于00后的任务。在具身智能、世界模型行业,我们已经看到了太多00后和“天才少年”。而今天我们聊的这个团队,也几乎全部由00后组成,他们也是当下估值最高的AI圈00后团队之一。“AI原生100”是虎嗅科技组推出针对AI原生创新栏目,这是本系列的第「58」篇文章。

00后陈博远今年刚从北大元培毕业,他另一个身份是逆矩阵创始人。

2026年初,尚未毕业的陈博远创立了逆矩阵,首轮即获得高瓴和北大系基金超千万美元投资,到今天,这家公司即将完成新一轮过亿美元融资,估值超50亿元人民币。

这也是“00后创立的AI公司”中,估值最高的公司之一。

“大家都希望看到年轻人在AI时代下做出一些不一样的创新突破。”陈博远对虎嗅说道

陈博远的团队在做的事情是“通用世界基座模型”,他们的英文名字叫Physis。Physis(φύσις)是physics(物理)的希腊词根,通常译为“自然”,其更本源的词义是“生长、生成”——指向回到自然与物理的本源去理解世界如何运转。

故事回溯到逆矩阵还未成立的时候,陈博远还是北大元培学生期间便已崭露头角,当时,他就已经凭借强化学习和大模型的研究获得ACL最佳论文;与此同时,那一届ACL中,内地另外一篇最佳论文则来自DeepSeek团队。从某种意义上讲,这个团队曾经还和DeepSeek“并肩”过。

关于通用世界基座模型,经常有投资人提出质疑。在陈博远看来,“基模”这个概念如今放在行业似乎被误解了。

“投资人在听到‘基模’这个词的时候,会天然有一些偏见。因为他们见过很多团队只是拿开源模型,用部分数据做微调,最后包装成一个预训练故事。但实际上,我们是从头开始搭建整个预训练架构。”陈博远对虎嗅解释道。

而在融资速度上,逆矩阵并不算这个行业里最激进的一批公司。“我们不急着融资,而是希望踏实做技术第一性的突破。”陈博远告诉虎嗅。

而这也是他与智源研究院结缘的原因。虎嗅获悉,陈博远已于4月16日正式以逆矩阵创始人的身份,担任智源研究院行为世界模型创新中心负责人,直接向智源研究院院长王仲远汇报。

2025年11月,虎嗅曾与王仲远有过一次对话。当时他告诉虎嗅,智源没有太强的组织层级;相比商业化,研究始终是更核心的事情。但在具身智能时代,智源同样会背负一种使命——去成为一个类似Deepmind的角色。

目前,我们看到的大模型明星公司中,已经有相当一部分与智源研究院存在关联,包括银河通用、智谱AI、月之暗面和面壁智能。其中,前三家公司估值均已超过百亿元,智谱AI已完成上市。

行为世界模型创新中心是智源研究院专门设立的前沿创新中心,用于支持下一代通用世界基座模型的研发与创新,承担更大规模、更系统的前沿攻坚。陈博远以逆矩阵创始人的身份,兼任这一中心的负责人,聚焦通用世界基座模型最底层的探索与前沿试验,并将已经验证的世界模型能力放大到更通用、更大规模的场景里去落地。两个角色彼此赋能、互为支撑,推动同一件事:让AI真正理解物理规律。技术愿景是统一的,凝聚共同的力量去逼近同一个目标。

近期,虎嗅与逆矩阵创始人陈博远进行了深入对话。我们谈到了通用世界基座模型与垂类世界模型的概念、区别与联系;世界模型目前存在的卡点,以及世界基座模型如何解决具身智能所缺失的数据问题;当然,也包括这个平均年龄00后的团队本身。

以下为虎嗅和陈博远的精选对话:

“世界模型一定会迎来自己的GPT-3时刻”

“世界模型一定会迎来自己的GPT-3时刻”

虎嗅:你们做的是通用世界基座模型。但现在行业里,很多公司都在讲“世界模型”,而且每家的定义都不太一样。所以我想知道,逆矩阵现在做的这个“通用世界基座模型”,核心到底是什么?背后的行业洞察又是什么?为什么你们会选择做这件事?

陈博远:我觉得这个问题非常关键。现在行业里几乎anything is a world model(一切皆是世界模型),所有人都在讲世界模型。但我认为,世界模型今天其实还处于一个“百家争鸣”的阶段。我们更想回到第一性原理去看这件事。

过去几年,大语言模型让AI学会了处理文本和知识,但AI未来一定会从虚拟世界走向真实的物理世界。无论是游戏物理,还是工业产线,本质上都处在一个连续、不确定、且受到复杂物理约束的环境里。

在这个过程中,AI不仅要理解文字,还需要真正理解重力、接触、因果等物理规律,它们其实共享同一个底层事实:对于物理一致性和物理正确性的要求,是硬约束。

同时,一个场景里学到的物理规律,本身也是可以迁移的。物理定律不会因为场景变化而改变。

所以我们的核心判断是:未来一定会出现一个能够跨场景迁移的通用物理世界模型,它会成为AI走向物理世界的基础设施。

现在行业里的很多世界模型关注于解决特定场景的问题。有人做3D世界模型,有人做游戏世界模型,也有人做具身世界模型。但我们更强调的是,不同垂类场景背后的物理规律,其实是通用的。

就像今天的大语言模型,可以同时处理金融、法律、代码等不同任务。我们也希望未来存在一个通用的世界基座模型,再基于它去适配不同下游场景。

虎嗅:那么,通用世界基座模型和“世界模型”本身,它们的区别和联系是什么?以及为什么你一定要强调“基座”这两个字?

陈博远:我觉得可以类比自动驾驶。自动驾驶会有L0到L5的分级。L0到L2,本质上还是需要大量人工干预;而L3以上,其实代表的是一个自主性能力的阶跃,不只是技术能力变化,也意味着应用市场的扩大。

世界模型其实也会存在类似的W0到W5体系。现在行业里很多所谓的世界模型,本质上还停留在W0或者W1阶段。

比如OpenAI在Sora时期提出“世界模拟器”概念,很多视频生成模型,本质上是在学习世界的连贯表征,生成流畅、好看的视频;再比如谷歌的Genie 3这类可交互世界模型,它已经能够响应动作交互,但本质上还是偏“游戏世界”。这类模型更多解决的是影视、游戏等内容生成问题。

但物理AI不只是游戏,也不只是影视。真正的严肃工业场景、具身智能、物理仿真、交互世界、科学预测科技计算、工业仿真、工业安全验证,面对的是大量复杂物理约束,它需要的是W2+模型。

W2最核心的特征,就是“真正懂物理”。所以我们强调“通用世界基座模型”,首先它必须是一个W2+模型;其次,它不只是解决某一个垂类场景,而是希望用同一套物理规律,去解决不同物理场景的问题。

今天很多行业已经有领域专用的世界模型,比如自动驾驶世界模型。但它们往往只能解决单一场景的问题。

而我们回到第一性原理会发现,很多物理规律其实天然是通用的。它既是one for all,也是all for one。

不同物理场景的数据和学习过程,本质上遵循的是同一套物理范式,所以不同场景之间其实能够互相增强。最终,我们希望用一个统一的通用世界基座模型,在不同垂类场景里,达到比领域专用模型更好的效果。

如果继续往下划分:

W2解决的是“物理专业性”;

W3解决的是“跨领域能力”;

W4才是真正意义上的通用泛化。

这其实有点像大语言模型的发展过程。

2023、2024年的时候,行业里还会强调金融大模型、法律大模型这些垂类模型;但随着通用大模型能力提升,很多任务开始被统一,zero-shot、few-shot就能泛化解决。

我们认为,物理世界未来也会走向同样的路径。

虎嗅:有人认为世界模型更接近Scaling Law这条路线,也有人坚持做VLA。所以你觉得今天世界模型最大的卡点是什么?以及你们现在做的通用世界基座模型,卡点又是什么?

陈博远:我觉得这是一个特别关键的问题。

我们其实非常认可Scaling Law背后的底层逻辑。大语言模型之所以成功,本质上是因为它符合第一性原理,比如next token prediction这种非常简单、统一的目标。随着数据量、模型规模提升,它就能不断压缩语言里的智能。

但世界模型没办法简单复用“大语言模型那套路径”,原因有三个。

第一个是数据问题。互联网文本可以无限爬取,但物理交互数据不一样。真正的物理数据,要么来自真实世界采集,要么来自仿真构建,它不是一个能无限堆积的数据体系。

第二个问题是,像素不等于物理。今天很多世界模型还是建立在视频、图像这些视觉输入上,但视频里90%的信息其实是纹理、光照、运动模糊,这些东西和物理规律本身没关系,反而会成为模型学习物理的负担。模型花了大量参数去拟合“光长什么样”,但这并不是核心矛盾。

第三个问题,也是最核心的问题:相关性不等于因果性。大语言模型本质上是一种“观察式学习”。你见过越多数据,就越容易学习相关性。但物理世界真正重要的是因果。

所以仅靠观察,模型学到的是统计相关性,而不是真正的物理因果。因此,我们认为通用世界基座模型一定会走一条新的Scaling路径。真正的Scaling,不应该发生在token空间或者像素空间,而应该发生在“物理隐空间”。

也就是说,我们需要模型学习一种更加抽象的物理表征。这有点像人类的大脑。比如我们看到一个杯子快倒了,会自然预测水可能怎么洒出来。这个过程,本质上就是一种高维物理隐空间里的推演。

第二个关键点,是必须原生引入Action。因为物理理解本身来自交互,而不仅仅是观察。比如你不去搬一个东西,就无法真正理解它的重量;不去掰一个物体,就无法理解它的刚性。所以世界模型不能只是“看世界”,它必须“和世界交互”。

模型需要学习的是:“在当前状态下,我采取动作A,会导致什么物理状态;采取动作B,又会导致什么结果。”也就是从“next token prediction”,转向“next physical state prediction”。

第三个关键点,是验证。为什么数学、代码、围棋这些领域能快速提升?因为它们可验证。强化学习之所以有效,本质上就是因为存在明确奖励信号。而物理世界其实同样是可验证的。

比如物体不会凭空消失、不会违反光滑性约束,这些都可以被验证。

所以我们认为,强化学习会是学习物理规律最高效的方法。最终,我们的路径其实是一个闭环:在物理隐空间里做压缩;原生引入动作交互;再通过强化学习完成验证。

我们内部已经观察到这样一条曲线存在:随着数据规模、模型参数量提升,当模型开始引入Action和强化学习之后,它在预测“下一个物理状态”时,泛化误差会持续下降,甚至开始出现类似“涌现”的能力。

所以我一直认为,世界模型未来一定会迎来自己的“GPT-3时刻”。

但这个时刻,不会是某个Benchmark刷榜。而是当模型真正能够随着算力、数据和交互规模提升,在真实物理世界里持续提升能力的时候。那才是世界模型真正属于自己的Scaling Law。

“世界基座模型不需要太多的真机数据”

“世界基座模型不需要太多的真机数据”

虎嗅:现在行业里很多人都会觉得,具身智能真正有效的数据其实并不多。那我刚刚听下来,通用世界基座模型对于数据的要求可能会更高一些。你们到底需要什么样的数据?它和VLA、传统世界模型所需要的数据有什么区别?

陈博远:现在很多人也在做自己的具身世界模型,它们主要依赖真机数据,微调机器人的动作输入输出,从而实现控制能力。

但对于通用世界基座模型来说,真机数据固然重要,但它不是唯一的数据来源。

我可以做一个类比。人类学习数学的时候,也不是一开始就学微积分,而是先学1+1=2,再学平面坐标系,最后才进入更复杂的体系。

物理规律的学习其实也是一样,它存在一个“从易到难”的过程。比如仿真引擎、游戏引擎、虚幻引擎里的数据,虽然场景不同,但背后很多物理规则其实是共通的。无论是《荒野大镖客》还是《塞尔达》,一个击打动作背后,本质上都是人类手写的简化物理规则。

这些规则可能只是真实物理世界50%或者70%的映射,但它能够成为学习真实物理规律的铺垫。所以我们第一件事,就是建立一个从仿真到真实世界的数据跃迁过程。

第二个关键点,是跨领域数据。因为对于通用世界基座模型来说,它本质上是一个“all for one”的问题。不同场景背后反映的真实物理规律其实是一致的。

我们内部发现,当引入跨场景数据之后,在某一个垂类场景里,数据需求量甚至能够降低20倍,但效果反而更好。因为模型学到的是更通用的物理规律,而不是某个特定硬件、本体或者场景里的“伪规律”。如果只依赖单一场景数据,其实很容易过拟合。

第三个关键点,是长尾物理数据。物理规律很多时候恰恰发生在稀疏和突变场景里。比如YouTube、B站每天会产生大量视频,但其中真正包含物理交互的数据比例其实非常低。可能只有5%的视频包含抓取、拿取等简单交互,而像玻璃破碎、爆炸这种强物理变化场景,可能只有0.5%。

但恰恰是这些“突变”,最能体现真实物理规律。

所以我们在做预训练时,会重点筛选那些具有动态交互属性的视频,而不是简单堆数据量。

同时,我们也在构建自己的数据飞轮。比如通过仿真引擎、数字孪生渲染,主动生成一些现实世界里很难采集到的强物理数据。举个例子,一个杯子放在桌子上,被外力撞倒——这种场景在真实世界里很难大规模采集,但我们可以在仿真环境里不断生成。这些稀疏、边缘、强物理属性的数据,其实对通用世界基座模型非常重要。

虎嗅:你们现在做通用世界基座模型时,使用的数据的比例大概是多少?

陈博远:如果从视角的维度来看,我们更关注的其实是第一人称(egocentric)数据和多视角(multi-view)数据之间的配比。我们内部目前探索出来的比例,大概是9:1,甚至10:1。而且我们认为,未来这个比例甚至可能扩展到100:1。

之所以这么看重第一人称视角,是因为egocentric本质上代表了拍摄主体和视角交互的过程——“我采取了什么动作,世界相应发生了什么变化”。它天然带有Action→State的因果结构,这正是世界模型最需要的信号。而多视角数据更多是从外部去观察同一个场景,更偏向补全空间结构和状态表征。

虎嗅:我们假设未来第一人称数据和多视角数据能达到100:1,那是不是意味着,对那个“1”的要求会非常高?而且这里真正高质量的交互数据,应该更多来自真实工业场景,而不是实验室,对吗?

陈博远:对,那个"1"的质量要求确实非常高。

不过其实今天行业里的很多数据,还没有真正走到"实验室数据"和"工业场景数据"之间的区别这一步。当然这步很重要。因为更早的问题是,很多真实采集来的数据本身质量还不够高。比如采集过程中会存在大量噪音、硬件误差,以及设备和真实物理世界之间的不匹配。现在很多动捕设备、手套设备,本质上都还是"近似真实",它和真正的物理交互之间仍然有gap。

也正因为这样,我们才会特别看重第一人称视角的数据——它直接来自交互主体本身,能比较真实地反映"动作导致状态变化"这个过程,而不是隔着设备去近似。

在此基础上,我们会把整个数据体系总结成一个“三层金字塔”。

第一层,是学习世界里“有哪些状态”。比如水会流动、物体能被抓起、玻璃会破碎。这一层主要依赖大量真实世界视频,以及复杂交互场景数据。

第二层,是学习“什么动作会导致什么状态变化”。也就是Action→State。这一层的本质是在构造因果。这也是为什么我们尤其需要大量第一人称(egocentric)数据,同时辅以仿真数据、真机数据。因为egocentric代表了拍摄主体和视角交互的过程,天然就带有Action→State的因果属性,是构造因果最直接的来源。

第三层,则是长尾和稀疏物理规律。因为真实物理世界很多关键规律,都发生在突变场景里。比如玻璃爆炸、物体遮挡、复杂空间关系等等。这一层我们会引入大量第三人称视频,以及数据飞轮生成的稀疏物理场景。

而且我们内部发现,这一层的数据量甚至不需要很多。可能只占前两层的1%,甚至0.5%,就能带来很明显的空间理解和泛化能力提升。

因为当模型已经建立起比较通用的物理规律之后,再去补充这些稀疏数据,它的学习效率会非常高。

而且最重要的是,我们整个模型训练过程并不是“被动观察数据”。模型始终在学习:“什么Action,会导致什么下一状态。”

这也是为什么我们认为,基于数据金字塔、交互和强化学习,世界模型会形成一条和大语言模型完全不同的Scaling曲线。

属于00后的“Aha Moment”

属于00后的“Aha Moment”

虎嗅:逆矩阵是什么时候成立的?现在大概到了一个什么阶段?

陈博远:逆矩阵是今年年初正式成立的。但实际上,我们从2025年初就已经开始做面向真实物理世界的世界基座模型这件事了。现在我们已经看到了一些Scaling up的潜力,以及一些真正的“aha moment”。

整个团队目前大概30人。我们凝聚了一批非常年轻、但能力很强的人。包括来自北大、清华的一些奥赛背景成员,也有不少来自大厂的核心工程师。

虎嗅:在担任智源中心负责人之前,你们已经开始融资了吗?整体和投资人交流下来的感受是什么?

陈博远:投资人最常问我们的,其实有两个问题。第一个是:你们是不是在做真正的“基模”?第二个是:你们到底看到了什么,才决定做这件事?我们的答案,其实来自内部实验。

我们已经观察到,随着数据量、参数规模提升,以及引入主动交互和状态预测之后,模型误差还在持续下降。所以我一直认为,一旦世界模型的Scaling Law开始形成行业共识,技术路线会迅速收敛。

我自己特别欣赏两家公司:DeepSeek和DeepMind。因为真正的创新,很多时候都来自这种研究型组织。一个方向可能一开始只有两三个人、几个idea,但会不断Scaling up,最后产生真正底层的突破。

我们也相信,扁平化组织本身是能够“涌现”创新的。

虎嗅:投资人经常会问“基模”这个事情。你会觉得,是你们做的事情被误解了,还是“基模”这个概念本身被误解了?

陈博远:我觉得更多是“基模”这个概念被误解了。“基座模型”这个词,从一开始出现,本质上就是希望通过一套模型解决不同场景的问题。

但过去几年,“基模”这个词被滥用了。就拿具身智能举例,投资人称见过很多团队其实只是基于开源视频模型或者开源语言模型,再微调一些自己的真机数据,最后包装成一个“预训练”的故事。

但我们做的,是从头开始做整个预训练架构。也就是说,我们真正想做的是一个通用世界基座模型,而不是一个微调后的垂类模型。

虎嗅:你担任智源世界模型中心负责人。投资人怎么看这件事?

陈博远:逆矩阵更偏前沿探索,我们会不断去扩展一些新的技术方向;而在智源,我们会把已经验证出的世界模型能力,进一步放到更大规模、更通用的场景里做实验和落地。

但本质上,大家都在做同一件事:如何构建真正面向物理世界的通用基座模型。

虎嗅:所以我能不能理解为,智源也希望在Physical AI时代,再次“押中”像月之暗面、智谱AI、面壁智能这样的公司?

陈博远:对,我觉得智源一直都非常重视人才和前沿研究,而且它始终是站在全球视野里看AI范式变化的。

虎嗅:所以你们团队年龄基本都是00后?

陈博远:对,虽然我们团队平均年龄在00后,不过我更愿意称之为凝聚了一个“心态年轻化”的团队,无论是原大厂核心工程师,还是科研青年们,大家都是非常有冲劲的。因为我们发现,做这种全新的事情,需要敢于打破路径依赖,融合不同技术背景去做出底层的第一性突破。

虎嗅:现在做Physical AI的产业,其实聚集了很多00后。它看起来很像一个“属于00后的时代”。

陈博远:我不太想简单地把它定义成“属于00后的时代”。Physical AI应该属于所有真正相信这个方向、愿意长期投入、敢于做底层探索的人,而不只是属于某一个年龄段。

但更重要的是,Physical AI不只是一个技术热点。我们越来越相信,AGI的下一步一定要走向真实物理世界。过去的大模型主要理解语言、图像和数字信息,而未来的世界模型需要理解真实物理世界背后的约束,理解物体如何运动、碰撞如何发生、能量如何转化,以及行动如何改变环境。只有这样,AI才能真正进入具身智能、工业仿真、游戏引擎、AI for Science等场景。

再往前看,Physical AI也和国家未来的新质生产力高度相关。低空经济、商业航天、智能制造、能源系统、可控核聚变等方向,本质上都需要AI更深地理解物理规律、复杂系统和真实世界的因果关系。我们真正想做的,不只是一个服务某个垂直场景的模型,而是面向整个物理世界的通用世界模型,为未来更多实体产业提供底层能力。

与其说这是一个“属于00后的时代”,不如说这是一个属于所有相信Physical AI、敢于做底层探索、愿意为国家未来产业基础能力负责的人的时代。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4871588.html?f=wyxwapp