打开网易新闻 查看精彩图片

34 岁的姚颂,开始了他的第三次创业。

如果在中国的前沿科技创业圈里选出几个标志性人物,姚颂大概率会在名单上。

2016 年,毕业于清华大学电子工程系后,他与本科导师、清华教授汪玉以及斯坦福大学韩松博士联合创办了 AI 芯片公司深鉴科技(Deephi Tech),并担任 CEO,彼时他只有 24 岁。两年后,深鉴科技以 3 亿美金被赛灵思(Xilinx)收购,成为中国 AI 芯片领域第一家实现退出的创业企业。同年,他入选首届《麻省理工科技评论》中国区“35 岁以下科技创新 35 人”。

2020 年,28 岁的姚颂再次创业,联合创立商业航天公司东方空间,创造了全球最大固体运载火箭等多项纪录。

每隔几年,他都带来一个新愿景。只是这次,他的愿景不在数字世界,而在物理世界;不在天上,而在人们的生活之中。

姚颂的新公司叫 Striding AI,中文名“正行创新”。这是他们第一次对外发声。

公司由姚颂联合正大集团、清华青年学者于超共同发起,定位为物理智能系统公司,通过世界动作模型(WAM)与强化学习技术,推动机器人在真实商业与工业场景中落地,最终成为一个可信赖的机器人服务提供商。目前已完成近亿美元天使轮系列融资,投资方包括正大集团、华勤技术、九安医疗等多家上市企业,多位国内与国际知名企业家,以及多家一线投资机构。

“正行创新”这个名字,承载了两层含义:一方面,它对应着人类正迈入物理智能时代的历史进程;另一方面,则体现了他所认同的价值观:无论是做人还是创业,都应当“行得正坐得端”。

“我们想从技术逻辑、商业逻辑上站得住脚,做一个令人尊重的企业。”姚颂向 DeepTech 表示。

为什么是物理智能?

过去两年,当人们谈到让 AI 走进物理世界,“具身智能”是最常被提起的词汇。姚颂认为,这个概念更多描述的是一种形态,即把智能装进一个有躯体的机器人里。他想完成的事用另一个词更贴切:“物理智能”(Physical Intelligence)。

这一提法与英伟达黄仁勋近年来反复强调的“Physical AI”有相通之处。黄仁勋在今年CES 的主题演讲中将AI 的演进划分为感知 AI、生成式 AI、智能体 AI 和物理 AI 四个阶段,并将 Physical AI 描述为 AI 发展的下一个前沿:机器不仅要理解语言和数字世界,还要理解并预测真实世界的运行规律。

(来源:NVIDIA)
打开网易新闻 查看精彩图片
(来源:NVIDIA)

姚颂有着类似的看法。在他看来,真正的挑战不是让机器人拥有一副躯体,而是让它理解物理世界的运行规则:无论是牛顿定律、动量守恒,还是物体的密度与摩擦力。当机器人看到一杯水,知道该用多轻的力去端;换成同样大小的金属块,则能够预判它远比看上去更重。这种对物理常识的内化,才是机器人从“表演动作”走向“真正做事”的关键跨越。

而从航天到物理智能,对于姚颂来说并不是一次突然转向,而是他过去十年兴趣与判断的延伸。

他第一次创业做 AI 芯片,原因其实很简单。起点是他在高中时读到一篇关于三维集成电路的报道,“觉得很酷,所以就开始了”。第二次创业做商业航天,则源于他从小对军工和航天的热爱。而当创业实现了个人层面的目标之后,他开始思考一个更大的问题:哪些技术能够为人类社会提供更大的价值?

也是从那时起,他开始形成了一套选择技术方向的框架。

在他看来,对人类最重要的技术大致可以分为三类。第一类关乎整个人类文明的发展,例如航天、核聚变和环保,它们决定人类能否走出地球、获得近乎无限的能源,以及守护赖以生存的家园;第二类关乎每个个体的生存、健康与幸福,例如农业、医疗、脑科学和抗衰老;第三类则介于整体与个体之间,解决的是社会协作效率的问题,让组织和系统能够以更低成本、更高效率运转,AGI(通用人工智能)和机器人就属于这一类。

三次创业,他都在这个框架中寻找方向。标准始终没有变化:既要足够重要,也要足够热爱。“创业选择很像一组乘法。”他说,“个人兴趣、市场判断、时代机遇,哪个因素是零,最后结果都是零。”

按照这套标准衡量,物理智能几乎同时满足了所有条件。

一方面,它所对应的市场空间极其庞大。姚颂认为,大模型所创造的价值,本质上对应的是数字经济;而物理智能和机器人最终能够创造的价值,则对应着整个现实世界中的生产与服务活动。“AI 大模型能产生的经济价值,对标的是整个数字经济。而物理世界机器人能够产生的价值,对标的是所有第二产业和第三产业在现实世界创造的产值。”

另一方面,这仍然是一片尚未被定义的领域。在他看来,今天的物理智能行业仍处于极早期阶段,既没有形成统一架构,也没有出现被广泛验证的技术路线。所有参与者都在摸索前进。“如果说现在的大语言模型已经到了博士水平,各家的物理智能模型可能还在幼儿园水平。”

虽然下一阶段的答案还不明晰,但姚颂相信,技术演进中始终存在一些不会改变的东西。他记得一位做了十年 AI 的朋友曾告诉他,回头看,自己每个阶段押注的算法,没有一个能够永远领先。真正重要的并不是押中某条具体路线,而是建立起一种能力:无论新的技术范式何时出现,都能最快把它变成可落地、可交付的产品。

这也是为什么正行创新并不把自己定义为一家单纯的算法公司或机器人公司,而是一家“物理智能系统公司”。姚颂希望团队尽可能打通从底层模型、软硬件系统到真实场景落地的完整链条。这样即便未来出现新的模型架构、新的数据范式,甚至全新的技术路线,公司也能够快速吸收、验证和迭代,而不是被绑定在某一种既定方案之上。

在隐空间里理解物理世界

如果说“物理智能系统公司”回答的是正行创新想成为什么样的公司,那么世界动作模型(World Action Model,WAM)就是它目前的技术答案。

过去一年,曾经炙手可热的 VLA 路线受到了持续的质疑和反思。行业开始把目光转向世界模型(World Model)。

和 VLA 的“看一步做一步”不同,世界模型试图让机器人先在内部“想象”出动作执行后物理环境会发生什么变化,再据此做出决策。某种意义上,是让机器人具备“预见未来”的能力。而世界动作模型(WAM)在此基础上更进一步:不是先想象画面再单独提取动作指令,而是让对环境的预测和对动作的生成在同一个模型中同步完成。

在 WAM 内部,也分化出了不同的技术路线。目前最受关注的是英伟达的 DreamZero,它基于视频扩散模型,在像素级别同时预测未来画面和生成动作,本质上仍然是一种视频生成的思路。

图 | 英伟达DreamZero 技术图(来源:NVIDIA)
打开网易新闻 查看精彩图片
图 | 英伟达DreamZero 技术图(来源:NVIDIA)

姚颂认为这条路“很难走通”。他的推理从一个简单的对比开始:物理世界复杂还是数字世界复杂?

答案肯定是前者。“数字世界是结构化的、离散的;物理世界是非结构化的、连续的。它们不是一个量级的复杂。”如果大语言模型处理数字世界的语义已经需要数万亿参数,那么要用视频生成的方式精确还原物理世界的每一帧画面,参数量可能要再大几个数量级。

而且物理智能和大语言模型之间,还有一个常被忽视的重要区别:物理世界对“实时性”有刚性要求。大语言模型每秒输出几十个文字,用户可以等;但机器人在现实中工作,必须像人眼一样以每秒 30 帧的速度持续感知和决策,慢一帧就可能打翻杯子或撞到障碍物。

他指出,目前行业里不少世界模型的演示视频其实是以 5 倍、10 倍乃至 20 倍速播放的,掩盖了当前模型实际运行的速度远远达不到现实所需。一个庞大到能精确预测每个像素的模型,不可能在机器人搭载的芯片上实时运行。“在所有的模型评估里,只看正确率不看速度,是有问题的。”

为了解决这些问题,正行创新切入了 WAM 中的另一个分支:在隐空间(latent space)中工作。

团队选择了 LaWAM(Latent World Action Model,隐空间世界动作模型)路线。通俗地说,就是不直接处理摄像头拍到的每一个像素,而是先把画面压缩成一个更精简的信息表示,剥离掉那些对机器人操作没有实际影响的表面信息:物体的花纹、屏幕上显示的文字、远处不需要触碰的背景物等,只保留与物理交互真正相关的核心要素。

在这个精简的空间里,模型只需要学习两件事:一是基础物理定律,牛顿三大定律、动量守恒;二是物理常识,看到水就知道该用什么力度去端,换成同样大小的其他物品,则需要预设一个完全不同的力。“我可能更希望把它叫做物理空间或者规则空间,”姚颂说。

这条路线的代价是牺牲一部分像素级的还原能力,但换来的是实时性。目前团队发布的 LaWAM 1.0 是一个 23 亿参数的模型,在 Libero 基准测试中,平均任务成功率达 98.6%,同时在成功率和推理速度两项指标上均达到业界最优水平。与 DreamZero 这类视频生成式路线相比,LaWAM 一次动作规划大约只需要 187 毫秒,在保持高成功率的同时,也显著减轻了实时推理的负担。

而这只是路线图的起点。团队已规划了从 1.0 到 3.0 的演进路径:2.0 将把参数规模提升至 50 亿,使用两万小时视频数据进行预训练,实现跨本体的通用动作表示;3.0 则将参数推至 100 亿,使用百万小时真实场景数据训练,最终目标是让模型能够直接泛化应用于便利店、工厂、商超等真实工作场景,开箱即用、具备高泛化性,进一步叠加团队的Human-in-the-Loop(人在环路)强化学习方案,成功率达到 95% 以上。

姚颂认为,WAM 的 scaling law 在未来两三年内会持续有效,“它的上限比 VLA 要高很多”。

速度优势外,正行创新还有一层重要的支撑。正行创新的联合发起人、清华大学助理教授于超,同样师从清华汪玉教授,与姚颂有着同门默契。她长期深耕强化学习与机器人研究,主导提出的多智能体强化学习算法 MAPPO 已成为领域基准方法,并主导开发了一套名为 RLinf 的开源具身智能强化学习框架。

如果说世界动作模型决定了机器人“学什么”,RLinf 解决的则是“怎么高效地学”。它专门针对具身智能场景设计了一套训练调度系统,能让同样的算力跑出比传统方案高一倍以上的训练效率。这套框架开源不到一年,已在 GitHub 上获得近 4,000 颗星标,被英伟达 IsaacLab 接入,也被海内外多家头部机器人企业和顶尖高校采用。

先找到场景,再实现通用

除了技术路线,正行创新和多数具身智能公司还有一点显著不同:目前行业中更常见的路径是先做通用技术,再找场景落地,而正行创新则一开始就绑定了真实场景。

公司的两大重要股东——正大集团和华勤技术,锚定了两个落地方向。正大集团是亚洲最具代表性的跨国企业之一,业务横跨零售、农业、食品等多个领域,遍及全球 20 多个国家,为正行创新打开的是消费零售场景:便利店、商超、门店中那些高频、繁重、重复的工作。华勤技术则是全球领先的智能产品平台型公司,拥有覆盖 3C 全品类的研发与制造能力,对应的是电子制造产线上的精密操作需求。

这些丰富的场景也带来了另一项更重要的核心资源:数据。

早在十年前,姚颂曾和一位自动驾驶创业者讨论过:做自动驾驶最重要的东西是什么?对方的回答是“50% 数据,30% 算力,20% 人的经验和灵感”。在他看来,这个判断放到物理智能领域同样成立。依托深度合作,正行创新能够持续获取大量低成本、高质量、且外界难以触达的真实场景数据。“完全依赖商业采购数据,很难支撑一家公司训出足够好的模型。”

同样宝贵的还有试错空间。有了战略级合作关系,团队可以先进场验证方案、跑通流程,而不会被投资回报率束缚。对于仍处在早期的物理智能行业,这种容错空间尤为稀缺。

讲到这里,姚颂提及自动驾驶行业的历史。十年前,那些聚焦矿山、港口、园区物流等特定场景的自动驾驶公司,大多活到了今天;而不少一开始就瞄准纯 L4 通用自动驾驶的玩家,已经消失在行业洗牌之中。

“通用不是一蹴而就的,”他说。“我不希望抱着一个技术理想,等到所有条件都成熟了才开始创造商业价值。”但他也强调,落地和通用之间必须保持平衡。场景是为了积累能力,而不是把自己做成一家纯粹的定制化方案商。“技术路线一定是朝着通用演进的。”

机器人落地的真正考验

如果通用能力需要在真实场景中逐步积累,那么现阶段最重要的问题就不是机器人看起来是否足够像人,而是能否真正创造价值、持续获得数据,并形成能力闭环。这种思路也直接影响了正行创新对于产品形态和市场节奏的判断。

在产品形态上,正行创新选择同时推进轮式双臂机器人和人形机器人两条路线。姚颂并不否认,人形机器人可能代表着最终形态,但在现阶段,轮式平台在成本、重心稳定性和定位精度上仍具有明显优势。电池可以放在底盘内部,重心更低;运动和作业过程中的定位精度也能达到毫米级,而双足机器人的步态控制目前还难以做到同等水平。

图 | 正行创新机器人概念图(来源:正行创新)
打开网易新闻 查看精彩图片
图 | 正行创新机器人概念图(来源:正行创新)

姚颂打了个有趣的比方:“就像全可回收火箭是终极形态,但这并不妨碍行业先通过大火箭把成本降下来。”

市场选择上,依托正大集团遍布全球的产业网络,正行创新从成立之初便将海外市场作为重点方向。

姚颂认为,具身智能的大规模商业化大概率会率先发生在劳动力短缺、用工成本高昂的地区。以日本为例,全国约 5.5 万家便利店长期面临严重的用工荒,不少门店被迫缩短营业时间,甚至依赖大量外籍劳动力维持运营。欧美服务业也存在类似问题。在这样的市场环境里,机器人出海有着较长的机会窗口。

这些零售、仓储和工业场景既是商业化落地的起点,也是通用能力成长的土壤:抓取任意物品、识别货架、自主规划复杂流程、与人协同工作……这些能力看似分散,却都是未来通用机器人乃至家庭机器人必须掌握的基础模块。

但在具备能力之后,机器人是否就能马上走进家庭?对于这个问题,姚颂的看法相对谨慎。

他认为,这不仅关乎技术成熟度,更涉及整个行业需要共同解决的安全课题。“比如电池安全性,这是所有进入家庭环境的电子产品都绕不开的问题,需要整个产业链一起把基础打牢。”他判断,家庭机器人的普及节奏很可能会与固态电池等下一代关键技术的成熟同步发生。“先把基础安全性做好,等行业标准和认证体系逐步完善之后,功能和成本层面的突破会更顺畅。”

等待物理智能的 GPT 时刻

在采访尾声,聊到对行业未来的期待时,姚颂将物理智能和大语言模型做了一个类比。他认为后者能够走到今天,经历了三个关键时刻:GPT-3.5 让世界看到技术可行;DeepSeek 的开源让公众真正认知到这项技术的价值;Claude Code 等编程应用实现大规模营收,证明了商业可行性。

物理智能的这三个时刻,一个都还没来。

“首先没有拿出一个足够通用、足够智能的东西,让大家觉得机器人真的能做这么多事。其次没有实现一个像 DeepSeek 那样的全民认知时刻。现在公众看到的还是机器人在跳舞,不是在干活。最后,没有在任何一个领域形成大规模的收入和利润。”

他希望正行创新能参与到这三个时刻当中。在技术突破上,成为重要拼图的一部分。“我们大概率不是 Transformer 这样的东西的提出者,但有可能是它之后重要的改进者,或者往应用方向延伸的贡献者。”在落地上,让人们在便利店、在工厂里真正看到机器人在提供服务,“不是在零售仓里面,而是在你身边。”在商业化上,找到类似于 AI coding 之于大模型的“杀手级”场景。

这是一个很大的目标。不过姚颂似乎已经习惯了给自己设定大目标。十年前他 24 岁,想做一颗改变 AI 计算的芯片;五年前他 29 岁,想造一枚送人上太空的火箭。这一次,他想让机器人真正走进人们的生活。

运营/排版:何晨龙

注:封面/首图由 AI 辅助生成