“具身智能在脑不在形。没有大脑的驱动,形体就是一个破铜烂铁。”
作者|王蕊
编辑|西子
“具身智能在脑不在形。没有大脑的驱动,形体就是一个破铜烂铁。”
6月16日,星海图首届开发者大会上,创始人兼CEO高继扬抛出了一个颠覆行业共识的反直觉判断。
现场,星海图发布新一代具身基础模型G0.5,亮相公司成立三年来首款双足人形机器人“行客Kengo”,同时宣布今年上半年已完成B轮、C轮累计25亿元融资,公司估值突破200亿元。
与全行业疯狂冲销量、晒工业订单、争抢 “落地第一” 的潮流不同,自2023年创业之初,高继扬就带着星海图,走出了一条截然不同的“结硬寨,打呆仗”之路 。
当多数创业者扎堆做纯软件大脑时,它选择从最“重”的整机切入,率先开辟轮式双臂机器人新品类;当行业普遍依赖仿真数据降低研发成本时,它坚持只用真实数据训练模型,甚至直言“100万小时数据规模之前,看不到仿真数据的必要性”。
也正因如此,星海图曾先后被贴上“卖硬件的”、“搞数据的”标签 ,被外界调侃为“最不像AI公司的AI公司”。
但三年后的今天,这条“反共识”路线交出了亮眼的成绩单:2025年第一季度推出的R1 Pro、R1 Lite已进入北美、欧洲、日本、韩国、新加坡等全球市场,成为轮式双臂品类的全球标杆;
2025 年 8 月发布的全球首个具身智能开放场景操作数据集GUD(包含500小时、10TB真实操作数据),上线一个月左右,全球下载量超过50万次,接近60万次;
而本次发布的G0.5模型,更是在数据量、算法架构和落地泛化性上实现全面突破,登顶球六大具身智能榜单,稳居国际第一梯队和国内第一。
就在全行业疯狂冲销量、晒工业订单、抢落地噱头时,星海图创始人兼CEO高继扬却说,“我们并不追求在第一个阶段搞一个特别大的商业化,因为这件事意义不大。”
在他看来,当前整个具身智能行业仍处在最原始的“整机销售阶段”,产品主要卖给开发者、科研机构和场景应用方,甚至包括大量展演娱乐需求,“其实和智能没什么太大关系,主要还是卖整机”。
高继扬把具身智能商业模式分成三步:第一阶段是整机销售,第二阶段是方案订阅,第三阶段是Token销售。
只有当机器人真正进入工业、物流、零售等生产力场景,稳定完成上下料、搬运、分拣、打包等任务后,整机才会从收入主体变成智能方案的入口。再往后,随着能力从单一场景走向多场景、多任务通用,具身智能才可能像大模型一样,进入按Token收费的阶段。
一家刚刚估值突破200亿元的公司,为什么不急着证明自己能卖出多少台机器人?一家长期被视作“硬件公司”的创业公司,为什么坚持说自己真正押注的是具身基础模型?从轮式双臂到双足人形,从真实数据到G0.5,星海图到底在构建怎样一套竞争壁垒?
高继扬核心观点提前预览:
现阶段冲整机销量的绝对第一没有意义,更多是负债而非资产,真正的竞争在智能驱动的第二阶段。
100 万小时真实数据积累前,看不到使用仿真数据的必要性,真实数据才是最高质量的数据。
数据成本与算力成本的比例约为 1:10,1 块钱的数据至少需要 10 块钱算力才能训出有效模型。
具身智能数据 99% 是私有数据,未来模型制高点的竞争本质是数据质量和规模的竞争。
整机和供应链是有限游戏,智能和应用才是无限游戏,玩好前者才有资格参与后者。
整机销售→生产力方案订阅→物理世界 Token 销售,当前行业仍停留在最原始的第一阶段。
做具身智能没有捷径,所有资源围绕 “本能智能、作业智能、进化智能” 主线投入,知行合一正面推进。
发布会后,高继扬参加了包含「智车星球」在内的媒体采访,回答了这些问题。以下为采访速记整理。
数据是第一道壁垒
Q1:星海图有围绕 AI 和数据的模型,这两个模型数据是否通用?如何看待WIM和VLA 被对立的行业声音?
高继扬:其实我们一直不认为这两个路线是对立的,它们是同源共生,而且未来会越来越走向融合。
训练VLA也好、训练WIM也好,底层都是把输入数据变成了Token,用多层的Transformer去做编码。从这种角度来说,所有数据都是可以混用的。
数据这件事,本质上我们采数据其实是为了能够铺满四个空间或者四个维度:第一个维度是动作,做什么动作;第二个维度是操作什么对象;第三个维度是场景,在什么场景里做这样的事;第四个是本体维度。
这么多种不同采集方式,是为了更快更有效把四维度不同类型数据全部铺满、全部采集到。但最终这个机器人,模型还是部署到机器人本体上,机器人本体形态数据也是需要的。
Q:预训练阶段大部分用真机数据,成本压力会不会在?很多友商不讨论VLA、不讨论世界模型,呼吁做类脑,您怎么看?
高继扬:坦率地讲,现在的预训练全部都是真实数据,基本没用仿真数据,这是现在的一个现状。未来在很长一段时间里面我们会坚持这一点,到100万小时之前,对于我们公司而言看不到用仿真数据的必要性。
您提到的成本问题,我之前一直谈一个观点,不应该只关注数据单项成本,应该关注智能总成本。采数据是为了搞智能,得回到我们的目的。
搞智能这件事,智能总成本分三部分:数据成本和算力成本,还有研发团队工程师成本。数据成本和算力成本,我们的实践至少是1:10,1块钱的数据至少10块钱去做训练才能把它训明白。
在数据上量之前一定先把数据质量解决掉,而什么是最高质量的数据?真实数据是最高质量的。
Q:数据在具身智能落地过程中扮演什么样的角色?数据能否做成标品供给各家应用企业?能的话需从哪些方面入手,不能的话原因是什么?
高继扬:首先,我们从理论业务模型、业务模式角度来说是可以的,有一些公司专注做数据,然后把数据做成类标品或者做成数据服务。所以从商业模型上来说这个是成立的。
但是对于具身智能而言会有一个挑战:具身智能从整机到数据,或者从数采设备到数据再到模型训练,这几件事耦合得太紧密了。很多时候我们发现数据采上来之后这儿有问题、那有问题,就需要算法同学跟数采同学、运营同学紧密结合、交流、迭代,才能把数据质量提上来,不然采上来的数据是没那么有用的数据。
商业模型理论上成立,但真正业务发生过程又是数据、模型和采集设备,这三环紧密结合在一起。
Q:今年百万数据,到三年之后千万数据,需要做哪些动作达成这个目标?是不是人海战术?对应这两个数据采集规划时间点,这种作业能力相应会达到什么样的程度?
高继扬:对于我们而言,整个行业里面含百万小时甚至更大规模的公司不止我们一家,挺多的。我们是有实实在在的路径。
亦庄帮我们做了很多事,全域开放数据采集场景,包括调配各类资源。因为很多场景,我们作为民营企业想进也进不去,必须得有政府的协助和帮助。所以对于我们来说,我们是依托亦数智能平台铺开量。
刚才您提到一个词“人海战术”,数据都是来自于人,数据量想上去,人的数量肯定得上去。所以这里面会是一个外包采集和众包采集相结合的模式。
但是数据量的上升,从技术角度来看,并不直接带来模型执行速度的提升,模型执行速度与后训练关系很大。采集的这些数据解决的是预训练问题,预训练解决什么问题?是解决泛化性问题,我要去到一个新场景,接受一个新任务,能不能不用新增数据就能做,哪怕做得很慢,但我就能做,我就理解这件事了,这是预训练解决的问题。
后训练增补一些特定化的数据,就像我这个工人劳动者上岗工作之前总得再培训培训,这个培训过程就是后训练,经过培训,执行速度就上去了,就变快了,这是预训练和后训练之间的关系。
Q:数采成本百万小时,2亿,训练几亿美金。这个数字规模是一天的规模还是2-3年的规模?对于现在融资节奏来说是远远还没有达到融资泡沫还是融资还不够?
高继扬:为了采到100万小时的数据,可能投入在1-2亿人民币。如果一年采到这个,今年就花这么多,两年采到这个是两年一共花这么多钱。不同企业节奏不一样。
成本和融资。现在投入企业几十亿都融了,这一两亿花得了,问题不大。而且数据这事本身还有社会化资本、政策性资金可以撬动的,所以数据这件事不用特别担心,接下来这一两年肯定就解决了。
我们思路一直比较清楚,支出路径和融资路径是两件事。融资路径是,你无法改变资本市场客观的变化周期,你只能利用资本市场上行时多搞点钱,能融钱多融点钱,这是大部分比较理性创业者都会采取的策略。
另外一个是支出策略,具身智能这个行业背后的驱动力是什么?这个驱动力是AI Scaling Law。什么是Scaling?Scaling今年是1,明年是5,后年可能是30,再往后是100,这叫Scaling。
我们的节奏是1、5、20、100,这么上去了,这是数据节奏,意味着支出节奏也是按照这个规模放大的。传统风险投资,融完资一看,我账面上的钱有1亿美金,一年花2000万美金,按照五年去发,这是传统模型,这个模型在AI这儿不work,因为AI的驱动力是Scaling Law,今年花1000万美金,明年就花1亿美金。所以这是两条路径:融资路径和支出路径,两件事。
Q:不同企业对真机遥操数据、UMI数据、Human centric data的认知不同,这会不会形成壁垒,并传导到模型、Demo和应用落地?
高继扬:是的,99%的data会是private data,所以未来具身智能模型的制高点竞争很大程度上取决于你的数据怎么样,数据好不好。
数据的差异传导到模型能力的差异,再传导到应用层面效果的差异,再传导到商业层面价值的差异,所以我觉得是一个链路问题。简而言之,这个事肯定是会发生的。
Q:现在有一个言论,他们觉得把数据卖到国外,其实是把枪支弹药递到对方的手上,这个观点您怎么看?以及星海图在未来数据交易方面有什么样的策略?
高继扬:首先对于数据卖到海外这件事,我们肯定从来没做过,对于其他友商情况不是特别了解。
确实是,具身智能数据和大语言模型数据未来会有不一样,大语言模型数据99%都是公开可得的,public data。但是具身智能数据99%是private data,都是私有的数据。
更重要的是,很多数据从获取的那一刻都有很多隐私问题,比如说我们去到研发制造型企业,这样的企业核心资产之一是工艺,老师傅们的活是怎么干的,这些数据恨不得藏在自己手里。
所以数据的安全问题、数据的隐私问题肯定是未来几年,当这个数据量起来之后特别重要的一个事。我们对安全问题和隐私问题特别关注,在符合国家法律法规基准之上做一些市场化的活动,这是我们的准则。
大脑决定上限
Q:如何看“用具身大脑终结行业有趣无智”这个评价?具身智能产业竞争的关键是什么?
高继扬:这是很多做具身大脑企业都有的目标,通过大脑配合身体,真正让具身智能产生生产力。
我们创业最早的时候提过两个词,具身智能一脑多形,第二个具身智能在脑不在形,核心在这儿。没有大脑的驱动,形体是一个破铜烂铁,没有什么价值。
整个行业要突破,一定是具身大脑或者具身基础模型完成突破,然后带动整个产业链的发展。产业链往上是整机、是零部件,产业链往下是应用,然后是整个分销体系。
今天看到所有走过来或者楼下有人踢球或者空翻、挥手都是小模型,这个东西不是真正大脑。具身大脑是什么?比如R1 Lite、R1 Pro是大脑,我们用了几十万小时数据做预训练,预训练出来的模型在一个任务上做微调,就可以很好地给大家去分包、共包或者做零部件分拣等等,而且可以遵循你的语言,你让它干什么它就干什么,这就是作业智能的基础模型。
未来具身大脑是本能智能、作业智能的结合。
Q:G0.5模型大概会在什么时间节点应用到Kengo双足上?
高继扬:如果严格意义上探讨技术,G0.5模型架构的设计其实是给双臂智能或者轮式双臂这样的品类去准备的,所以会普遍应用在R1 Lite、R1 Pro,包括新发的单臂R1Z。
基于Kengo主力去发展的模型,比如本能智能模型。
作业智能现在是什么?无论是VLA还是世界模型也好,都是模仿学习为主,模仿学习是主线,强化学习是作料。本能智能模型,强化学习是主线,是主要的配料,这里面加入模仿成分。
这两条路径:本能智能和作业智能最终会有一个融合,到那个融合阶段才是把G0.5一系列能力带到Kengo双足产品之上,所以我觉得会有一个过程。
Q:最近Benchmark刷得有点多,大家都说自己第一,具身智能模型到底该怎么评判?
高继扬:客观来讲,现在的Benchmark有它的不公允或者参考性偏低的成分,这是一个客观现实。
基于这个客观现实,包括我们在内,也包括很多其他友商,都还是得去做一些事情,只能用Benchmark去做评价,这也是大家在努力做事情的表现,大家整体还是在做正确的事。
基于这个,我们为了更科学、更客观地去评价模型,所以我们在公司内部构建了一套更加详细、丰富的Benchmark体系,然后再去评我们能评得到的模型,我们自己的模型和开源出来的模型。
我觉得做所有事还是回归到实事求是。是不是第一,很多时候第一也有很多个评价维度,绝对第一这件事,更多的是大家在传播上会追求,但第一、第二很多时候意义没有那么大,更多是实事求是,做出真正好的东西。最后社区和市场会给出公允的评价。
Q:数据、模型、整机中,哪一块是星海图最重要的部分或者优势部分?资源分配上怎么规划?
高继扬:战略上是整机+智能,最终目标是释放生产力量。物理世界生产力只有模型是不够的,整机也得足够好、足够的可靠性、足够的一致性、足够的负载能力。
对于我们最终产生规模化的销售和足够高的毛利率来说,整机和智能缺一不可。在这两件事上,我觉得很难讲谁就比谁一定重要,因为对于最终商业成功都很重要。
首先我们还是智能大脑企业,然后我们很重视硬件,整机+智能,然后我们的整机能力很好很强。是这么一个辩证关系。
从研发投入上来看,显然整机研发投入是远远低于智能的研发投入,我觉得差一个数量级肯定是有的。
先打好“有限游戏”,才有资格进入“无限游戏”
Q:Kengo关节模组有哪些亮点?万元级人形机器人如何控制成本?
高继扬:从具体设计来说有两个特点,一个是整机通信全部是EC通信,行业里面有Can通信、485通信,我们是整机EC通信,好处是同步性非常好。EC通信是所有技术方案里通信最好的,但研发难度高一些。
在整体性能方面,我觉得我们这个模组是行业最领先的第一梯队的性能状态。
整体来说,我自己认为,整机和供应链是一个有限游戏,智能和应用才是无限游戏。这里面有意思的点是,如果不玩好前面的有限游戏,是没机会玩好后面无限游戏的。我们花很多时间和精力去做自己的整机和供应链,目的还是为了做后面的智能和应用。
无论是做Kengo这样的双足,还是做我们R1这样的轮式双臂,最终这些产品的成本会稳定在1万美金左右,也有可能会更低一点。这个价格区间未来两年左右时间,是很确定的供应链达到的成本。
但这个成本并不决定它的商业化能力,它的商业化潜力来自于它的大脑,它能干什么活、能干什么事。发达国家市场劳动力的价格是4-5万美金一年,算上各类成本,如果一个产品硬件1万美金,假设回本周期是一年,还有3-4万美金的空间,这3-4万美金空间是给谁的?是给智能的。
Q:Kengo如果搭载本能智能模型,接下来会落到哪些场景?
高继扬:具体销售策略,还是由商务团队和整个直销、竞销体系去发布,我就不展开说价格包括销售策略了。
本能智能最初级阶段是强化学习,现在能干啥?跳舞,跑跑跳跳,走一走,就干这个。它商业化展示、展演,可能有些通过租赁方式完成这样的销售。
随着模型能力的提升,下面会有一个很重要的模型能力,我们认为是全身遥操作,Human Tracking。如果这个事形成现实,相当于每个人都有自己的远程化身,我就坐在办公室里面全身遥操,另外一个人在边缘电站里头、储能站里头,这样的应用就会解锁。
但模型的作业能力显著差于作业智能系列的模型,更多还是行作业这类巡视、轻作业这类场景。再随着技术发展,会跟我们的作业智能逐渐融合。当和作业智能逐渐融合的时候,就进入到非结构场景里面做一些不是轻作业的,而是重作业的事。
在结构化场景里面,80%的环境都还是结构化场景,基本上都是经过人类改造的。比如我们这个是平地,在平地上有必要是双足吗?意义不大,还很吵,轮式挺好的,所以结构化场景里面大部分是轮式双臂品类去解决问题,这是我对未来的看法。
商业化不急着冲量
Q:宇树去年已经有明显营收,是否意味着具身智能商业模式已经跑通?未来走向Token订阅,怎么跨越装机量门槛?
高继扬:首先整个行业在今天这个阶段,我们看到的几乎所有销售全是以整机为中心的销售,大家没有说哪个方案提供了生产力,因为这个方案的能力,所以这个东西销售出去了。
今天成熟市场是两个:一个是开发者或者科教研这一类的,第二类是表演娱乐这一类的。显而易见,宇树一定在展演娱乐市场里面遥遥领先,这是事实。
第二个阶段商业模式是面向生产力的场景方案订阅。生产力场景,我们看到现在没有任何一家企业真正有效地在生产力场景里面有效作业。这个市场大小是前面科教研开发者市场和展演娱乐市场几万倍的规模,本身这个市场在重写GDP,今天所有GDP背后其实都是某种形式的生产,不存在有身位差,真正的星辰大海还没有展开。
Q:星海图未来主要聚焦工业领域吗?工业生产力场景空间有多大?
高继扬:首先我觉得我们公司不会局限在一个子市场里面,我们在商业化上面或者应用上面总概括是“从开发者到生产力”,生产力无处不在,我们的产品也会无处不在。
落地的过程是一个循序渐进的过程,第一步,我们现在是厘米级别精度。厘米级别精度能应用到哪里?是工业里面的上材料、搬运,物流里面的分拣、共包、分包,电商零售里面的拣选和打包等等这些环节。
随着操作精度的上升,制造业里面更多场景,装配、线数、插拔、检测这些全部打开,毫米级别的精度。
再往未来看,制造业只是一个开始,农业、建筑业都是未来具身智能可以去改变的行业。具身智能是未来中心性产业,所有行业都可以和具身智能产生上下游的往来和关系。未来真正的潜力是改写GDP结构。
Q:为什么星海图现阶段不追求整机销售阶段的绝对第一?什么时候会追求大规模扩张?
高继扬:我们在第一个阶段不追求绝对的第一,因为这个阶段的第一是没有意义的。我们这个行业底层是人工智能驱动的,你在整机销售阶段追求一个第一、第二意义不大。
当然我们需要我们的销售规模,今年我们销售额也会比去年有数倍增长,去年比前年有10倍增长。我们追求我们想要的增长,但按照自己的节奏去成长,不会恶性竞争。
在整机销售的大阶段里面冲一个绝对的量,更多是负债,而不是资产。
第二个阶段,智能驱动的商业化开始的时候。
Q:工厂展示、大额工业订单、10万台目标,是落地进展还是资本催熟?
高继扬:商业化这件事是不是大规模,大和小是相对概念,相对于什么是大、相对于什么是小,我们找的相对还是要回到规律,行业发展的规律,你超过了这个行业发展的规律,那个叫过度。
我们认知的规律是什么?还是我们那个策略,从开发者到生产力。这个模型没有那么强生产力的时候,生产场景强行去部署一定是给你退回来。
现在价值有用,很明确的就是两个市场:今天此时此刻的开发者市场和展演展示市场,这两个市场都是商业驱动的,其他是各种因素驱动的。如果做了太多那样市场的事就是过度,所以那种事我们可能会比较保守。
但是在我们认为已经打开的好市场方面我们会很激进,开发者市场全球几百个客户,我们在北美、新加坡、日本、韩国、欧洲、波兰、德国、法国都有我们的客户,国内几乎每个省份都有我们的客户,在这样的市场上我们又很激进。
其实我们商业化做得挺好、挺猛的,但我们还是遵循整个产业成熟的规律,而我们相信的规律是什么?是从开发者到生产力逐渐成熟的。任何一个产品在过早阶段拔苗助长,最后导致的结果都不会特别好。
正确与否来自于这件事的事实是什么,发展规律是什么,回到这些东西上去判断此时此刻应该做什么。
Q:今年一季度具身行业融资了几百亿,不可避免会提到泡沫问题,您怎么看待这种现象?包括未来也会做投资,怎么在这个环境下去做一些务实决策?
高继扬:泡沫这个问题是经常讨论的问题,任何行业发展都伴随着泡沫,或者任何新事物发现都是泡沫,是人们对一个事物发展无法做出精准预测,所以有的时候给出了过高的阶段性估计,然后这个估计大于结果的时候就是大家认为的泡沫。这事一定会出现。
赢家往往在泡沫膨胀阶段和破灭阶段都可以获益。对于我们公司来说,现在还在泡沫膨胀阶段或者一个已经比较顶峰的阶段,我们通过这个阶段获取优质资源,大家的注意力,大家投入进来的资金其实都是很好的资源,我们希望能够和大家一起去把这部分优质资源整合在一起,把这事给做起来。
同时,我们时时刻刻去关注着资本市场什么时候会有下行,什么时候大家对这个事要开始验成果了,这件事一定会发生。
我们公司有一个价值观——“务实创新”,为什么创新之前一定加务实?解决问题的创新才是创新,天马行空对企业来说没什么价值、没什么意义。
保证所有资源往这个去投,围绕着我们的智能主线,本能智能、作业智能、进化智能去投入,其他小算法不投入,留给学术界去投入。在整机上聚焦这几类整机,同时和合作伙伴自研、共研,这就是我们的研发主线。
在商业化上,从开发者到生产力,坚定地按照这个规律去做,不要过度地追求不符合这个阶段的商业化。其实很多时候过度追求不符合这个阶段的商业化,不是资产,而是负债。
我很喜欢曾国藩“结硬寨,打呆仗”,我觉得做很多事情都是这样,没什么捷径,没什么巧思路,我们知道自己不知道,也知道自己什么知道,知行合一,正面推进,一步一个脚印往前去走。
Q:今天发布了一个星途计划,发布这个计划的原因是什么?以及会给他们提供什么样的扶持,他们又会对我们有什么样的反哺?
高继扬:我们和凯辉基金一起做星途计划,其实是我们看到了这个产业未来的机会还有很多,还有很多特别优秀的人才正在进入这个行业。
时代赋予我们的使命、赋予星海图的使命、赋予我们这一批人的使命不仅仅是做一个技术和产品,而是有机会去塑造一个产业,所以我们是带着这样的目标和担当去做一些我们力所能及的事。
过程里面我们发现很多新技术、很多新应用的可能性,希望在帮助他们的过程中自己也受益,因为这会是双赢多赢的过程。
凯辉是一个真正的全球化基金,在欧洲、在美国都有很多布局,这一点在中国风险投资机构当中是非常难得的。这点是我们很看重的,我们立足中国但还要有联动全球、布局全球的思路。
发展过程当中不是追求投了谁,谁就给我们带来什么。这个事是十年二十年、三十年的事,today做这个事业的这批人可能是九几年、八几年,还有二十年、三十年的奋斗,我看的不是一城一池的得失,我们希望结识、锁定一批有长期主义使命的人,我们一起成长。
最真诚的智能汽车报道
热门跟贴