2 月 10 日,原力灵机在北京中关村展示中心举办发布会,以“具身原生”为主题,一举发布了三大核心产品:全球首个具身原生大模型 DM0、具身原生开发框架 Dexbotic 2.0、以及具身原生应用量产工作流 DFOL。
“2026 年不是具身智能的元年,而是具身原生的元年。”原力灵机CEO唐文斌在现场表示:“过去大家在争论用哪个大模型来改,我们直接跳出这个问题——为什么要改?为什么不从第一行代码就为机器人而写?”
会上,来自产学研领域的多位专家,其中包括清华大学电子工程系长聘教授汪玉、北京智源人工智能研究院院长王仲远、阶跃星辰创始人兼CEO姜大昕、星海图创始人兼CEO高继扬、原力灵机联合创始人兼CEO唐文斌,还围绕具身智能展开了一场深入的圆桌对话。
全球首个具身原生大模型 DM0发布
“今天,我们要的不仅仅是一个能在机器人上运行的大模型,而是一个从智能本质和形成机制上都根植于物理交互的新AI范式。”唐文斌表示,基于此,原力灵机在业内首次提出“具身原生”概念:具身智能从诞生之初就需立足真实世界,聚焦“复杂环境中精准完成人类任务”,并发布全球首个具身大模型 DM0。
DM0 具有两大优势:一是从0开始训练的具身原生大模型,联合阶跃星辰联合训练,除了深度融合多模态互联网信息外,还涵盖驾驶行为数据、机器人操作、导航等具身场景特有的多传感数据。二是 DM0 没有把模型限制在单一硬件或特定场景,而是在预训练阶段系统混合抓取、导航、全身控制三类核心任务,并覆盖 UR、Franka、ARX、UMI、Aloha、R1-Lite、Realman、DOS-W1 等8种差异显著的机型,获得强跨机型的泛化与迁移能力。
据介绍,DM0 仅 2.4B 参数量,却实现了业内最高的智能密度,尤其在精细操作场景中表现突出。不同于市面上多数 VLA 模型仅有 224-384 像素的输入分辨率,DM0 专属 768×768 高分辨率设计,实时推理延迟仅 60ms,在工业级精细作业中表现优异。DM0还首创广义动作解锁复杂任务,并构建空间推理思维链,把环境感知、任务理解、运动规划与精细执行串成闭环,使模型能够在复杂真实场景中稳定完成高精度操作,实现机器人的动作不局限在手上,拍照和发送指令一样行。
在 RoboChallage 真机评测中,DM0 获得单任务与多任务双项第一,目前位居榜单全球第一。为推动产业协同,原力灵机宣布DM0全面开源,开发者可在消费级显卡上便捷微调、二次开发,助力科研工作者搭建专属应用、训练自有模型及产品。
DM0之外,原力灵机还在当天发布了全球首个具身原生开发框架Dexbotic 2.0。原力灵机合伙人汪天才表示,"PyTorch让每个研究者都能快速验证想法,Dexbotic 2.0要做的是同样的事——让每个开发者都能用乐高式的方式搭建自己的具身应用。"
相比去年发布的1.0版本,Dexbotic2.0实现了具身原生的全面升级,具备五大核心优势:模块化架构,将具身智能系统拆成三块可自由组合的“乐高模块”,V(Vision encoder)、L(LLM)、A(Action Expert)模可以独立升级、替换和混搭,便于快速试验新模型,并适配不同硬件和任务场景。
同时全面支持多源数据混合训练,用同一套训练过程,让模型同步学会“看懂世界”和“动手操作”;此外,Dexbotic 2.0还实现统一具身操作与导航、统一模仿学习与强化学习、标准化具身开发全流程,从“数据—训练—评测—硬件”四个环节形成闭环。
目前,Dexbotic 2.0已经服务数十家机构,包括清华、北大、普林斯顿、帝国理工等知名企业,以及腾讯、北京具身智能机器人创新中心等知名企业,覆盖超千位研发者。原力灵机还宣布联合清华大学、无问芯穹,共同宣布打造具身智能的 PyTorch,Dexbotic 2.0与强化学习框架 RLinf 达成战略合作,旨在降低开发门槛,让研究者与开发者专注于算法创新与场景突破。
在夯实具身原生技术底座、打造基础设施降低开发门槛的基础上,原力灵机进一步推动机器人走进工厂,实现具身规模化场景落地,原力灵机发布具身应用量产工作流 DFOL(Distributed Field Online Learning),核心是通过“硬件通用+模型智能”的模式,使机器人既能保持较高效率与确定性,又拥有接近人类的灵活性和适应性。
DFOL 关键创新在于数据回流机制:现场产生的训练片段(episode)与负样本块(negative chunk)实时回传云端,形成“云端训练-现场执行-数据回流-模型更新”的持续进化闭环,使系统能够在真实工作环境中不断自我改进,实现柔性生产力的持续优化。这不仅是一次技术升级,更是创造真实商业价值的关键一跃,有利于打破非标自动化与人工的边界,推动物理智能真正走向规模化和普惠化。
圆桌直击:具身智能的ChatGPT 时刻还有多远?
会上,来自产学研领域的多位专家围绕具身智能展开了一场深入的圆桌对话,以下为对话实录:
主持人:量子位联合创始人兼总编辑 李根
圆桌嘉宾:
清华大学电子工程系长聘教授 汪玉
北京智源人工智能研究院院长 王仲远
阶跃星辰创始人&CEO 姜大昕
星海图创始人&CEO 高继扬
原力灵机联合创始人&CEO 唐文斌
李根:今天我们圆桌的设置非常有讲究,我们有学、研、产、模型大脑、行动的身体,作为最开篇的,我还是想要请汪玉教授和仲远院长,从宽泛的范围,全球的范围看看我们现在具身智能的模型主要有哪些主流的技术路线,现在处在一个什么样的阶段,我们先请汪教授来说。
王仲远:其实现在整个具身智能就像刚才李老师讲的,特别的火热,但是在火热的背后,我看到蛮多隐忧。一方面我们讲硬件确实进步很快,从前年能走路,到去年能跑起来,到现在能跑的比较稳。包括刚才在现场看到我们现在连干活也开始又快又稳了,这是硬件本身的进步。但是实际上包括它连续稳定性的工作、安全性、电池等等还有一系列的问题要解决。在模型上,虽然模型过去这一年,包括智源研究院也发布了一系列的像RoboBrain、RoboBrain-X0这样一系列的具身模型,但我们觉得还远没有到具身的ChatGPT时刻,尤其当具身智能的模型和硬件真机部署之后,我们发现离真正我们希望的大规模应用还是有比较大的gap,模型的技术路线整体处于发展的路线,比如说大家经常讨论的有分模块式的,比如说我们叫VLM加上控制VLA,或者纯端到端的VLA,包括现在在研究上非常火热的世界模型,我们也都在进行一些探索。但这些我认为都还远没有到我们可以非常自豪的说具身已经得到彻底突破的阶段,所以这里面很有可能我们接下来会看到的情况是在一个一个真实的场景,通过刚才原力灵机讲的VLA+强化学习把一个一个场景解决好,先干起活,再真机中积累更多的数据,形成数据的闭环,最后再来解决泛化性的问题,这是对技术路线我个人的一点理解。
李根:谢谢王院长,汪玉教授有什么补充吗?
汪玉:我做硬件的东西多一点,做算力、框架、边缘、基础设施,所以从我的角度来看,现在的机器人应用,包括刚才的视频,虽然已经有很大进步,但还是局限在一个工作台上。基本上真的把大小脑配合起来完成一个再稍微长一点的任务,稍微跨多个模态,真的跨多个模态之后,在楼里面走一走边走边干活,每次我们组里讨论到底具身得干到什么程度,说能帮我收拾个屋子,这件事情不只是叠一个衣服了,你要去看整个屋子的状态,琢磨应该收拾成什么样,然后开始一点点去干,干到最后这个屋子收拾干净了,这是一个很难的问题。当然模型肯定需要有突破,但是我也在琢磨如果完成这么复杂的任务情况下,比如说这个屋子本身会不会也要发生变化,因为我们做硬件的,有时候想在建这个屋子的时候这个楼是不是应该要适配到这个机器人未来在这个里面的生活,因为原来只适配人的生活,所以从基础设施的层面我觉得还有很多事情可以帮助、协助机器人的大脑,能够持续进步。
所以一方面在训练的维度,刚才说强化学习的角度,能有更多的进步。另外一个维度,从整个这样一个物理环境和机器交互的过程中,你怎么样让物理环境让这个机器更容易感知,去解决问题。现在我们很多时候假设这个物理世界对机器需要跟人完全一样,用人100%的能力感知世界完成任务,但机器并不需要干这些事情。我们也有很多帮助的设施,就跟车路协同一样,是不是可以从这个角度再去促进机器的发展。这是从我们做硬件角度的思考。
李根:汪老师讲的太有意思了,我们下一代住宅标准也要把机器人维度加进去,汪老师其实我也很好奇,因为具身智能之所以这么受关注,是因为它是相对是AI下一个前沿,对于这个前沿而言,大家都在讨论说我们这一代的中国的创业者,可能会有一些新的机会,您刚才也谈到了基础设施层面,基建层面的,您怎么看现在在具身的维度里,现在国内和硅谷,中国和美国的优劣势?
汪玉:你说到我的痛处了,我好久没有去美国了,但是看到也有很多朋友在美国跟我们讲。其实美国我觉得还是在模型的这些事情上,包括数据的层面,他们更早地开始做了一些事情,然后有一些应用上的投入和突破。但是真的到落地这个层面,我还是坚信中国可以很快地跟上,特别是现在中国在具身这个维度已经有比美国更强的投入了,有很多人说这是泡沫,我个人觉得好不容易有一个方向,中国投入的强度比美国大,所以这个事情是不是好事?我觉得可能是好事,因为在中国整个产业链、供应链完整的,能够把应用开放的再多一点,如果在模型和应用层面的投入再加大,是有可能能够比美国在具身这个层面有更快的突破。这是我个人从宏观的角度来看的一个问题。
第二,中国现在我觉得学术界和产业界的联动慢慢变多了,包括我自己坐在这里,其实是产业界碰到的问题最后回头会跟仲远研究院,包括拓扑研究院跟北大、清华以及一批老师们能够形成联动,而不是老师们坐在屋子里面看paper去做事情,所以这样一条联动线,我个人觉得和美国慢慢一致了,就是产学研真的在一起去推动具身这个方向。
李根:您讲到投入和关注度确实有直接的展现,前两天美国的超级碗被誉为美国的春晚,它上面全是LLM,但是我们国家马上到春晚基本都是机器人,仲远院长对这个话题有没有想要表达的?因为我们智源是一个国际的视野。
王仲远:我分享两个小故事吧,也是听到的小故事。美国那边一方面做具身智能,其实他们的创业团队经常投资人会看这个团队里面有没有华人,所以有华人的话才能确保他们搞的具身智能有可能成功,所以这是一个投资人告诉我的小故事。
另外一个小故事,我们自己在做模型,包括具身智能迭代的时候,一个很痛苦的点是硬件也经常损坏,损坏了之后,我们经常一修就得两个礼拜,一来一回,但是我们听说美国那边他们的机器人硬件一坏得有三个月,瞬间我们的心态就平衡很多。所以一方面可以看到中国确实在制造业上的优势,这是我们做具身智能方面的一个优势。另外一块证明了整个行业依然处在早期,大家都处在快速发展和迭代的阶段,所以远没有到谁优谁劣、谁领先、谁落后,本质上大家还在不断推动整个行业和产业的发展。
李根:您刚才讲的AI要看“含华量”,更进一步做模型或者做具身还得看“含华量。很重要的里程碑和很重要检验的时刻叫ChatGPT时刻,它带来了我们LLM,当时大家因为看见而相信的这么一个瞬间。
我接下来的问题特别想探讨我们具身智能的ChatGPT时刻是一个什么样的时刻,它什么时候到来,我们请阶跃星辰的姜大昕总,对于ChatGPT时刻,您应该有更深的感悟和体悟?
姜大昕:对,ChatGPT时刻确实影响很深刻,怎么把它定义成一个ChatGPT时刻?我觉得一个标志性的东西就是零样本,零样本地去做泛化,给它任何一条指令,即使以前没有见过,它可以回答出问题,这是和原来的自然语言处理是完全不一样的,这是为什么ChatGPT时刻大家觉得非常兴奋。
如果对比自然语言和具身,我觉得具身智能的ChatGPT时刻会更加困难一些,我觉得从两个角度来看,第一从问题的定义本身,具身的泛化我觉得可以从不同维度去定义,一个是场景的泛化,它是封闭场景、半封闭场景还是全开放场景。
第二个维度是从任务,导航任务、抓取任务还是做一个家务这样不同的任务泛化。
第三个是目标的泛化,即使是一个简单的抓取动作,你抓取的对象是钢铁、柔性还是别的,所以这个泛化的维度不一样,导致我们究竟在哪个维度上定义ChatGPT时刻,这件事情不同的人会有不同的看法,所以这是我觉得第一次还没有形成共识的地方。
第二个,我觉得具身智能从它的技术角度来看,牵扯到计算机视觉,我原来是做自然语言处理的,自然语言处理开始深度学习刚起来的时候是一直被视觉打压的,因为像深度学习的网络都是从视觉开始,所以我们搞NLP的人是很憋屈的。直到到了17年出了Transformer以后,我们终于翻身了,Transformer是来自NLP,现在一统江湖,所有的模态用的都是Transformer这样一个架构。
但是你会看到Transformer出来以后,NLP一路狂奔,解决了一个自监督的问题,所以能够海量做预训练,所以它能够把互联网的知识做一个压缩,形成一个自己内部的视觉,然后进一步又经过RL的范式,现在可以做推理,甚至做非常复杂任务,编码的任务、真实用户环境当中做一些任务Agent的任务,所以它已经走过了很长的路。
返过头我们再看视觉,觉得一些非常根本性的问题,大家没有形成一个共识,比如这个视觉究竟怎么编码,怎么做自监督的预训练,比如说在3D空间里面怎么做推理,我觉得这些事情可能未来还是需要一些Breakroom(音)然后才能够到ChatGPT时刻。
李根:您提了一个非常关键的问题,对于具身的ChatGPT时刻定义是很关键的,很重要的,我想问一下做具体具身智能的两位嘉宾,先问高继扬,怎么定义具身智能的ChatGPT时刻,咱们不说比文斌他们先到,比美国的同行先到,你是怎么想的?
高继扬:我觉得这个问题特别值得讨论,首先我觉得我们可能有一个更底层的问题,就是具身智能和语言模型这两个产业,从产业层面的区别是什么。我觉得这两个还挺不一样的,但是底层都是因为AI技术的创新突破,使得这个产业从无到有。但是具体而言到这个产业里面去看,我们发现具身智能从技术的产生到产品的规划,再到商业落地,它链条更长,涉及到上下游的零部件供应链,涉及到数据,这个数据之前也没有,然后才是算法,算法完了之后发现渠道和终端跟大语言模型不一样,大语言模型的终端是手机、电脑,渠道是社交媒体的传播。
所以你会发现在整个产业链条里面,大语言模型最稀缺的哪一环,也是唯一缺的这一环就是模型产品,所以模型即产品,模型好了,整个商业化、产业化的链条马上都具备了。
回头我们看具身智能,在刚才说的这几环里面,供应链、零部件其实很不成熟,在这波浪潮来之前,参与到这个行业里面的很多供应商都是规模很小的状态,自身的产品可靠性、一致性问题都很多。当然我觉得这不是他们的问题,是整个产业的问题。然后没有整机就没有好的数据,刚才范浩强和天才反复谈到真机数据这件事。
当然又涉及到渠道,渠道是线下的问题,终端就是机器人本身,你会发现在这几个最终对于产业能够成功的要素里面,算法很重要,但是算法似乎是传播周期更短的,因为整机供应链传播周期是12到18个月,你要建立客户渠道的周期大概6到12个月,做数据的周期更长,你得有了整机之后才做。
你会发现算法我们有很好的开源社区,整个CV界包括NLP、语言模型,有特别好的分享精神,包括原力灵机和我们在内,做了很多开源的工作。会发现在整个产业链条里面,算法这一环的传播周期是较短的,第一梯队的公司是2到3个月。
回到刚才的问题,对于具身智能的ChatGPT时刻,刚才姜大昕总提到ChatGPT时刻定义为零样本泛化,如果从业务产线的角度来说,ChatGPT时刻是我们真的看到了它在某些限定范围内具备商业价值的这么一个时刻,我们发现它要具备的要素更多。
但是所有这些要素我们看到,我特别同意范浩强刚才PPT里一点,2026年我觉得会是发生变化的一年,因为整机和供应链经过过去两年的准备,发生了很多变化。数据我们也有很多,在模型、算法层面、后训练上的强化学习,预训练上的VLA以及最近的World Model引入,都给我们整个预训练的泛化性和后训练的成功率提了很多新的变化。
所以我觉得今年是应用要闭环的一年,去年25年上半年,我们明显看到智能是一个起步,25年下半年智能明显加速,关键指标我们看开源社区里的开源模型数量。26年是智能爆发,爆发的结果一定在某些应用领域形成应用的外溢,而且同时配合了供应链和整机。尤其是中国,显著比美国强得多,周期刚才提到了快5到10倍,成本低5到10倍,所以我觉得今年会是发生变化的一年。
李根:文斌怎么看具身的ChatGPT这个问题?
唐文斌:我觉得姜大昕讲的ChatGPT时刻要求蛮高的,这已经是AGI时刻了。今天我们想想ChatGPT给我们带来最大的震撼是什么,我们曾经把它当成一个玩具,但是在那一刻,我们认为它是一个工具,它变成一个可用的东西。所以我心中ChatGPT时刻的定义,是它变得有用、可信赖,还是回到我们公司的使命想去做的事情。
我们对有用的定义非常简单,它可以在限定场景,但它要真正闭环解决所有的问题,要能够在ROI上面算明白,算明白才能使得它能够被批量化应用,满足这样一个有用的定义情况下,我们真正把一个玩具,把RoboChallenge的项目变成了一个工具,这个时候我认为就是这个ChatGPT的时刻。而且我觉得包括现在模型的能力进展确实非常大,所以我觉得这并不是很远。
当然ChatGPT时刻,还有DeepSeek时刻,还有一点是说它什么时候能够出圈,今天在仓库、工厂里打螺丝,可能打的我们闭环了之后,但我觉得老百姓并不能感知到,也许DeepSeek时刻可能是说全民都有感觉,这个产品来到我们的身边,今天如何能够从工业物流走向商用、走向TOC,这个时刻还要再晚一些,今天我们对它的错误容忍度体验要求更多,我觉得也不会才远。
李根:你们自己经历了1.0的洗礼,在追逐具身的过程当中,你们第一枪不是放出的一个模型,刚才大家讲到模型、算法很重要,你们一开始先把RoboChallenge这么一个事放出来了,我不知道你是怎么想的,或者你们怎么思考这个问题的?
唐文斌:模型是一个产物,是一个结果,模型、算法、架构、数据都在变化我们很重要的一点,我们真的需要变成一种组织能力,能够快速形成我们的模型,所以我们今天整个的技术架构是非常缺失的,不管是数据,包括仲远院长讲到一个好用的硬件,我们今天从训练推理、整个链条上缺的东西非常多,评测也缺。
比如今天整个具身智能行业,我们所有做算法的人都知道,如果你不知道怎么评测它,你肯定没有办法让它进步。我们今天整个行业里面的评测标准是什么呢?似乎没有一个好的标准,今天可能有LIBERO、SimplerEnv、RoboTwin规模很小,很多Benchmark都已经被差不多刷爆了,99点几分是代表当前真实的能力吗?显然不是,所以我们觉得非常需要来自物理世界、基于物理世界真实的、大规模的、真机的评测,才能够引导我们能够更好向前。我们内部花了很多力气Dexbotic上整个基础设施的建设,我们希望把一些东西放出来对行业做一些贡献,也希望行业里的更多人跟我们合作。今天像RoboChallenge不是我们一家在做,所以我们作为一个发起方,仲远院长、高继扬这边,包括清华王老师这边,我们都一起在打造,希望能够有一个Benchmark能够指引大家如何向前。
李根:因为我们具身的ChatGPT时刻不知道,我们更多的AI之所以被看到的Physical AI Next时刻,就是要依赖RoboChallenge这样一个评测的标准,我们今天在座的嘉宾也是我们RoboChallenge的合作方,你们是第一批加入的,捐赠了硬件,我不知道你的思考是什么?
高继扬:我特别同意文斌师兄刚才谈到的,整个行业,我觉得之前做具身智能这件事的,做机器人AI Robot的,学术界为主,学术界看这个问题的视角,我觉得是受了很多限制,资源上各方面都受了很多限制,所以用LIBERO各种各样仿真的东西去做一些评测,但是真正面向应用的、落地的,一定是需要真机的。
我觉得今天我们去看GTP或者语言模型整个发展,我觉得完全是商业需求拉动的,三大垂类 Agentic、Coding、ChatBot,我觉得这三个垂类有巨量的需求在拉动。
我们回头看具身智能,未来也会形成垂类的概念,垂类来自真实需求一定是来自真实需求,这些真实需求需要落到真机的评测里面,才能够给我们做研发的企业,还有包括未来有需求方,大家有一个比较公允迭代的环境。很多时候AI还是实验科学,它有一定的原理、数学做支撑,但最终很多事还是要试出来,试这个东西就要有反馈,反馈就要有评测。
我们看决定一个公司,一个组织,包括AI和其他的,很重要的一个指标就是它的迭代效率,所以我们想尽一切办法提高这个迭代效率,反馈的质量,这是为什么当时师兄提到说想做一个RoboChallenge,我是特别认可、特别支持。因为我们在公司内部有自己的一套Benchmark,大家可能10个场景不断去迭代,我觉得我们也应该能够有一套整个行业,整个业界,都能够普视,甚至可以让学界参与进来,能够更好把产业界和学术界联动起来的这么一个Benchmark。
李根:确实RoboChallenge我想以后一定会被载入具身中国或者全球的发展史册,但是一开始出现的形式稍微有点怪,两个特别好的学生,出了一道测试题,自己去考试这样。我们也请汪老师评价一下学生的这种行为,您是怎么看的?
汪玉:在深层次一点,我觉得未来学习的模式可能会变,不一定是老师教的,可能学生就是自己学的,这也是我们最近跟学校里面的同事在讨论,未来大学的发展可能真的不是老师教课,老师可能就是来考个试,但是考题的灵感可以来自于学生们,这个没有任何问题。
回过头说,其实现在北京做了一个很好的事情,就是做亦庄的机器人比赛,我们有两会一赛,有马拉松、机器人大会和运动会。但是原来做的更多偏本体能力,现在慢慢再加一些跟智能相关的事情。所以如果是这种大规模的比赛一定能检验,而且我们可以在里面加一些赛道去评测,包括仲远这边也在往这个方向去努力。
但是这样的方式往往是低频的,每年可能就那么一次、两次,但是能不能做一个平时可以随时做的,随时去测,背后有一波人帮你,把相对公允的这样一套环境,把一些试验场景在一个地方用真机的形态,这个我还是非常喜欢的一种方式。然后把这种高频的、线上的,或者说不管在什么地方都可以做这件事情,成为现实,我觉得这个能力还是非常值得继续推进的。
从形态上来说,我希望未来,我跟文斌也在商量,未来这个事情应该还是属于(科宾飞)会更好一点,因为公司嘛,每一个公司都有自己商业上的追求,但是我相信现在这两位“学生”,或者已经不止两位了,有十几位大家一起去共建这样一个RoboChallenge的平台,这个平台每个人内心都是公益的逻辑,在这样一个环境里面去竞赛。
什么时候能够以一个更加公益的形态呈现,可能也是我们可以继续商议的。最开始公益组织的建设就需要很多时间,大家发起,发起以后要把这个东西落到某个事情上面,我觉得可能是未来做的一件事情。但是从发起到高频次真实世界的评测,到大家一起贡献所有不同的场景,包括产业界、做机器人的、学术界一起定义这些场景,再往后怎么做一个全开源的生态,从底层的,今天发布了底层的开源框架,有开源硬件,我们也有开源的数据,再有开源的应用和评测,这一套起来以后对于整个行业是一个巨大的推动,所以我觉得这事还是非常值得去继续努力的。
李根:这也是推动我们自己更快抵达具身ChatGPT时刻一个很重要的基础工作。
唐文斌:我想插个话,确实我们在探讨这样一个事情,因为我们在这次DM0模型发布的时候,我们自己内部有一个小纠结,就说RoboChallenge是我们和hugginface一起发布的,虽然有很多同行的参与,但毕竟我们还是发起方,我们自己到底发的模型应不应该提交,到底应不应该放这个成绩,我们内部纠结了一阵子,展开了很激烈的讨论,有不同的意见。
汪玉:OpenAI自己也有,它自己也发,这个我觉得不矛盾。
唐文斌:因为OpenAI也是这么干的,我们自己心里也淡然了。这次我们对团队提的要求开源一定要做的非常彻底,我们要保证大家下载了我们的code、DM0、Dexbotic,直接去RoboChallenge提交就能拿到现在的分,这是我们在这个事情上这是一个很公开的事情,大家大大方方做就好了。
李根:最后,面向26年,在具身智能这个领域,您最想期待看到的一个非常具体的事情,它解决的任务,您期待是什么?
汪玉:还是从电子系角度来说,我真的希望能形成一套云边端配合的体系,能够改变这个楼的装修,以及以后所有建筑和基础设施的能力,去构建面向机器和人共生环境的基础设施,这套方案我觉得今年可能有一个雏形出来,大家再一块去讨论。
李根:仲远院长。
王仲远:这个问题非常好,因为强调的是最期待的,虽然我对硬件、模型都有很多的期待,但可能我对26年最期待的反而是在标准上,因为我觉得现在不管是硬件的标准、数据的标准,包括模型输出的标准,整个生态非常碎片化,所以我蛮期待26年在标准上能够有一些突破,它有可能极大促进整个产业的发展。
李根:有没有具体实现的目标?
王仲远:因为我们智源一起参与了RoboChallenge,我印象很深,当时和文斌交流的时候也说到数据大家各采各的数据,连格式、代码很多都是不一致的,所以这就直接导致了很多时候模型也很难被重复验证,坦白说我们尝试下载和验证近期国内外发的很多的模型,最后我们部署起来都很挺费劲的,所以我很期待我们的DM0很快下载,也试一试,这里面有很多东西就是因为大家的标准没有统一。
在26年的时候,智源因为也在人形和具身的标委会里,很大概率我们会牵头做具身智能的标准,当然整个人形机器人标委会会有其他的一些事情,但我们想具身智能这块集合大家的共识,一起定义具身智能模型上输出的标准,希望能够为整个产业做点贡献。
李根:有没有期待?
姜大昕:刚才听了文斌的分享很受启发,如果真的在任何场景、任何任务、任何目标上能够实现零样本的泛化,那就是AGI时刻的。26年我最期待原力灵机和阶跃星辰能够合作,实现文斌所说的ChatGPT时刻,能用、可靠的完成任务。文斌如果觉得这个任务没有足够的挑战,上半年实现ChatGPT时刻,下半年实现DeepSeek时刻。
李根:您那个OKR定的非常具体,高继扬有没有期待具体的事情?
高继扬:我觉得还是期待26年真的能够在生产力端看到一条明确的增长路径,然后在两年之内能够有单一场景,比如说上万台这样的出货,我觉得这是整个行业都迫切需要的。
李根:也定了一个非常具体的目标。
唐文斌:我的目标比高继扬小一点,我觉得一个场景,一台千持续运行,这里面我想说一下持续运行是最关键的事情,而且不要场景很多,不是靠加法做起来的,一个场景里面一千台持续运行,某种程度上就是我们今天已经走通了一个场景的规模化的闭环,我觉得26年有机会。
李根:谢谢文斌。今天时间的关系,我们可能还有很多的问题没有办法继续讨论。我觉得可以达成一个小的总结,首先在具身的发展过程中虽然还处在初期,但是我们跟美国的差距并不大,美国的脑子可能稍微好一些,现在中国的身体稍微强壮一些,像文斌说的,我们以前体育的底子好一些,供应链各方面会多一些。另外一个方面,我们在场景的丰富性上,以及量产、速度上会更有优势一点,所以我们也是有机会能够更快率先抵达具身智能的ChatGPT时刻,或者我们等到具身智能实现这个时刻的时候,或者我们用星海图时刻、原力灵机时刻,如果没有来的以后,我们再加进去,期待这个时刻来自我们中国公司。
热门跟贴