当大多数机器人仍在演示跳舞时,一批"沉默干活"的机器人已悄然走进工厂与酒店——这恰是2025年具身智能领域最深刻的分野。
在火星加速器创始人陈亮主持的这场CES圆桌中,灵御智能CEO金戈、途灵科技创始人杨章欣、HTC VIVE机器人业务负责人Jase Qiang与联想创投史晨星达成共识:2026年将成为操作型机器人商业化落地元年。
陈亮 火星加速器创始人
在过去八年时间里组建了国内最大的具身机器人创始人社区,囊括超500位机器人方向创始人。
金戈 灵御智能创始人兼CEO
杨章欣 途灵科技创始人
途灵科技专注于用AI技术赋能酒店行业,为海外酒店提供分销和AI软硬件配套服务,业务覆盖15个国家。
Jase Qiang VIVE Robotics创始成员
VIVE Robotics是HTC子公司,专注于机器人领域,核心业务是真实场景的数据采集,利用长期积累的硬件经验和高精度多模态数据采集能力,解决机器人领域最关键的数据问题。
史晨星 联想创投
联想创投作为联想集团的CVC,在具身智能领域已投资40多家企业。若将具身智能狭义定义为机器人,联想创投应是市场投资最多的机构。但内部将具身智能范畴扩展为AI+硬科技,包括汽车自动驾驶、各类机器人及场馆中的AI硬件。
以下为圆桌实录,略有删减:
陈亮:回归今天的主题"从实验室到生活间",主要探讨具身智能的落地与生态构建。过去一年,国内具身智能与机器人领域进展迅速,年初时机器人仅能初步实现行走功能,而到年底已能参加各类热门演唱会。这背后涉及多维度的技术突破,今天我们对此进行深入探讨。
第一个问题想问金戈。你们选择了一条独特的路线,当行业普遍追求AI驱动智能机器人时,你们选择了遥操作模式——先通过遥操作实现作业,未来再过渡到全AI操控。选择这一路线是否意味着对短期内实现纯AI驱动持谨慎态度?
金戈:应如此理解——短期内实现通用人工智能机器人确实不容乐观,但通过人机混合智能方式为各行业提供服务,我非常乐观,这也是当前极为有效的路径之一。
回顾自动驾驶发展历程,其本质是典型的人机混合智能系统,逐步减少人为干预、增加机器自主比例,通过线性提升最终实现自动驾驶。即便当下,部分L4级自动驾驶企业仍配备远程人类安全员进行兜底,这同样属于人机混合智能解决方案。
目前机器人模型或AI驱动面临的最大挑战是数据量完全不足以支撑高泛化、高性能、高可靠性的解决方案。因此,纯AI驱动的机器人当前仍显得笨拙缓慢,无法真正投入实际使用。
但当引入人机混合智能,以人类遥操作进行兜底时,诸多问题便可解决。首先,遥操作可应对危险环境作业,解决不同国家间的劳动力价差问题,这些均为真实存在且可规模化收集场景数据的领域。将这些真实数据回传用于模型训练,成果在可靠性与泛化性上将更具价值。我们认为这是最快实现具身智能在各行业落地的解决方案。
回归最初问题,可置于任意场景立即自主工作的具身机器人可能尚需时日,但在酒店、餐饮或工业场景中的非流水线上下料环节,人形机器人的应用可能很快实现。
陈亮:当前遥操作落地情况如何?
金戈:从性能与操作能力看,目前只能完成基础性操作任务,如清洁搬运、物流分拣及部分拾取放置任务。尽管存在效率损耗,但根据测算仍具备相当的财务收益。
回顾互联网出现时催生了呼叫中心(call center)。互联网使语音服务突破地域限制,呼叫中心迅速将发达国家昂贵的接线员岗位转移至劳动力成本较低的地区,同时将原本分散在各门店的客服人员集中管理,进一步强化了大型企业的规模效应与人力效率。
如今,遥操作使"操作"行为得以跨越物理距离,我们或许会见证新型操作中心(operation center)的诞生。一方面将任务从高劳动力成本地区转移至低成本地区,另一方面将分散在各门店的基层操作人员集中管理,用少量人力为多个门店的机器人提供兜底方案。这可能是未来三五年内迅速发生的变革。
陈亮:这种远程异地特性会带来哪些挑战与障碍?目前解决程度如何?
金戈:核心挑战在于带宽、延迟及网络稳定性。基础设施建设持续完善,国内正与移动、联通探讨6G可能性,全球对互联网带宽需求持续增长。在带宽满足的前提下,延迟仅受物理距离与光速限制。若能实现稳定低延迟、低丢包的操作,目前2000公里范围内均可保持良好稳定性。随着新一代通信技术与基础设施更新,机器人遥操作市场需求爆发将加速基础设施建设,二者相辅相成共同提升。
陈亮:你定义的遥操作未来形态是1对1还是1对多?类似robotaxi模式,一人管理多台?
金戈:应为1对多关系,类似robotaxi的少量人类兜底方案。当前已可实现1对多管理,例如酒店送餐机器人在导航方面已非常完善,该阶段完全无需人类接管,仅在需与客人交互时才需介入,从而实现一对多管理。人机比例从1:1、1:2、1:5到1:10将快速提升,但从1:10提升至1:100甚至1:1000将极其困难。
尽管这在技术上极具价值,但从商业收益看,从1:1提升至1:10已节省90%人力成本,而从1:10到1:100仅再节省0.9%,过程中可能需付出百倍甚至千倍成本。因此,达到1:10可能已是短期内最具效率的方案。
陈亮:非常有意思。当舞台上众多机器人表演舞蹈时,金戈团队的机器人最有可能率先在工厂、酒店等场景实际投入工作。接下来请教章欣——你原本深耕酒店AI服务领域,现在涉足硬件机器人业务,在酒店场景中发现了哪些核心痛点?计划如何解决?
杨章欣:酒店场景非常适合具身智能机器人。原因有几点:第一,酒店类似家庭场景,未来可泛化至家庭,而家庭是家务机器人未来落地的巨大市场;第二,酒店中的家务劳动多为人类不愿从事的工作。当前部分酒店机器人替代的是人类并不厌恶的任务(如跳舞),这并非核心价值所在。具身智能无需替代人类开车,因为自动驾驶已解决该问题,但酒店或家庭房间必须依赖类人机器人的实体(至少双臂)进行整理。
这个场景甚至比工厂更适合,因当前具身机器人主要解决柔性物体处理问题,而非刚性物体——后者在工厂已通过单臂机械臂或流水线很好解决。柔性物体如衣物、毛巾、床单的整理,在此前一代机器人中难以胜任。此外,泛化能力要求虽存在,但酒店场景相对标准化,仍是这一代具身机器人能够应对的领域。
美国、欧洲酒店因移民政策变化导致人工成本持续上升,而我司主要服务海外酒店,这是良好机遇。痛点具体表现为:人工成本因移民政策改变而升高;人员流动率高,招聘困难;服务标准化程度不足,常因清洁不彻底引发客户投诉;机器人可相对改善这些问题。另一点,美国酒店普遍收取小费,而部分中国顾客不习惯该文化,若由机器人提供房间打扫服务则可避免此问题,进一步提升用户体验。
陈亮:理解下来,核心要素是:该工作必须有人完成,机器人只是替代者;其次未来有机会泛化至家庭场景。酒店中任务多样,如打扫卫生间、铺换床单、立面清洁等,在多任务的标准化场景中,哪些任务可被机器人优先解决?如何推进?
杨章欣:可分为三类任务:第一类是目前较难完成的,如床单被套枕套整理。因当前机器人多为2指或3指灵巧手,5指灵巧手操作性仍较差,可能需一至两年时间解决末端执行器问题后方可胜任。
第二类是已可通过自动化较好解决的,如叠毛巾、叠衣服、捡拾垃圾等,已基本实现完全自动化。
第三类介于两者之间,即金戈灵御智能探讨的遥操作方案,需人类智能灵活性处理边缘案例(corner case),约占1/3。目前2/3以上的任务可通过具身智能机器人完成,已能解决酒店大部分问题,部分高难度任务仍需保留人工。未来三年内,剩余部分也可能被具身智能解决。
陈亮:意味着一段时间内可能是机器人与阿姨协同作业,人机协同,部分任务由远程阿姨配合完成。但除技术可行性外,客户的准备程度与付费能力同样关键。中国有代表性企业云迹科技(联想创投已投资)深耕酒店配送机器人多年,去年上市时收入约两亿,但一直未能规模化。限制云迹规模化的原因是什么?当前方案是否会面临同样瓶颈?
杨章欣:首先,云迹是率先探索出大部分人未察觉场景的优秀公司,让普通民众特别是亚洲地区用户身边能见到可进电梯、可送物的机器人。面临的挑战可能有几个方面:第一,海外业务占比偏低,而中国市场人工成本相对较低,海外高人工成本意味着能为酒店创造更高价值;第二,场景选择问题,作为酒店老板,最关注的是一天或一个月下来最大的人工成本去向(酒店主要成本为店租与人工),其中约一半甚至2/3至3/4流向清洁环节,若能解决房间整理清洁问题,酒店愿意支付更高溢价。而送物需求仅在部分亚洲外卖发达国家较明显,在欧美需求极低,甚至可通过不提供该服务来规避成本。
核心问题在于为酒店创造的价值能取代多少人工成本。
陈亮:史总对此反馈是否认同?
史晨星:我认同清洁是最有价值场景,远胜于送物。但问题在于清洁极难做好,除云迹外许多企业尝试后失败。例如清扫卫生间、用双臂机器人刷马桶,最终因效果不佳而放弃。关键在于能否真正打穿某个场景,否则清洁做不好则无价值。
杨章欣:如果将自动化与遥操作结合,许多场景如捡垃圾、换垃圾袋、整理洗手台、甚至刷马桶均可实现。部分机器人公司目标过于泛化——既想做酒店,又想做工厂、服务,导致未针对特定场景进行细分优化。未来若能诞生专注特定场景的公司或合作模式,则大有可为。在解决酒店问题的同时可采集数据,且该数据未来可用于家庭场景。
史晨星:期待看到具体demo落地情况。
陈亮:追问小问题,是否需基于场景进行硬件适配或重新设计,而非简单采用轮式双臂或人形机器人即可胜任?
杨章欣:是的。目前市场上未见非常合适的通用产品,这是巨大机会。必须懂酒店、了解酒店需求乃至决策流程的人,才能与技术团队结合做好此事。
陈亮:接下来请教Jase。与其他嘉宾不同,你长期深耕硅谷且为连续创业者。过去一年国内具身智能极为火热,听说硅谷同样热度很高,能否谈谈在硅谷感受到的具身智能氛围?
Jase Qiang:首先说明,我本人也是中国背景。在硅谷沉浸式与客户打交道数年,需明确硅谷不能代表整个美国,硅谷具身智能虽有热度,但整体热度仍不及国内,这并非资本意愿不足,而是产业链约束所致。造机器人虽属智能范畴,但涉及上下游众多环节。
例如此次与湾区某知名大学研究灵巧手的朋友同行,在CES上看到较多优秀手部企业。这些正是机器人本体公司所需的部件,但他们难以自行制造。湾区可称为"御三家"的Optimus、Onex、Figure是真正做机器人全流程本体与模型的企业,它们面临供应链约束,尤其是地缘政治影响下。Onex宣称今年以200美元价格接受预定,该价格令人惊讶,但若宣称全由美国或相关企业制造,则必然存在诸多妥协,本体性能将受限。
美国优秀企业虽有先进之处,如Physical Intelligence、Skilled AI等专注技能开发的企业,但感觉未如国内生态开放,存在故弄玄虚、信息封闭现象。
陈亮:数据维度问题确实是行业共识——当前发展较大瓶颈在数据方面。你们在此领域的工作进展如何?采集哪类数据?
Jase Qiang:我们提供真实场景数据,"真机"是其中一种。作为HTC Vive出身,我们做XR Tracker多年,包括现在大家机器人用的Manus手套都配有Vive Tracker。这些硬件与场景解决方案积累多年。现在成立专门团队服务机器人,不是同时兼顾娱乐与机器人业务。
机器人数据比LLM复杂得多——LLM有优质互联网数据可下载清洗使用,而机器人数据大厂也没有,因此大厂与小公司回到同一起跑线。数据金字塔顶层为真机与真人,下层量大但质量递减。当前foundation model理解能力进展快,但应用于机器人VLA模型进行真实action时存在巨大数据gap。
我们提供真实场景数据,尤其是human-centered真人数据。公司成立前已提供真机遥操作服务,多家美国与中国著名机器人公司均有参与。MOCAP(动捕)优势明显——为最真实数据,无gap;但弊端也突出:成本高、效率低、质量有上限(真机不能做则无法采集)、不能跨本体迁移。
例如Tesla与figure并非纯视频方案,而是在积累大量physical data基础上进行数据增广。Tesla早期购买大量motion capture tracking设备进行遥操作积累,现在仍在持续,因现有数据不足才需增广,而非上来就用synthetic data合成。AIRLAND也是先以真实数据训练,再用synthetic data增广。
我们提供的是submillimeter级高精度、多模态的真人采集方案,可抓取话筒快速、稳定、每次都成功,且每个动作均为毫米级细节。而遥操作仅为厘米级精度,惯性方案无绝对位置,数据质量下降且不能跨本体。真人数据可跨本体复用,服务整个行业。服务好一家人形公司后,也能为其他公司带来帮助,而非每家自定义标准导致效率低下。
陈亮:未来以人为中心的数据量级会比真机数据大多少倍?在机器人模型训练中未来比例如何?目前有共识吗?
Jase Qiang:目前无共识。尽管服务不少客户,但每家企业需求差异较大,行业处于早期阶段,难以确定固定比例。
陈亮:当前客户需求更多在真机数据还是真人数据?
Jase Qiang:作为数据公司,我们提供整体数据服务而非单纯销售设备。主要提供高精度、多模态真人采集方案,也可派遣人员采集。遥操作理论上可售设备即使用,但往往需配合retargeting(重定向)工作。
陈亮:前段时间GEN-0发布27万小时训练数据的具身智能模型,许多人认为GEN-0吹响了具身智能scaling law号角,未来将开始堆叠更大量的人为中心数据来训练模型,你们怎么看?
史晨星:其采用UMI方式,涉及方法论选择问题,你们倾向于哪种?
Jase Qiang:我们也提供UMI方案。UMI更简单、更易扩展、成本更低,我们提供基于Web Tracker的方案,比论文中UMI增加了精确位置、触觉压力与开合量数据。但UMI上限也较明确——缺乏身体其他部分数据,仅能处理前端小部分任务,能解决的问题较局限。
杨章欣:能否补充其他部分数据(包括移动数据)来突破上限?
Jase Qiang:目前主要提供人体姿态+灵巧手套的多模态触觉、位置、视觉方案。若拆除手套采用UMI方案但增加本体捕捉,可能解决部分上限问题,但因当前大部分夹爪机器人上半身灵活性有限,故此类需求不多。
陈亮:这是数据上的巨大挑战——类型多样且无统一共识。最后确认一下,是否认同GEN-0吹响了scaling law号角?
Jase Qiang:不敢断言由其吹响,但认为今年是可规模化(scale)的一年。
陈亮:值得期待。回到史总,你们投资众多公司,不少已大规模销售或上市。从实验室到生活场景,具身技术需跨越到何种程度才可能更好进入生活场景?
史晨星:未来的具身公司可能分为两大类。第一类是全栈软硬件自研、全场景覆盖,类似苹果封闭系统,可能仅有少数几家企业。第二类是分散到各个场景,专注将单一场景做深做透。
当前企业在工业、商业、家用等场景进行大量POC尝试。我认为放几台设备不足以证明打透场景,判断标准是:在单一场景单一工位达到几十台甚至上百台量级,才能真正立住。因此,单一场景单一工位能卖出几十上百台,该场景才算打透。
陈亮:有被投企业做到这一点或在路上吗?
史晨星:两类都有。第一类如星动纪元,全覆盖工业、商业、家用场景,可能不打算收敛。第二类我们确实在寻找,在单一家庭场景中,维他动力预订单接近1万台(尚未交付),这个量在家用户外场景基本能立住。
陈亮:工业或商业服务场景有吗?C端上万台且价格控制在万元左右很不容易。
史晨星:工业和商业场景目前确实还未看到达到百台量级的。像千寻、第五季等企业在工业场景已有一定规模,但未到百台,2026年很有可能达到。
陈亮:你还在投资该方向吗?还有哪些可投空间?
史晨星:仍持续投资,主要分为三个方向:第一,上游产业链(电机、关节、减速器、丝杠等核心部件),下游起量后将带来爆发式增长;第二,更多形态(四足、双足、双轮足、半身、人形全尺寸/中尺寸/小尺寸);第三,更多细分场景(工业、商业、酒店等能被打透的场景)。
陈亮:此次在美国深度体验后,看到哪些与国内不同的落地场景?
史晨星:整体相似,但确实存在需提升的场景。如支付不便,老需使用信用卡,未来机器人能否解决扫码支付问题?酒店基础设施能否迅速升级?两国国情不同但可互相学习。
陈亮:时间有限,最后请每位嘉宾用一句话展望2026年具身智能落地情况。
金戈:预测2026年是操作型机器人或"干活机器人"落地元年,届时将看到很多机器人在真实场景中创造价值,我们期待有所贡献。
杨章欣:期待明年CES时,为亮哥预订酒店,当电梯门打开,具身机器人走出来说:"陈总,房间已整理好,请入住。"
Jase Qiang:认为2026年机器人能干活的成果将被大众真实看到,不仅限于去年湾区企业发布的视频,而是真正被触摸和体验。
史晨星:2026年不仅是简单落地,而是批量落地——至少百台千台量级,营收达到千万级至上亿级别,这是具身智能行业应努力的目标。
陈亮:非常感谢各位分享。今天CES主场的圆桌到此结束,谢谢大家。(作者|郭虹妘,编辑|陶天宇)
热门跟贴