1月12日,在第九届深商盛典 “AI 硬件论坛” 上,自变量机器人创始合伙人兼 COO 杨倩以 “基于具身大模型构建可精细操作的通用机器人” 为主题发表演讲。她深入剖析了机器人在物理世界应用中的核心痛点,分享了自变量在具身智能大模型领域的技术探索与落地成果,提出具身智能大模型是赋予机器人 “自主” 能力的核心引擎,为行业突破技术瓶颈、实现规模化应用提供了全新思路。

打开网易新闻 查看精彩图片

行业悖论:物理世界的复杂性挑战传统 AI

“人工智能领域存在一个有趣的悖论:人类觉得最简单的事情,对机器人来说往往最难;而人类认为复杂的任务,机器人却能轻松完成。” 杨倩在演讲开篇抛出的观点引发了现场嘉宾的强烈共鸣。她举例道,ChatGPT 等大语言模型能在几秒内完成诗歌创作、PPT 制作等复杂任务,但却无法完成清理垃圾、刷马桶、叠衣服等人类习以为常的基础劳动。

这一悖论的背后,是物理世界与数字世界的本质差异。杨倩解释道,数字世界的信息具有结构化、可预测性的特点,而物理世界充满了不确定性与复杂性。“同样是抓取物体,一个圆形的硬盒子和一个柔软的塑料袋,机器人需要采用完全不同的力度和方式;即使是同一个物体,在不同的摆放角度、不同的环境光照下,处理方式也需灵活调整。”

传统技术难以应对这种复杂性。工业场景中的机械臂虽然能实现毫秒级的精准操作,但只能在固定场景下完成单一任务,一旦更换操作对象或环境,就会完全失效;家庭场景中的扫地机器人,也需要人类提前清理障碍,无法自主应对突发状况。“这些问题的核心症结在于,传统 AI 模型缺乏对物理世界的理解能力,无法像人类一样‘感受’环境变化并做出适应性决策。” 杨倩强调,破解这一难题,必须依靠专门针对物理世界研发的具身智能大模型。

打开网易新闻 查看精彩图片

技术路径:端到端路线构建具身智能大脑

“如果说硬件是机器人的躯体,那么具身智能大模型就是赋予其感知、决策、执行能力的大脑。” 杨倩表示,自变量机器人从成立之初就确立了 “以大模型为核心” 的技术路线,构建了端到端的全栈自研模型。

与传统 AI 模型不同,自变量的具身智能大模型是平行且独立于大语言模型的全新基础模型。“它不是对现有大语言模型的简单微调,而是基于物理世界的特性从头研发。” 杨倩介绍,该模型具备多模态输入输出能力,能够整合视觉、触觉、力觉等多种传感器数据,实现对物理世界的全方位感知。

在数据训练方面,自变量构建了海量的真实场景数据集,涵盖家庭服务、工业生产、养老等多个领域。“我们收集了数百万条物体操作数据,包括不同材质、不同形状物体的抓取、搬运、装配等过程,让模型能够学习物理世界的基本规律。” 杨倩表示,通过持续的训练与优化,模型已具备强大的泛化能力,能够应对未见过的场景与任务。

实时应对能力是具身智能大模型的另一大优势。“物理世界的交互是实时进行的,机器人必须在毫秒级时间内做出决策。” 杨倩举例道,当机器人抓取一个易碎品时,需要实时感知物体的重量、硬度,动态调整抓取力度,避免物体损坏。自变量的具身智能大模型能够实现感知与决策的无缝衔接,确保机器人在复杂环境中高效、安全地完成任务。

打开网易新闻 查看精彩图片

落地成果:从技术突破到场景赋能

经过两年多研发,自变量的具身智能大模型已实现多项世界性技术突破,成功赋能机器人完成一系列复杂任务。“柔性物体操作是行业公认的技术难题,而我们的机器人已经能够自主完成晾衣、叠衣、切菜等任务。” 杨倩通过视频展示了机器人的实操成果。

在家庭服务场景中,自变量机器人能够根据衣物材质调整晾晒方式,将衬衫、毛衣等不同衣物分类叠放整齐;在厨房场景中,机器人可以精准控制刀具力度,完成切菜、配菜、倒果汁等操作,动作流畅度堪比专业厨师。“这些任务看似简单,但需要机器人具备对物体属性的精准感知、对操作力度的精确控制,以及对任务流程的合理规划,是具身智能大模型能力的综合体现。” 杨倩介绍道。

工业场景中,自变量机器人成功解决了柔性生产的痛点。传统自动化生产线难以应对多品种、小批量的生产需求,而自变量的机器人能够快速适应不同规格、不同材质的产品,完成装配、检测、包装等工序。

更令人瞩目的是,自变量机器人已实现高自由度灵巧手的精准控制。“我们的灵巧手拥有20个自由度,能够完成发牌、系鞋带等精细操作,每一个手指的动作都能精准模拟人类。” 杨倩表示,这一突破意味着机器人在精细操作等高端领域的应用成为可能。

打开网易新闻 查看精彩图片

展望未来,杨倩表示,自变量将持续深耕具身智能大模型技术,推动机器人在更多场景的落地应用。“我们的目标是让机器人能够真正融入人类的生产生活,成为无所不能的助手。” 她认为,随着技术的不断进步,具身智能将打通数字世界与物理世界的壁垒,在家庭服务、工业生产、医疗健康等领域引发深刻变革,让 “机器人开始感受世界” 成为改变人类生活的重要力量。