打开网易新闻 查看精彩图片

机器人前瞻(公众号:robot_pro)
作者 程茜
编辑 漠影

机器人前瞻2月5日报道,人形机器人第一股优必选近期开源了最新的自研具身智能大模型Thinker,一举拿下9个权威基准测试榜第一。Thinker参数规模仅4B,就在多项基准测试超过10B以上参数规模模型,成为大模型领域“以小搏大”的又一典型代表。

打开网易新闻 查看精彩图片

此前具身智能落地真实工业产线,始终存在难以突破的技术门槛,核心症结便是机器人空间度量失准、时间响应迟滞,这也成为其从实验室技术走向产业化应用的关键瓶颈。

开源的Thinker模型,正是优必选在具身智能规模化应用的前夜,交出的一份全新高分答卷,而该模型的性能突破,正源于优必选的两大核心优势:

作为人形机器人第一股,优必选是国内深耕人形机器人领域的先行者,不仅率先实现人形机器人的工厂落地应用,更在具身智能的场景理解、数据积累与模型能力打磨上形成了深厚积淀;

其研发目标瞄准的是支撑人形机器人从感知、认知、决策到执行的全闭环能力,可以应对工业、服务等不同场景的多样化需求,构建通用的具身智能基座模型

如今最为直接的例证就是,优必选已在自研的Thinker基座模型上进行模型的二次开发,真实应用于Walker S2,并在工厂中进行小批量应用,为其具身智能生态发展迈出关键一步。

一、刷榜9大权威榜单,让机器人突破落地限制

Thinker要解决的核心问题是,让机器人不仅能在各项测试中“考高分”,还能在真实业务场景里快速落地、真干活。

先来看下这一模型的性能表现。

与多个10B参数规模以下模型相比,Thinker在全球的具身智能大脑模型权威榜中拿下了9项第一。

规划与视觉定位能力中,Thinker在全部5个测评中均排名第一。这主要考察的是模型理解空间关系、定位物体和执行规划的能力,其结果说明Thinker在面对看哪里、将物品放到哪里等空间规划与视觉理解相关任务上有优势。

此外是考察模型对三维空间、立体结构的感知与推理能力的3D空间理解能力维度,Thinker拿下其中三项第一。

还有在多模态综合理解方面,Thinker在RealWorldQA基准测试集上排名第一,证明其在真实世界的场景问答中的能力,在通用学术评测MMMU中,其表现略逊于更大参数量模型。这进一步说明,优必选此次开源的新模型在真实世界应用场景的理解上会优于通用大模型。

打开网易新闻 查看精彩图片

面对参数规模更大的10B以上模型,Thinker的表现并不逊色。

其拿下了7项第一,在规划与视觉定位、3D空间理解上,Thinker面对机器人核心感知能力相关的物体空间关系理解、目标定位、任务规划等测试,表现仍优于通用大模型。

不过在多模态综合理解上,该模型排名靠后,这或许是因为其在知识储备上无法与32B、72B级别的大模型抗衡。

打开网易新闻 查看精彩图片

综合来看,Thinker的表现证明了其能让机器人在自主看懂所处环境、规划好做事步骤,以及精准感知周边情况、搞懂空间关系、完成物理互动方面的真本事。

二、手握真实场景资源,构建数据飞轮与技术应用正向闭环

优必选选择打造Thinker通用基座模型,背后有着贴合自身发展优势与行业生态布局的独特考量,体现在两大核心维度:

首先,优必选手握大量高质量真实场景数据,能够在模型训练中充分释放数据价值。

其次,Thinker以通用基座能力为基础,可高效适配具身智能与真实世界场景,实现更广泛的产品与生态落地。

这背后的关键前提就是高质量的训练数据。一般而言,模型训练的原始数据需要经过严格的清洗、标注与筛选,才能有效驱动模型性能提升。

面对20B、含噪声、难对齐、模态缺失的原始数据,优必选构建全流程自动化“精炼提纯”流水线。通过“数据筛选”与“质量评分”两步,将其提纯为10M级别的高质量数据。

为了找到高质量数据,其制定了规则快速从20B数据中过滤出约1%的候选数据池,然后引入大模型构建多维度评分模块,再次筛选出约1%的最高质量数据。

基于此,优必选为Thinker构建了四种数据集,涵盖空间和时间理解、自我视角推理、机器人操作规划以及其内部开发的工业数据集Industroplan。其中,Industroplan专注于工业环境中的多物体操作和运输任务。

打开网易新闻 查看精彩图片

▲模型训练数据分布

接着是数据标注环节,其痛点在于人工标注成本居高不下,且因具身智能的场景特性和数据本身的多维复杂性使得标注难度不小,因此优必选搭建了“弱监督+自监督+少量人工校验”的自动化标注体系。

其通过大模型辅助标注叠加多模型交叉验证,实现视觉场景分割、动作序列分类、指令意图解析等任务的端到端自动化标注。同时,其会将人工参与率控制在1%以下, 仅对标注置信度低于阈值的样本进行人工复核。最后,该机制还包括建立动态迭代优化体系,把模型训练后的误差反馈至标注流水线,持续优化标注算法参数。

这样一来,其就可以形成自动化标注闭环,且相较全人工标注方案成本降低99%,标注效率提升超百倍。

这一方案的核心价值在于,既依托高质量数据筑牢大模型训练的核心根基,更让Thinker模型的能力打磨深度贴合具身智能的实际落地场景,使其具备更强的实用价值与商业化落地潜力。

打开网易新闻 查看精彩图片

Thinker模型的意义远不止于此,基于其技术积淀,优必选还打通了数据回流机制,构建起具身智能领域的数据飞轮:通过将技术方案深度部署于工厂搬运、工件分拣等真实工业场景,把核心技术优势切实转化为场景落地能力,同时让场景端产生的真实数据持续反哺模型迭代进化。

以工厂搬运为例,系统持续收集实际作业中的长尾案例数据,如料箱识别失败、抓取轨迹动态调整等。这些真实场景数据直接反哺Thinker模型的训练,推动其自主进化,不断增强基础性能与场景适应能力。最终基于Thinker大模型,Walker S2可在箱体搬运、工件分拣等下游应用场景中实现99.99%的作业准确率

三、全链路优化,训练策略适配具身智能通用需求

尽管获取高质量数据是训练具身智能大模型的关键,但优必选之所以能凭借优质数据训出超越一众主流模型的Thinker,核心还在于一套科学系统的模型训练策略。

更重要的是,其模型始终围绕通用基座模型的定位展开,从源头适配先进且广阔的具身智能生态建设需求

Thinker的技术报告提到,该模型架构包括四个模块,文本分词器、视觉编码器、用于对齐视觉空间和语言空间的多层感知器以及大语言模型主干。

在具体的训练过程中,研究人员分成了两个训练阶段,以让模型在复杂场景下也能有稳定的规划能力。

第一阶段是专注于构建模型的基础感知和推理能力。研究人员结合通用数据集、空间理解数据集和大规模规划数据集对Thinker进行微调,使其具备空间感知和推理能力为后续复杂场景下的任务对齐和长远规划奠定基础。

值得一提的是,研究人员还会视频理解训练过程中将每个视频片段的最后一帧作为辅助输入,以进一步提升模型性能。

打开网易新闻 查看精彩图片

第二阶段的重点是,对下游规划任务进行监督式微调,使模型推理能力与特定任务目标保持一致。

研究人员对Industroplan-200K数据集进行监督式微调,这一过程使模型能够将其从第一阶段继承的推理能力应用于顺序依赖关系、多样化的对象布局以及纠错反馈。

这使得Thinker能够在真实的工业场景中生成可执行的规划方案,有效将空间理解与实际任务执行联系起来。

不论从训练数据的选择、标注还是到训练策略的设计,Thinker均服务于其具身智能基座模型的核心定位。不同于单一功能型模型,优必选凭借模块化架构、高效训练策略打造的模型具备通用化、高适配、强性能的核心能力

并且基于这一通用底座,开发者可灵活进行二次开发、按需拓展,为搭建更先进、更广阔的具身智能生态,筑牢可复用、可拓展、可协同的智能底座。

根据当前行业发展的趋势,Thinker这样以开源为核心支撑的具身智能生态建设正稳步推进,为人形机器人自主化水平的提升打开新的发展空间。

结语:瞄准具身智能通用底座,优必选加速打破技术壁垒

优必选打造并开源的Thinker基座模型,相当于为行业提供了一个通用、开放的技术底座,不同的科研团队可以基于这个底座,针对不同场景做个性化的模型开发;不同的企业可以将自身的硬件、场景数据与基座模型对接,快速实现具身智能技术的落地应用。

这种模式打破了技术之间的壁垒,让行业资源得以高效整合。

具身智能的终极愿景是让机器人走进千行百业、融入人类生活,实现与人类的高效协作,这一目标绝非单一功能模型、单一企业能实现,也需要技术的持续迭代和形态的不断进化。而基座模型的生态化布局,恰好为这一长远愿景预留了充足的技术空间。