ROBOT INDUSTRY
以人形机器人为代表的具身智能在实验室中的“场景理解”与“任务规划”上进展显著,但面对真实的工业产线任务时,往往面临“想得到但抓不准、算得出但跟不上”的困境。这背后,是长期横亘在实验室环境与真实应用场景之间的鸿沟:人形机器人在空间层面的度量失准与时间层面的响应迟滞。优必选开发的具身智能大模型Thinker,旨在打造一个能为工业人形机器人提供快速反应与精准空间感知的下一代具身智能大脑,以应对动态工业场景的挑战。Thinker将作为智能基座,为优必选的群脑网络和协作智能体Co-Agent提供认知与决策支持,进而驱动单机自主与群体智能的协同进化。
1
视觉语言模型需求与现状剖析
近年来,大型视觉-语言模型(VLM)在广泛领域取得了显著成果,这促使众多研究人员将VLM应用于机器人领域。虽然VLM在场景理解方面表现出色,但它们在规划方面面临着重大挑战。特别是,它们难以根据当前和过去的观测来预测机器人的未来状态。大多数VLM主要是在视觉问答(VQA)和图像描述数据集上进行训练的,这些数据集中的场景通常是从第三人称视角描述的。缺乏针对机器人的训练数据,从根本上限制了当前模型实现有效机器人任务规划的能力。
当前,机器人领域大模型表现欠佳,尤其在空间理解、视觉感知等关键任务上精度不足;且模型参数量普遍较大,难以满足机器人对实时性的高要求;互联网上虽有海量数据,但质量参差不齐,制约了模型通过Data Scaling实现性能有效提升。
图1 优必选具身智能大模型Thinker在9项权威基准评测中排名全球第一
优必选具身智能大模型Thinker以“小参数、高性能、全开源”突破具身大脑领域限制。如图1所示,在涵盖10B以下具身智能大脑模型的权威基准评测中,Thinker一举拿下9项第一,重新定义了该领域的性能标杆。这些基准全面评估了具身智能的两大核心能力:一是机器人第一视角下的场景认知与任务规划能力;二是支撑物理交互的精准感知与空间理解能力。
具身智能的核心竞争力根植于高质量数据的支撑,但行业普遍面临原始数据噪声大、多模态对齐困难、标注成本高、小样本泛化难等痛点。优必选以数据为核心,构建了覆盖“精炼提纯-自动化标注-数据驱动训练”的全链路解决方案,通过极致的技术优化破解行业难题,为轻量化具身大模型的高性能表现筑牢数据基座。
2
Thinker模型技术解析
· 多样化的数据
如图2所示,Thinker在大规模和多样化的数据集上进行了训练,这些数据集增强了其在具身环境中的能力。具体来说,优必选精心制作了四类数据集,涵盖空间和时间理解、第一人称视角推理、规划,以及优必选的内部工业数据集,该数据集专注于工业环境中的多对象操作和运输任务。
图2 该图展示了制作的训练数据集的分布情况,将其分为四类:视觉定位、第一人称视角、路径规划、工业场景
视觉定位数据
为了发展强大的空间感知能力,优必选为边界框和点级别的目标定位构建了视觉定位数据集。对于边界框定位,优必选构建了Lvis-520K,其中包含由GPT-4o生成的关于物体功能的问答对。优必选还利用Sharerobot-affordance-6.5K训练模型学习可抓取区域。对于点定位,优必选使用了Pixmopoint-570K和Robopoint-667K的精炼版本,去除了包含超过10个点的实例和室外场景。这些数据集共同支持了精确空间感知和指令理解的发展。
第一人称视角推理数据
优必选通过仔细筛选和精炼Egoplan-it构建了Egoplan-it-100K,旨在推进时间推理和以自我为中心的任务规划。每个项目包括一个视频剪辑和最后一帧。优必选设计了两种任务格式:开放式和多项选择题。优必选使用标注的动作作为正确选项,并从其他序列中随机抽样至少三个动作作为多项选择题的干扰项。
机器人操作规划数据
优必选构建了一个大规模的机器人规划数据集Robovideo-1.8M。Robovqa是一个大规模数据集,包含超过800K个问答对,涵盖了多种具身形态,包括机器人、人类和工具辅助的人类交互。相比之下,Sharerobot包含1M个问答对,专为机器人操作任务中的细粒度规划而设计,涵盖了源自Open-x-embodiment的102种不同场景和12种机器人形态。通过在Robovideo-1.8M上进行训练,Thinker获得了在机器人任务场景中自发执行复杂推理的能力。
工业任务规划数据
为了进一步加强在现实世界场景中的长程推理能力,优必选构建了Industroplan-200K数据集,该数据集专注于涉及多对象操作和运输的工业环境中的任务规划。每个实例包括视频演示、任务目标和思维链注释,涵盖了多样的布局、对象类型和动作序列。Industroplan明确为长程任务而设计,使其适用于训练和评估复杂工厂环境中的机器人感知和规划。
· THINKER模型
模型架构
优必选开发了Thinker基础模型,这是一个具有百亿参数级别的大型视觉语言模型。架构如图3所示。Thinker包含四个模块:文本分词器、视觉编码器、用于对齐视觉和语言空间的多层感知机,以及语言模型主干。这种设计实现了跨视觉、语言和时间的统一表示。这使得Thinker能够准确捕捉视觉细节,理解任务指令,并在多种场景下进行推理,从而为具身智能提供可靠的基础。
图3 模型支持图像、视频和复杂的语言指令
训练策略
Thinker采用两步训练策略,以发展在复杂场景下的稳健任务规划能力。在第一阶段,优必选专注于建立模型的基础感知和推理能力。在第二阶段,优必选对下游规划任务进行监督微调,使其推理能力与任务特定目标对齐。这种策略使模型能够将其推理能力扩展到多样化的场景,适应下游任务,并最终在现实世界环境中生成可执行的计划。
第一阶段:专注于建立Thinker的基础具身能力。优必选在通用数据集、空间理解数据集和大规模规划数据集的组合上对Thinker进行微调,这使其具备了强大的空间感知和推理技能,从而为下游任务对齐和复杂场景下的长程规划提供了坚实基础。此外,在视频理解训练期间,优必选将每个视频剪辑的最后一帧作为辅助输入,这进一步增强了模型的性能。
第二阶段:专注于将Thinker的推理能力与复杂的工业规划任务对齐。优必选在Industroplan-200K数据集上进行监督微调。这个过程使模型能够将其从第一阶段继承的推理能力适应于序列依赖关系、多样的对象布局和纠正性反馈。因此,Thinker能够在现实工业场景中生成可执行的计划,有效地将空间理解与实际任务执行连接起来。
· 基础设施
优必选建立了支持Thinker训练、微调和推理的基础设施。该技术栈旨在(i)在异构数据集上联合训练,(ii)在优必选提出的模型之一Thinker-7B上执行参数高效的微调,以及(iii)在基准测试协议下以可靠性和可观测性进行部署。
大规模多任务训练基础设施
优必选解决了多任务、多模态训练中的三个实际挑战:(1)数据源间的异构性(带时间上下文的视频 vs. 单图像VQA);(2)从大型预训练主干高效且可复现地初始化;(3)大规模下的稳定吞吐量。优必选采用统一的采样模式,将所有示例规范化到一个任务感知的结构中,涵盖视觉输入、文本输入、监督目标和任务类型。通过一个根据验证反馈进行调整的动态采样器实现了平衡的任务混合,确保所有数据集在训练过程中都能有意义地贡献。此外,优必选采用分片加载和选择性冻结来最小化内存压力和预热时间。
微调模型的推理基础设施
一个任务感知的推理流程规范了EgoPlan-Bench2和RoboVQA的输入和输出。视频输入被转换为用于规划的简洁时间视觉表示,而静态图像VQA输入则被格式化为用于紧凑推理。输出被规范化以符合每个基准的评估协议,从而实现无缝且可重复的评估。
容错与监控
优必选持续跟踪优化信号(每个任务的损失)、吞吐量、加速器内存和设备利用率。自动警报会提示异常情况(例如,利用率下降或损失漂移),使操作员能够快速干预,最大限度地减少计算浪费。长周期训练运行采用周期性检查点(模型、优化器和数据加载器游标),以便在节点故障时快速恢复。当发生中断时,启动器从最新的一致状态恢复,无需重新处理数据集的大部分内容。
3
优必选THINKER模型创新性
优必选自主研发的Thinker架构与训练框架通过多项关键技术创新性整合,系统化提升了人形机器人的感知与推理规划能力,为工业场景的规模化应用奠定基础。
第一,自研视觉编码器基座,构建精准环境感知。优必选以ViT作为视觉编码器原型,结合Co-DETR检测头,依托Object 365等开源数据在通用视觉任务上进行预训练,并通过多阶段模态对齐机制实现了视觉-语言模态的高效融合。最终,在优必选机器人数据集上进行微调,显著提升机器人在工业场景中对物体、障碍和操作上下文的识别能力,为复杂环境下稳定可靠的多模态环境感知奠定了坚实基础。
第二,超大规模参数架构,提供强大语义理解基础。优必选自研了具有百亿参数的多模态大模型Thinker基座,实现视觉-语言-时间的跨域统一表征,使机器人能够在多场景中准确捕捉环境细节、理解任务指令,并做出推理,为自动化操作提供可靠的认知基础。
第三,时序增强算法与强化学习方法,增强长程任务规划连贯可靠。通过大模型蒸馏技术,将百亿参数模型效果浓缩至7B参数模型中,在保持高性能的同时,增强多步骤任务分解与连续决策能力。该优化使模型可以在端侧部署,用机器人自身搭载的算力就可实时自主拆解复杂流程,避免规划中断或逻辑混乱,在流程严格、环环相扣的工业场景中展现出关键价值,将有力保障生产连贯性和操作安全性。
4
预期成果与社会效益
工业场景的精调策略正成为推动多模态大模型迈向实际应用的关键力量,为人形机器人在生产线上的稳定、高效部署奠定了技术基础,加速其从技术验证走向规模化实战应用的进程。
优必选创新性地采用“通用基础能力打造+工业场景精调”的微调策略,基于超200万条视频数据构成的大规模训练集进行预训练,随后引入优必选在工厂实训中积累的亿级工业数据集进行微调,并对工业场景任务规划数据加以清洗与整合,构建高效多模态大模型学习闭环。通过这一流程,模型能够快速学习工业场景的视觉特征、任务规则与操作偏好,最终显著提升人形机器人在工业场景中的理解准确率、规划适配性与决策可靠性,实现在多种复杂场景中的泛化性与稳定性。
在Thinker大模型技术体系的全方位赋能下,优必选新一代工业人形机器人Walker S2实现“最强大脑”再进化,不仅具备高精准环境感知能力,更能够在动态场景中高效完成任务分解、实时调整与稳定规划。借助Thinker,Walker S2可精准识别设备、物料与障碍物,深度理解场景语义及操作前后逻辑关联,显著提升长周期任务的执行稳定性。在复杂流水线环境中,机器人展现出持续连贯的规划能力,大幅降低对人工干预的依赖。
实际应用数据显示,相比仅基于通用数据微调的模型,采用工业数据集进行二次微调后,Walker S2在拆码垛规划等典型任务中的规划精度提升超过 20%,有力验证了该技术方案的产业化价值。
5
行业前景与展望
当前,人形机器人正在进入大规模应用的关键阶段,其发展亟需与开发者共同构建开放、协同的应用生态。为此,优必选将逐步开源一系列业界稀缺的工业场景数据集与通用基础大模型,为全行业提供源自实际应用一线的高质量合规数据资源。开发者可基于优必选多模态大模型Thinker,面向各类新场景开展精调与二次开发,助力提升开发效率。优必选期待与全球开发者携手,共创工业人形机器人的应用生态,为具身智能行业的加速发展注入持续动能。
6
结论
具身智能正加速渗透工业智造、商用服务等千行百业,但技术门槛与成本限制成为行业普及的关键瓶颈。优必选坚持开源共享理念,将模型权重、训练工具链与应用案例全量开放,希望与更多开发者和企业共同拥抱具身智能的浪潮。
本文作者:
曾 泉 深圳市优必选科技股份有限公司技术开发工程师
林 亮 广东理工学院
钟汶峻 惠州学院
阅读更多内容,欢迎订购《机器人产业》杂志。
点击跳转!圈内人都在看的专家观点
热门跟贴