本报记者 吕绍刚

打开网易新闻 查看精彩图片

丁哲章(左一)在采集机器人叠衣服的数据。 受访者供图

广东深圳光明区一间实验室内,摆满了各类机器人、机械臂。数据采集师丁哲章头戴VR(虚拟现实)设备,双手操控手柄在空中指点。他眼前的虚拟画面,正是机器人“眼中”的世界。

在一个摆满药品的货架前,丁哲章微微抬手,按下按钮,身旁机器人的“手指”稳稳夹起一个药盒,跟随着丁哲章的手部运动轨迹,将药盒放入收纳箱中。这正是丁哲章团队每天工作的主要内容:为具身智能机器人的“大脑”喂高质量的真实数据。

“如果把模型训练视为‘做菜’,那么数据就是‘食材’。”丁哲章取下VR头戴式显示器,接着介绍,“我们要做的,就是从‘采摘’到‘清洗’的全流程,即数据的采集、标注和管理。”

目前,具身智能的训练面临一个难题:机器人尚未广泛进入真实场景,缺乏自然产生的行为数据。

“它不像大语言模型,有海量的互联网语料供学习;也不像自动驾驶,能从真实路况中积累数据。”丁哲章解释,机器人的每一步动作,早期需要人为引导、主动采集,否则就会陷入“无米下锅”的境地。

为此,丁哲章团队研发了一套软硬件结合的真机数据采集系统,包括通用机器人遥操作系统、具身数据平台、人体数据采集系统等,打通机器人大模型训练之前的所有流程,为具身智能机器人基础场景数据提供解决方案。

实验室里,有一片被称作“机器人超市”的测试区。不同形态的机器人——人形的、轮式的、机械臂的,分布在货架、桌面、床铺等场景中。几位同事或身穿动作捕捉服,模仿武术和舞蹈动作,或通过VR头戴式显示器操控机械臂叠衣、缝纫等。

“机器人数据采集有两个关键任务:一是运动控制数据,用于训练机器人的‘小脑’,实现走、跑、跳等基础运动;二是真机操作数据,通过遥操作让机器人学会抓取、摆放等任务,训练它的‘大脑’。”丁哲章说。

说话间,抓药的机器人完成了一组训练。“在单一场景下,一个动作可能只需几百条数据,但要让它应对不同的环境变化,就需要采集更大规模的数据。”丁哲章指出,机器人不是记住某个固定坐标,而要从大量相似经验中提炼“该怎么抓取”的泛化能力。

这一庞大需求,催生了一个新兴职业:数据采集师。他们要做的,并非简单的重复动作,而是需要理解机器人的运动逻辑,就像手把手教人写字。

数据采集仅是第一步。实验室旁,数据标注员正对着屏幕标记动作细节:“何时伸手”“抓住何物”“是否成功”……这便是“洗菜”环节,确保数据干净清晰,才能高效“下锅”。同时,自动化、半自动化的标注工具,还可进一步提升数据批量处理能力。

这一系列精密严谨的工序,构成了具身智能赖以训练的基础。丁哲章说,机器人企业拿到我们提供的“原材料”,便能够“炒菜”并“端上桌”,投入到市场应用。

2023年5月创业至今,丁哲章已带领团队服务国内外上百家机器人企业、科研院所等,覆盖60多种机器人形态。“我们正在帮助行业打破‘没有数据就没法用,没法用就没数据’的死循环。每一个任务的闭环,都在拓展机器人的能力边界。”他说。

谈及行业未来,丁哲章认为当前机器人在成长过程中,需要持续的数据喂养。随着各地机器人数据采集场陆续建设,数据采集新业态加速成形。“我们做的,就是通过数据积累,推动行业迭代升级。”丁哲章说。

《 人民日报 》( 2026年03月25日 10 版)