21世纪经济报道记者邓浩

今年全国两会,“具身智能”又一次写进了政府工作报告。

工信部部长李乐成在“部长通道”明确表示,将全力推进人形机器人等新一代人工智能产品,通过“找场景”挖掘传统产业潜力,通过“造场景”激发新兴产业活力。

政策信号很明确,行业也憋着一股劲。但真正干这行的人心里清楚,机器人本体做得再好,一到真实场景就容易“翻车”——泛化性不足,就像让一个只会背书的学生去解决实际问题,一上手就懵了。

要让机器人真正理解物理世界,光靠算法不够,得让它“见过世面”。这意味着需要海量、异构、多维数据。某种程度而言,谁手里握着高质量的数据,谁就掌握了行业的定义权。

深圳的帕西尼正在下一盘大棋。去年4月,他们在天津建了全球最大的全模态数据采集工厂。最近,刚完成10亿元B轮融资的帕西尼,又放了个大招:在江苏宿迁、湖北武汉、四川自贡、江西赣州再建四座工厂。如此大手笔的投入,意在何为?

打开网易新闻 查看精彩图片

数据饥渴解法

“目前具身智能正从技术验证期迈向产业爆发期。然而,本体的质量虽在提升,‘泛化性不足’仍是阻碍机器人进入千行百业的核心瓶颈。要解决泛化难题,根源解法在于采集大规模真实场景下的交互数据,来持续训练具身智能模型。”帕西尼相关负责人对21世纪经济报道表示。

这一判断直接点明了帕西尼此次大规模扩张的战略逻辑。

据悉,此次四厂齐发,并非简单的产能复制,而是形成“专业化采集+场景化创新+模型化验证”的完整数据生态链,适配各区域产业禀赋。

其中,天津工厂作为先导基地,持续沉淀标准化全模态具身数据;宿迁工厂结合当地特色场景,并与股东京东集团在当地的产业集群相结合,深耕智慧物流、白酒酿造、绿色家居、智能零售等场景。

武汉工厂凭借深厚的工业积淀,主攻汽车制造、3C装配等工业场景,同时与国家网络安全人才与创新基地协同;自贡工厂协同当地无人驾驶与低空经济等高端产业集群,着力打造“数据-模型”闭环生态;赣州工厂则全面导入全身数据采集方案,精准承接新能源、南方特色农业、消费电子等数据采集任务。

该负责人称,“这种全域分布式布局,彻底打破了传统数据采集局限于受控环境(In-lab)的桎梏,真正做到数据源于场景、用于场景。依托统一的数据接口与多厂协同调度系统,帕西尼可实现跨区域、跨场景数据的秒级流转与融合。”

其进一步表示,在百亿级实采数据规模的基础上,帕西尼依托统一的数据接口与多厂协同调度系统,形成“统一化标准、分布式采集、集中式处理”的模式,使五厂集群形成有机整体,单日数据产出等效于人类一生的交互经验,以“一日一生”的数采速率,真正破解行业“数据饥渴”。

数据何以成为产品?

泛化是目前产业的核心瓶颈之一,但具身数据的生意并不好做。

记者从行业获悉,不少企业对具身数据的付费意愿不足,同时ROI周期难以控制。比如,具身构型各家都不太一样,在行业没有统一标准的前提下,采集的具身数据很难通用。

前述帕西尼负责人也坦言,“(用户不愿意付费)原因既有数据的品质问题,也有适配性的担忧,以及担心重复投资问题。核心问题还是在于数据作为商品的质量问题。”

对此,帕西尼给出的解法是让数据成为可交易、可量化、可复用的产品。

支撑这一思路的技术基础,是帕西尼“以人为中心”(Human-Centered)的全模态感知高精度实采具身数据体系,从一开始就突破行业普遍的数据可用性低的困境,具备极强的跨本体能力,可实现具身操作数据“一次采集,多机复用”。

通过真人佩戴PMEC采集手套,实现符合人类直觉与真实物理规律的真实数据采集,以解决遥操作数据动作不协调、仿真环境存在“模拟到现实鸿沟”的问题。

上述帕西尼负责人透露,“我们的数采工厂所生产的亿级数据集OmniSharing DB获得互联网头部客户及科研机构的高度认可。同时,我们携手腾讯云打造‘数据云商城’,通过‘数据产品化、交易标准化’的模式,让客户能够像购买商品一样采购所需数据,直接破解‘场景落地难’的困境。”

记者从帕西尼获悉,其目前的模型迭代周期,从以“月”计压缩至以“天”计,由于技术自研率超过90%,已实现成本结构的彻底颠覆,将单条数据的采集成本压低至行业均值的十分之一。

五厂齐发,十万平级,百亿数据——帕西尼的这场“基建狂飙”,或许正折射出具身智能产业的一个关键转折点:当算法竞赛进入深水区,决定胜负的筹码正在向数据端倾斜。