十万平方具身数据工厂来了，刚融10亿的帕西尼想要突破泛化瓶颈|具身|帕西尼|操作数|数据工厂|模态|算法|自然语言

21世纪经济报道记者邓浩

今年全国两会，“具身智能”又一次写进了政府工作报告。

工信部部长李乐成在“部长通道”明确表示，将全力推进人形机器人等新一代人工智能产品，通过“找场景”挖掘传统产业潜力，通过“造场景”激发新兴产业活力。

政策信号很明确，行业也憋着一股劲。但真正干这行的人心里清楚，机器人本体做得再好，一到真实场景就容易“翻车”——泛化性不足，就像让一个只会背书的学生去解决实际问题，一上手就懵了。

要让机器人真正理解物理世界，光靠算法不够，得让它“见过世面”。这意味着需要海量、异构、多维数据。某种程度而言，谁手里握着高质量的数据，谁就掌握了行业的定义权。

深圳的帕西尼正在下一盘大棋。去年4月，他们在天津建了全球最大的全模态数据采集工厂。最近，刚完成10亿元B轮融资的帕西尼，又放了个大招：在江苏宿迁、湖北武汉、四川自贡、江西赣州再建四座工厂。如此大手笔的投入，意在何为？

数据饥渴解法

“目前具身智能正从技术验证期迈向产业爆发期。然而，本体的质量虽在提升，‘泛化性不足’仍是阻碍机器人进入千行百业的核心瓶颈。要解决泛化难题，根源解法在于采集大规模真实场景下的交互数据，来持续训练具身智能模型。”帕西尼相关负责人对21世纪经济报道表示。

这一判断直接点明了帕西尼此次大规模扩张的战略逻辑。

据悉，此次四厂齐发，并非简单的产能复制，而是形成“专业化采集+场景化创新+模型化验证”的完整数据生态链，适配各区域产业禀赋。

其中，天津工厂作为先导基地，持续沉淀标准化全模态具身数据；宿迁工厂结合当地特色场景，并与股东京东集团在当地的产业集群相结合，深耕智慧物流、白酒酿造、绿色家居、智能零售等场景。

武汉工厂凭借深厚的工业积淀，主攻汽车制造、3C装配等工业场景，同时与国家网络安全人才与创新基地协同；自贡工厂协同当地无人驾驶与低空经济等高端产业集群，着力打造“数据-模型”闭环生态；赣州工厂则全面导入全身数据采集方案，精准承接新能源、南方特色农业、消费电子等数据采集任务。

该负责人称，“这种全域分布式布局，彻底打破了传统数据采集局限于受控环境（In-lab）的桎梏，真正做到数据源于场景、用于场景。依托统一的数据接口与多厂协同调度系统，帕西尼可实现跨区域、跨场景数据的秒级流转与融合。”

其进一步表示，在百亿级实采数据规模的基础上，帕西尼依托统一的数据接口与多厂协同调度系统，形成“统一化标准、分布式采集、集中式处理”的模式，使五厂集群形成有机整体，单日数据产出等效于人类一生的交互经验，以“一日一生”的数采速率，真正破解行业“数据饥渴”。

数据何以成为产品？

泛化是目前产业的核心瓶颈之一，但具身数据的生意并不好做。

记者从行业获悉，不少企业对具身数据的付费意愿不足，同时ROI周期难以控制。比如，具身构型各家都不太一样，在行业没有统一标准的前提下，采集的具身数据很难通用。

前述帕西尼负责人也坦言，“（用户不愿意付费）原因既有数据的品质问题，也有适配性的担忧，以及担心重复投资问题。核心问题还是在于数据作为商品的质量问题。”

对此，帕西尼给出的解法是让数据成为可交易、可量化、可复用的产品。

支撑这一思路的技术基础，是帕西尼“以人为中心”(Human-Centered)的全模态感知高精度实采具身数据体系，从一开始就突破行业普遍的数据可用性低的困境，具备极强的跨本体能力，可实现具身操作数据“一次采集，多机复用”。

通过真人佩戴PMEC采集手套，实现符合人类直觉与真实物理规律的真实数据采集，以解决遥操作数据动作不协调、仿真环境存在“模拟到现实鸿沟”的问题。

上述帕西尼负责人透露，“我们的数采工厂所生产的亿级数据集OmniSharing DB获得互联网头部客户及科研机构的高度认可。同时，我们携手腾讯云打造‘数据云商城’，通过‘数据产品化、交易标准化’的模式，让客户能够像购买商品一样采购所需数据，直接破解‘场景落地难’的困境。”

记者从帕西尼获悉，其目前的模型迭代周期，从以“月”计压缩至以“天”计，由于技术自研率超过90%，已实现成本结构的彻底颠覆，将单条数据的采集成本压低至行业均值的十分之一。

五厂齐发，十万平级，百亿数据——帕西尼的这场“基建狂飙”，或许正折射出具身智能产业的一个关键转折点：当算法竞赛进入深水区，决定胜负的筹码正在向数据端倾斜。

十万平方具身数据工厂来了，刚融10亿的帕西尼想要突破泛化瓶颈