允中 发自 凹非寺
量子位 | 公众号 QbitAI
过去两年,具身智能的资源与研究重心高度集中于视觉感知,聚焦于“让机器人看懂世界”。
但在真实精细化操作场景中,核心挑战往往不在视觉识别本身,而在物理接触后的交互环节
能够完成USB接口的视觉对准,却难以判断插入过程中的受力变化与合适力度;能够夹起衣物,却无法实时感知布料的滑移状态与张力分布,难以完成精准的褶皱整理。
绝大多数精细化操作的失败节点,并非视觉识别阶段,而是物理接触发生之后的交互过程。
这一行业共性痛点,正是新智具身选择触觉具身智能赛道的核心切入点。
5月27日,上海新智具身智能科技有限公司(NeoteAI,以下简称“新智具身”)宣布完成近亿元天使轮融资,本轮由上海国投旗下上海科创集团,以及复旦科创联合领投,上海科创集团旗下策源基金等共同投资,多维资本担任独家财务顾问。
据公开信息显示,新智具身源自复旦大学可信具身智能研究院,背靠产学研与地方政策双重加持,作为复旦大学与静安区战略合作的重要落地成果,公司在初创期便获得静安区科经委与市北高新集团的大力培育,先后获得静安区战略性资金及上海市经信委促进产业高质量发展专项资金的支持,上海市科委也针对其核心视触觉传感器的研发给予了专项经费支持,全面加速公司的技术攻关进程。
在行业持续押注视觉、VLA和大模型的时候,新智具身选择把一个更底层的物理问题放回机器人训练主干:
机器人不只要看懂世界,还要在碰到世界之后,知道自己碰到了什么、碰得对不对、下一步该怎么动。
简单说,它赌的是触觉。
机器人缺的不只是视觉,还有手感
机器人精细化操作的绝大多数失败,都发生在与物理世界产生接触的瞬间及后续过程。
对于人类而言,很多判断几乎是下意识完成的:
- 手指触碰到接口边缘时,手腕会根据阻力反馈自然微调角度;
- 拿起纸杯时,指尖会依据杯壁形变实时调整夹持力度;
- 整理布料时,手部会顺着张力变化动态改变拉动方向。
而这些,正是当前机器人感知体系中缺失的关键一环。
新智具身的核心行业判断是,具身智能正从单一“视觉中心主义”,向“视觉+触觉双中心”的感知体系演进:视觉负责全局定位与语义理解,触觉则承担接触后的物理状态反馈与动态调整
只要机器人与物理世界产生交互接触,触觉信息就是不可或缺的核心感知要素。
但触觉感知的落地,绝非简单加装一个传感器就能实现。
若触觉信息仅停留在孤立的硬件读数层面,便无法真正转化为机器人的操作能力。
新智具身的核心目标,是将触觉感知转化为可训练的标准化数据,使其深度融入具身模型的训练与推理全链路。
新智具身的核心团队源自复旦大学可信具身智能研究院,具备深厚的产学研融合基因。
CEO赵世豪本硕毕业于复旦大学,博士就读于香港大学,曾作为核心研究员在微软全球研究院、阿里通义实验室深耕前沿模型研发,研究覆盖视频世界模型、生成式模型;
首席科学家吴祖煊为复旦大学可信具身智能研究院副院长,曾任职于Meta,长期深耕视频模型、多模态模型等核心领域;
COO董道国则是兼具学术与产业经验的跨界人才,具有近20年的产业界经历,曾任华为荣耀Magic一代首席架构师,现任复旦大学可信具身智能研究院研究员,主要为公司的技术商业化保驾护航。
正是基于团队在多模态模型领域的深厚积累,新智具身并未选择单一硬件的切入路径,而是同步布局视触觉传感器、精细化数据采集平台与触觉具身大模型三大核心板块,构建完整的技术闭环。
先把触觉信号采回来
新智具身技术落地的首要环节,是实现机器人末端执行器接触信息的高精度采集
公司自主研发的视触觉传感器,可全面适配工业夹爪与灵巧手等末端执行器,能够精准采集接触过程中的力值、滑移、形变与边界轮廓等多维度物理信息。
这一技术路线的核心在于视触觉感知范式。
传统压阻式、电容式触觉传感器多输出低维离散点信号,仅能反馈单点受力状态,无法完整还原接触面的几何轮廓、滑移方向、表面纹理与形变边界等关键信息。
更为关键的是,此类方案的感知性能上限在硬件出厂时即已基本固化,难以通过后续算法迭代实现能力提升。
视触觉技术采用全新的感知原理:传感器内部集成微型光学相机,通过拍摄柔性硅胶表层在接触物体时产生的亚毫米级形变图像,再由端侧深度学习模型解耦出六维力信息、滑移轨迹、物体表面轮廓与像素级力场分布。
这一技术路线具备两大核心优势:
其一,感知信息密度显著提升,能够提供传统传感器无法实现的全域接触表征
其二,输出数据格式与视觉数据高度兼容,可与现有Transformer架构及视觉数据实现自然融合,大幅降低了触觉模态接入已有具身模型的技术门槛。
新智具身的视触觉传感器,主要由复旦可信具身智能研究院研究员陈文明及其博士生罗虎主导研发,这也是公司与复旦大学产学研融合的首个标志性成果。
触觉具身数据Scaling up
传感器的突破只是触觉具身智能的第一步。
触觉感知能力的真正释放,依赖于大规模、高质量的触觉交互数据支撑。
为解决行业触觉数据稀缺的痛点,新智具身搭建了超千平方米的专业化触觉具身数据采集中心
数据采集任务围绕精细化操作场景展开,包括USB插接、螺丝拧入、内存条安装等接触操作;线束装配、薄壁容器抓取、弹性部件处理等对力度控制要求较高的任务;织物整理、纸张折叠、胶带粘贴等易变形物体的操作。
上述任务的核心难点在于,操作成败的关键信息仅存在于接触过程中。
新智具身构建了互补式的触觉具身数据采集体系:
真机采集线通过标准化的机械臂,保证数据的精度、一致性与多模态同步性,所有采集单元均集成自研视触觉传感器与力反馈系统
全自研触觉UMI便携式采集终端则降低了数据采集的部署成本与周期,同时支持跨品牌、跨型号机械臂的数据迁移与适配。
在数据规模的认知上,新智具身采用了跨行业的对比视角。
当前具身领域数据量大约还在千万级别,而语言模型则从十亿甚至百亿起步,这种数量级的差距直接限制了具身模型的泛化能力与鲁棒性。
因此,公司将数据规模化积累作为现阶段的最高优先级,采取“先做大规模,再优化成本”的发展路径。
目前所有采集数据均优先供给内部模型训练,待数据体系与采集流程成熟后,再逐步探索数据服务等商业化模式。
不止于数据,触觉如何赋能模型
数据的终极价值,在于深度融入模型训练与推理链路,转化为机器人的实际操作能力。
新智具身的目标是将触觉接入预训练具身大模型(VTLA与Tactile世界模型),并结合融入触觉模态的强化学习技术路线,系统性构建触觉赋能的具身智能能力,并在多个精细化操作任务中取得了重大突破。
传统VLA依赖视觉与语言输出动作,面对精细操作容易因为感知盲区而失败。
新智具身的VTLA模型可实时获取接触反馈:夹持、滑移、到位、形变等真实状态,精准指导操作的完成。
世界模型需学习动作与环境变化的关联,纯视觉难以应对柔性材料、精密装配等精细化任务。
新智具身的触觉世界模型补齐了物理信息短板,极大的提高了精细化操作的成功率。
到了强化学习里,触觉则成为实时修正动作的信号。阻力异常、夹持不稳、发生滑移,都可以被模型用来调整下一步动作。
先在工厂里验证
商业化上,新智具身的第一站是工厂
原因不复杂:任务结构清楚,效果可量化,泛化要求低于家用场景,触觉带来的增益也更容易被验证。
线束装配、内存条插拔、柔性材料整理、家纺操作,都是典型的精细化操作场景。
它们长期依赖人工,不是因为视觉定位做不到,而是接触之后的状态变化太复杂。
上海本地完善的产业生态,也为技术落地提供了得天独厚的土壤。
汽车、3C、家纺等产业高度集聚,涉及大量精细化操作场景,与新智具身重点布局的数据采集与技术验证方向高度契合。
当前,公司已在多个工业细分场景落地POC验证订单
后发者要换一个入口
新智具身的竞争视角也比较明确。
团队的后发判断是,纯视觉路线经过多年的高速发展,已进入资源密集型竞争阶段,研发成本不断攀升,但其在精细操作领域的固有局限也日益凸显。
对于后发企业而言,沿着先行者的轨迹亦步亦趋难以实现突破,唯有找到行业尚未解决的核心难题,从新的技术变量切入,才能构建起不可替代的竞争壁垒。
而新智具身的判断正是将触觉从可选模态变为机器人的标配
看懂任务只是具身智能的入门要求,能否在物理交互过程中实时调整动作、稳定完成任务,才是下一阶段行业竞争的核心分水岭。
热门跟贴