专访中科第五纪黄岩：在具身智能的狂热中，做一位技术实干家|中科|具身|机器人|真实世界|算法|黄岩(1912年)

编辑｜Panda

2026 年的春天，具身智能赛道迎来了前所未有的狂热浪潮，短短两个月内更是已经实现了全行业近 150 亿元的惊人融资。

当无数创业者奔走于各大投资机构的会议室大谈通用智能的宏大叙事时，也有人可能正待在实验室里，与代码和硬件构成的机器人死磕。

黄岩就是其中之一。在堆满线缆和测试道具的实验台前，他和学生为了弄清机械臂在抓取复杂零件时为何总是出现微小的物理偏差，常常一待就是十几个小时。他们会盯着屏幕上动态刷新的三维热力图，反复拆解并重构底层的感知代码，直到那条机械手臂在真实的物理空间中完成一次精准贴合。

黄岩拥有两个截然不同却又紧密咬合的身份。在学术界，他是中科院自动化所的研究员与博士生导师，在各大国际计算机视觉顶级会议中担任领域主席。在工业界，他兼职具身智能新锐企业中科第五纪的青年首席科学家，也是一位深度参与商业落地的技术实干派。

更为关键的是，作为具身智能全栈技术的代表人物之一，他的技术背景完整覆盖了多模态感认知技术、具身世界模型技术与强化学习技术。他所主导的模型创新，深深扎根于真实的工业场景需求，致力于解决数据短缺并极致提升数据的利用率。他试图在这个喧嚣的 2026 年，用一种近乎极客的狂热与克制，为复杂的 AI 算法寻找一个能在真实物理世界中稳健运行的躯体。

近日，机器之心独家专访了这位已有超 1.2 万引用量的多模态和具身智能研究者。在这场专访中，黄岩抛开热闹的行业表象，与我们分享了他和团队在具身大模型领域的探索历程 —— 当行业内都在谈论数据量、算力问题时，他们另辟蹊径，从真实场景痛点出发，展开了全栈式架构重构，通过一场技术实战，解决了行业内数据利用效率瓶颈。

前瞻性的技术直觉

成就国内具身智能「拓疆者」

把时间指针拨回 2013 年，深度学习刚刚开始在计算机视觉领域撕开一道口子。当时的学术界主流依然在追逐纯文本的自然语言处理，或者纯粹的图像识别技术。

黄岩则选择了一条跨界的冷门路线：将视觉与语言进行结合

「当时之所以选择视觉-语言，本质上还是基于对这个技术的个人喜好。」黄岩在采访中向机器之心回忆起当初的决定，「我觉得这个任务的想象空间会比较大一些，它不单单是纯粹去理解语言，或者仅仅去关注视觉的一些内容。」

这种前瞻性的技术直觉，为他日后进军具身智能埋下了伏笔。

随着多模态技术的飞速发展，到了 2019 年，纯软件层面的算法研究逐渐开始走向大一统的状态。为了打破常规的算力堆叠，黄岩在这一年已经开始研究和创新强化学习算法（此前曾在围棋 AI AlphaGo 中大放异彩），并在语言驱动的视频行为定位任务上取得了当时的国际领先精度。

通过强化学习，他们成功增强了视觉-语言模型的类人时空选择性注意等认知机制。模型只需要动态跳转 5 到 8 次即可快速把握视频中的关键行为信息，完全不需要耗时耗力地去提取时空目标框，这让执行效率显著提升了 7 倍。这项开创性的工作也成功入选为计算机视觉顶级会议 CVPR 的 Oral 论文，跻身前 3% 的顶尖行列。

这篇 CVPR 2019 论文开创性地研究了「通过句子查询来定位活动」的问题，并提出了一种语义强化学习模型并取得了 SOTA 成绩。

这种强化学习基因，在多模态大模型时代结出了新的果实。针对当前多模态大语言模型（MLLM）在与人类偏好对齐方面的显著短板，中科第五纪团队内多名成员深度参与，推出了代表性成果 MM-RLHF。他们不仅构建了当时规模最大、覆盖场景最广的多模态偏好数据集，还提出了一种能够解释为何回答更好或更差的新型奖励模型架构，并辅以 MM-DPO 算法，成功规避了传统强化学习训练不稳定和超参数敏感的问题。这是多模态领域首个系统性将强化学习技术扩展到全方位人类偏好对齐的工作，标志着大模型从能力构建阶段迈向了价值对齐阶段。

然而，无论是多模态感知还是价值对齐，如果不与真实的物理世界发生物理接触，算法的潜力终将受限。黄岩意识到，需要为这些算法装上物理躯壳，所以他最早选择把视觉-语言算法直接用到机器人导航上。

当从安静的服务器云端进入布满杂物与摩擦力的真实物理世界时，现实很快就给他上了一堂残酷的课。在早期的真机部署尝试中，团队面临着极其致命的虚实迁移难题。

「最大的问题在于，我们在虚拟空间或者模拟器中训练出的一个非常出色的导航模型，是无法直接部署到真机上的。」黄岩指出了其中的残酷现实。他强调模拟器数据和真实数据的差异非常大：在模拟器里有 80% 的准确率，拿到真机上可能 10% 都没有，这种极端的落差是极有可能发生的。

模拟器数据与真实数据之间巨大的分布差异，让黄岩深刻体会到物理世界的不可预测性。在这场从零开始的探索中，他没有退缩，反而被激起了技术狂热者的斗志。他明白，要想真正驯服机器人的物理躯体，就必须抛弃对仿真数据的完全依赖，重新回到真实世界中，在底层架构上寻找提升真实数据利用率的解法。这也为后来中科第五纪一系列完全围绕真实场景痛点展开的架构创新奠定了基调。

全栈技术硬核「实干派」代表

对抗算力与数据的狂热

在当下的具身智能赛道，将大语言模型领域的 Scaling Law 平移过来，似乎成了一种行业共识。许多初创企业和头部大厂试图通过搭建庞大的数据工厂，用暴力堆叠算力和海量数据的方式来催熟具身大脑。

面对这种对算力与数据的狂热迷信，黄岩保持着冷静的审视。

实际上，早在行业沉迷于数据堆叠的初期，黄岩就前瞻性地预测到了这条路径的极大挑战。但他所坚持的这条「极少样本」和「新架构」的冷门路线，在早期也曾面临过外界的质疑。

黄岩在采访中回忆了那段时期：「当时的环境下，大家都在关注具身大模型的通用性和泛化性，甚至宣称要在两三年之内就要训练出一个能够进入家庭的具身大模型，走这种高举高打的路线。」

面对这种狂热的行业情绪，黄岩从纯粹技术的角度给出了冷静的判断。他认为短期内真正做出一个通用的具身大模型并进入家庭是非常具有挑战性的，而且时间很可能远远不够。

「我们经过很长时间的讨论，最终选择了一个相对务实的路线。」黄岩表示。他带领团队果断放弃了追逐短期的通用神话，转而聚焦真实的工业场景，有针对性地去解决样本量少、可靠性低等最核心的产业痛点。黄岩在采访中给出了自己的判断：「想要实现具身领域的 Scaling Law，它的数据量一定要提升得很快，数量要非常非常多。只有在数据量非常充足的情况下，我们再去提升算力和参数量才是有意义的。」他认为，以目前物理世界交互数据的积累速度，一味地提升参数量，有可能需要很长时间才能够达到引发智能涌现的时间点。

行业首创超少样本大模型，拒绝暴力堆叠

作为一位务实的全栈技术代表，他拒绝等待虚无缥缈的海量数据涌现。基于对数据瓶颈的精准预判，黄岩与中科第五纪联合中科院自动化所团队潜心打磨，基于更早之前开发的BridgeVLA推出了行业首个超少样本大模型FAM 系列

这堪称一次极客美学的底层重构，也是少有的、完全围绕解决具身智能场景痛点而设计的专属架构。

「当我们确实有海量数据时，直接利用数据进行暴力拟合可能是最简单、短平快的方法。」黄岩一语道破了当前主流视觉-语言-动作（VLA）架构的痛点：「但现有的架构丢掉了太多的高维空间结构信息。」

他向我们剖析了传统架构中那个致命的维度瓶颈：模型的输入往往是二维甚至三维的视觉信息，输出也是三维的动作，但在模型内部处理时，却被强行压缩成了一维的表征。

「在这个压缩过程中，大量与空间结构紧密相关的信息被丢掉了，保留下来的多是偏向语义层面的内容，例如物体名称、属性、颜色等。」黄岩解释道，「这些语义信息对精确的动作生成虽然有贡献，但不会特别明显。」

为了找回丢失的三维空间，解决工业现场数据匮乏的难题，中科第五纪与中科院自动化所团队在 FAM 模型中引入了全局与局部协同的精妙设计。

BridgeVLA 是一种新型 3D VLA 模型，它在统一的 2D 图像空间内对齐输入和输出。它使用 2D 热力图在对象定位任务上进行预训练，并在 3D 操作的动作预测任务上进行微调。在仿真和真实世界中的实验结果表明，它能够高效且有效地学习 3D 操作。arXiv:2506.07961

黄岩揭示了其中的核心原理：「我们主要是把模型中间层，从一维特征拉高到三维的热力图，让整个空间结构建模能力能够在模型中间流动起来。」这种无损传递空间信息的设计，让模型从很大程度上摆脱了对庞大数据量死记硬背的依赖。

同时，这种专为具身场景设计的架构，赋予了中科第五纪的具身机器人一种「既见森林，又见树木」的罕见认知能力。它不仅能够通过三维热力图进行全局的空间结构建模（见森林），还能通过独创的局部注意力机制，精准锁定料箱把手、零件边缘等关键操作点（见树木）。

「既见森林，又见树木」的比喻源自黄岩参与的一篇 CVPR 2017 论文。

这种全局与局部的无缝协同，加上对真实场景痛点的定向攻坚，造就了中科第五纪在全球范围内极具统治力的小样本技术表现。

在真实的工业落地中，这种架构创新转化为了一种强悍的实战能力：面对全新的任务，FAM 模型在极限情况下仅需 3 到 5 条真机演示数据，即可完成高可靠性的部署，基础任务成功率近 97%。

中科第五纪用这种冠绝行业的数据利用效率，定向击穿了长期困扰具身智能落地的「数据荒」壁垒。

同时，模型的泛化能力也能得到极大提升。即便面对光照变化、复杂背景、干扰物体等极具挑战性的泛化场景，该模型依然能够保持高度的稳定性。这种极低成本的部署能力，正是打通工业场景商业闭环的关键所在。

利用世界模型，做具身安全的守卫者

如果在操作层面的创新是为了「能干活」，那么将世界模型引入执行端，则是黄岩为了「安全干活」而上的一道保险。

对于想要跑通商业闭环的企业而言，工业安全是一个无法回避的红线。黄岩在采访中列举了非常具体的落地痛点：「例如在做产品出厂前的质检时，有时操作用的力比较大，把东西拉坏了，或者是操作半径太大，碰到了周边其他物体，这些都会产生潜在的安全隐患。」

他最初的出发点非常直接：「利用世界模型预见未来的能力，让大模型在感知到未来的情况下产生更准确的行为。」

然而，让机器人真正学会预演未来面临着一条巨大的鸿沟：视频生成模型看懂的是像素，机器人输出的动作是坐标系里的位姿。为了跨越这道墙，中科第五纪联合中科院自动化所团队推出了BridgeV2W 世界模型，其中引入了极具巧思的本体掩码（Embodiment Mask）设计。

BridgeV2W 流程概述。使用 URDF 和相机参数将动作投影到像素空间掩码中。初始图像和掩码序列由 VAE 编码，掩码特征通过 ControlNet 分支注入到 DiT 主干中。该模型生成与动作一致的视频，训练时采用扩散、动态一致性和基于流的目标函数。arXiv:2602.03793

黄岩解释道:「我们主要是想规避掉直接从坐标点映射到视频像素的困难，本质上是把不同的行为序列，直接转化到像素的层面上去。」通过将抽象的坐标实时渲染成二维图像上的动作剪影，预训练的视频大模型瞬间就能看懂机器人的动作意图，从而真正打通视频生成与具身世界模型之间的桥梁。

BridgeV2W 在 DROID 数据集上的单臂操作预测。尤其在「未见视角」测试中，对比方法常出现画面崩塌、肢体错位，而 BridgeV2W 依然生成物理合理、视觉连贯的未来视频，充分验证了其视角鲁棒性。在「未见场景」（全新桌面布局、背景）下，泛化能力同样出色。

探索具身强化学习前沿的架构师

除了多模态感知与世界模型，黄岩还将对技术的追求延伸到了强化学习领域。为了进一步提升跨场景的泛化能力并降低交付成本，团队开展了具身强化学习后训练，并完成了一项名为E-TTS的「具身测试时拓展」前期工作。

现有的 VLA 强化学习方法通常先生成中间推理，再生成动作。这种方式往往只强化学习动作空间，却忽略了推理质量对动作的决定性影响。

E-TTS 框架通过三个核心机制解决了这一痛点：首先是推理与动作的联合扩展，同时扩展推理轨迹和动作候选；其次是历史感知的闭环验证，结合过去的历史推理与动作对以捕捉长程依赖；最后是自适应在线选择策略，通过动态分配计算资源避免陷入局部最优。

这项工作展现出了极高的工程实用价值。它不需要像传统的 PPO 或 DPO 算法那样更新模型权重，也无需收集额外的专家数据或进行微调，极大地降低了落地门槛。在这一框架中，验证器扮演了过程奖励模型的角色，在每一步对推理和动作的质量进行打分，实现方式更加轻量、灵活。

更为重要的是，这项研究向全行业证明了一个极具启示性的结论：在机器人领域，单纯扩大模型规模或数据集，不如在推理时引入「慢思考」机制有效。这为计算资源受限场景下的机器人智能提升开辟了一条全新的路径。

这种不卷算力、专注数据利用率，且完全围绕真实场景痛点展开的全栈式架构重构，正是黄岩及中科第五纪能够在商业化大考中脱颖而出的核心底牌。

探寻本源，将「人类认知」刻入机器大脑

拨开 FAM 模型、BridgeV2W 世界模型以及 E-TTS 强化学习框架的技术外衣，黄岩及其团队所有架构创新的深层驱动力，源于一种试图在硅基芯片上复现碳基智慧的极客执念。

在学术界，黄岩出版过一本探讨深度认知网络的专著《Deep Cognitive Networks》。这部著作的核心思路，就是通过模拟人类的认知机制来增强深度学习的能力，相关成果还获得了 2024 年北京市自然科学一等奖。

这种对人类认知机制的深度拆解，构成了中科第五纪与中科院自动化所合作研发的众多技术创新的理论基石。

黄岩向机器之心总结了他十余年研究的一条隐形主线：「我们其实就是在关注人脑的注意、记忆、推理、决策等认知机制，去实现它的信息选择性过滤、知识存储复用、动态推理以及主动决策等认知功能。」

无论是 FAM 模型像人类双眼一样进行局部注意力聚焦，还是 BridgeV2W 世界模型像人类大脑一样对未来物理操作进行安全预判，亦或是 E-TTS 框架中引入的「慢思考」推理机制，其核心机制都在尝试建立一套符合具身认知规律的智能系统

既然这套模拟人类认知的「大脑框架」已有雏形，它亟需海量的数据燃料来启动运转。真实物理交互数据极其昂贵，但黄岩很早就将目光投向了另一座巨大的宝库：互联网上海量的人类操作视频。

让机器人直接看懂人类的教学视频并学会操作，是具身智能领域公认的圣杯之一。这其中的阻力显而易见。

「网络上其实是有很多操作视频的，但是它们没有动作标注。」黄岩指出了直接利用这些数据的最大痛点，「如果我们直接让人工做动作标注，其实非常困难。」

为了绕开繁琐的人工标注环节，真正将这些沉睡的视频资产激活，中科第五纪联合中科院自动化所提出了一种名为EC-Flow的流预测框架。这项极具前瞻性的研究成果已被计算机视觉顶级会议 ICCV 2025 接收。

EC-Flow，即以本体（Embodiment）为中心的流预测网络架构。分支（a）：本体流的预测分支（b）：目标图像的预测，该预测作为辅助任务，用于将流与对象交互和语言指令对齐。arXiv:2507.06224

黄岩解释了这套方案精妙的解题思路：「我们尝试去关注它中间层面的运动情况，例如图像中机械臂关键点的运动轨迹。拿到这些运动轨迹之后，再通过机器人本体的配置文件，解算出它的精确行为。」

在真实世界的开冰箱任务上的流预测和实际任务执行示例。

通过这种方式，机器人仿佛拥有了「看视频自学」的能力。在面临被遮挡物体、可变形物体操作等高难度任务时，其成功率较当时的最佳方案分别提升了 62% 和 45%。

Meta-World 基准测试上的模拟结果。

在真实世界操作任务上的结果。

这项技术的巨大潜力也引起了国际顶尖学者的关注，斯坦福大学李飞飞团队在近期发布的 Dream2Flow 研究中便引用了这篇论文。

Dream2Flow 论文中引用 EC-Flow 的内容。

除了挖掘现有视频，中科第五纪还联合中科院自动化所将这种提升数据利用率的巧思应用到了数据合成领域，研发了一键生成多视角数据的技术。

在真实场景的采集中，多摄像头的布置成本高昂，且单视角往往容易面临视觉遮挡的风险。黄岩指出，这项具身跨视角数据增广方法的核心优势在于，能够基于单一视角的演示数据，自动生成多角度且高保真的机器人训练数据。这套方法结合了动作重定向与生成式视频修复技术，通过自监督学习实现，整个过程完全无需人工标注。使用该方法生成的数据进行训练后，模型在已知视角和全新视角下的任务成功率最高分别提升了 18.3% 和 25.8%。

在这个以落地变现为主旋律的 2026 年，黄岩依然保留着对技术本源的纯粹好奇。他在追求务实的商业战场上，小心翼翼地守护着那份属于极客的终极浪漫。

双线作战，迎接 2026 年的商业大考

如果说在顶会发论文、探寻认知机理是属于极客的终极浪漫，那么 2026 年具身智能赛道的商业化现实，则是一场冷酷的生存淘汰赛。

「去年，投资人更倾向通用的具身智能叙事。现在大家更看重能不能先扎进一个具体的场景里，把活干好。」正如中科第五纪创始人兼 CEO 刘年丰所观察到的那样，一级市场对机器人的认知已经变得非常务实。投资人与客户已经略过了那些花哨的演示视频，他们当前只看重一点：机器人在真实场景中能否创造真正的复购率

在这场务实的商业大考中，中科第五纪交出了一份极具说服力的答卷。2026 年初，公司在短短一个月内接连完成规模达数亿元的 Pre-A 及 Pre-A+ 轮融资，这正是对中科第五纪这种从真实工业痛点出发、脚踏实地的技术路线最直接的背书。

资本的青睐与坚实的技术壁垒并非凭空出现。中科第五纪背后的核心研发团队来自中科院自动化所和清华大学，是一支拥有长达十余年技术蛰伏的科研团队。

回顾团队的发展历程，他们不仅是国内最早投入多模态研发的先驱之一，更在学术与工程的交汇处刻下了众多开创性的里程碑。早在 2013 年他们便发表了第一篇视觉-语言理解领域的 ICCV 论文；2016 年将注意力机制引入多模态匹配任务并达到国际领先；2019 年率先投入视觉-语言-导航（VLN）模型的研发，并于 2023 年在全世界率先实现了该模型的真机部署。

中科第五纪的发展历程。

在实战对抗中，从 2016 年斩获 IROS 机械手抓取与操作冠军，到 2024 年研发出业内首个世界模型的 VLA 大模型，再到 2025 年接连夺得 CVPR 通用操作泛化性挑战赛冠军与 ICRA 机器人虚实迁移冠军，这支团队在具身智能的演进之路上始终展现着硬核的集体作战能力。

在这样一支兼具学术深度与工程落地能力的队伍中，在这个要求严苛的商业考场上，黄岩必须在两种身份之间保持精准的平衡。

学术界，他需要带领学生探索前沿，哪怕面临极高的失败率；在工业界，他需要从实际场景中提炼关键科学问题，然后相应进行模型算法的研发。

为了将领先的技术壁垒转化为真实的产业生产力，中科第五纪构建了从底层架构到软硬协同的完整交付能力，面向客户直接交付具有通用泛化能力的具身大脑和具身机器人。

在硬件实体层面，团队推出了自研的轻量化轮式具身机器人。这款身高 187 cm 的机器人全身具备 28 个自由度，其仿人形手臂集高负载与高精度力控于一身，具备亚毫米级的装配与作业能力，能够满足全天候的连续作业需求。

在生态赋能层面，中科第五纪正在以具身大脑供应商的身份，向更为广阔的千行百业渗透。目前，该公司已陆续与多家知名大型央企展开合作。

黄岩对这种商业落地策略有着清晰的定位：「具身智能的真正壁垒在于大脑的通用性与泛化能力。我们通过提供统一的模型大脑来赋能各式各样的硬件本体，这样既能让机器人更快地进入真实的作业场景，也能利用规模化的出货来反哺我们的数据体系。」

伴随着不断扩展的商业版图和过硬的落地能力，中科第五纪正向着「让百万机器人服务于人类」的愿景稳步迈进。

结语

采访临近结束时，我们的话题回到了那个布满杂物、光线变幻莫测的真实产线。

当行业客户们抛出那个频繁被提出的「适应新场景需要多久」的严苛问题时，中科第五纪的机器人们已经做好了准备。它们不需要在模拟器里跑上几万次，也不需要依赖堆积如山的服务器集群去强行记住每一个像素的改变。只需人类工程师带着它们在现场做 3 到 5 次示范，它们就能凭借着内部流动的空间热力图，瞬间领悟操作的物理真谛。

这份底气，正是中科第五纪和中科院自动化所团队用 13 年的技术蛰伏换来的。

在这个算力焦虑蔓延的时代，这位年轻的技术狂热者与实干家证明了一件事：想要驯服庞大复杂的物理世界，靠的绝对不能是盲目的算力堆叠。只有怀揣着对底层认知的敬畏，在每一次代码重构中将数据的利用率推向极致，具身智能的齿轮才能真正与人类社会的工业齿轮完美咬合。