机器之心发布
在世界模型这条赛道上,很少有时刻能像现在这样耐人寻味。
时间拨回 2025 年 12 月,大晓机器人正式发布 Kairos "多模态理解 — 生成 — 预测" 原生一体化架构;今年 3 月,这套架构完成了端侧部署和验证。而此后,英伟达最新发布的 Cosmos 3.0,竟也采用了同源架构。
一家中国具身智能公司,比行业巨头提前押中了同一条技术路线。这背后,是 Kairos 开悟世界模型早已新创的原生一体化技术体系。
而就在近日,这套体系交出了一份足够硬的成绩单 —— 大晓机器人开悟世界模型(Kairos)在 RoboTwin 2.0、LIBERO-Plus、WorldModelBench、DreamGen Bench 四大全球权威具身智能基准上全面登顶。这份领跑成绩的背后,是 Kairos 3.0 对世界模型技术路线的底层范式革新。
如今,大晓机器人正式发布开悟世界模型技术报告,详细阐述 Kairos 开悟世界模型以原生一体化设计、面向具身智能训练为核心哲学,从架构底层为物理 AI 原生打造,首次实现 "多模态理解 — 生成 — 预测" 原生一体化架构、跨具身渐进式训练体系及 "以人为中心" 的数据金字塔,以及端侧可部署的能力,将世界模型从 "世界生成器" 升级为 "理解世界、生成世界、与世界交互" 的全新模型,实现了与行业普遍 "通用视频生成模型 + 具身场景续训微调" 截然不同的路径。
技术报告链接:
- https://arxiv.org/abs/2606.16533
- https://huggingface.co/papers/2606.16533
要理解 Kairos 开悟世界模型为何能提前一步,得先看清整个行业卡在了哪里。
三大流派各有所长,却撞上同一堵墙
当具身智能从概念走向产业落地,世界模型从单纯的视频生成演示品,转向支撑机器人真实运行的核心基础。当前全球世界模型研究已形成三大主流技术流派,沿着不同路径向物理 AI 基础设施方向演进。
- 第一类是生成式像素级渲染流派,以英伟达 Cosmos 为代表,核心是在像素空间直接合成高保真、时序连贯的未来视觉画面,主打视频生成与数字孪生能力,视觉逼真度突出,但计算开销较高,天然带有内容生成属性。
- 第二类是交互式环境建模范式,代表包括 DeepMind Genie 3、Dreamer 系列,侧重构建可探索、可交互的持久仿真环境,智能体可通过 "想象" 递归优化长时程行为,作为内部模拟器支撑自进化学习。
- 第三类是预测式潜表征学习流派,以 Meta JEPA 系列为典型,不做像素级渲染,而是在抽象隐空间中学习具备物理意义的预测结构,天然适配零样本规划、机器人控制等下游决策任务,计算效率更优。
三类路径各有侧重,但普遍面临学习碎片化、长时程状态漂移、具身锚定不足等共性瓶颈。为此,大晓机器人以原生范式破局,以技术效率取胜,Kairos 开悟世界模型正在重新定义世界模型的技术坐标系。下面从架构、训练、部署三个层面,拆解 Kairos 究竟做对了什么。
原生一体化架构,打造具身的「最强大脑」
Kairos 开悟世界模型首创的 "多模态理解 — 生成 — 预测" 原生一体化架构,让世界模型第一次在底层实现了 "能认知、会推演、可执行" 的完整能力闭环,彻底跳出了传统方案 "生成强、控制弱" 的能力偏科。
在此之前,行业主流世界模型普遍脱胎于通用视频生成技术栈,走 "通用生成底座 + 外挂控制模块" 的拼接路线。视频生成模块专注视觉渲染,动作控制模块单独训练输出轨迹,两套系统各自独立、表征体系完全割裂。这种组装式设计带来三大长期难解的行业顽疾。
- 一是表征错位,视觉语义与机器人动作空间无法原生对齐,直接导致动作执行与环境动态不同步、物理交互细节失真;
- 二是误差累积,"先生成画面、再提取动作" 的两级流水线,每一步传递都在引入偏差,长时程复杂任务下状态漂移问题尤为突出;
- 三是定位局限,模型始终停留在 "内容生成工具" 的定位,无法成为支撑机器人自主决策的智能底座,难以支撑真正的闭环自进化。
开悟世界模型 Kairos 架构图
Kairos 开悟世界模型彻底摒弃了拼接式设计思路,以单一混合 Transformer(MoT)为统一骨干网络,将世界理解、世界生成、世界预测三大模块原生融合进同一套技术栈。三者并非简单的功能堆叠,而是共享同一套底层世界状态表征,由混合线性时序记忆机制统一维护全局状态一致性,从根源上消解了模块拼接带来的内生矛盾。
具体来看,世界理解模块作为全系统的认知基底,从异构多源数据中提炼物理规律、因果逻辑与任务语义,为全链路输出提供精准的语义锚点;世界生成模块承接认知结果,结合多模态指令推演生成物理自洽的环境动态,核心服务于策略推演而非单纯视觉展示;世界预测模块与生成模块采用同构设计、联合训练,可直接输出可落地执行的机器人动作轨迹,推理阶段还可独立启用纯动作预测模式,跳过视频生成环节直接输出控制指令,兼顾精度与部署效率。
Kairos 开悟世界模型原生一体化架构不仅解决了长期困扰行业的表征错位与误差累积难题,更重新定义了世界模型的核心价值,它不再是辅助性的生成工具,而是具备完整认知闭环的物理智能内生大脑。
首创具身原生预训练范式,让世界模型从「懂物理」到「会操作」
架构层面的原生一体化能力,根源上来自 Kairos 开悟世界模型首创的物理 AI 原生预训练范式。正是这套分层递进的训练体系,让 Kairos 开悟世界模型实现了跨场景、跨具身的强泛化能力,在四大基准测试中持续超越全球主流世界模型厂商。
在传统技术路线中,世界模型普遍遵循 "通用视频生成模型 + 机器人数据下游续训" 的路径,背后是数据来源的天然割裂困境。互联网开放视频规模巨大但缺乏动作锚定与任务意图,仅能提供表层视觉规律;人类行为数据蕴含任务逻辑与交互模式,却无法直接对齐机器人控制空间;机器人交互数据与具身控制最相关,却采集成本高、场景覆盖窄,难以规模化。混合训练易造成信号冲突,分步微调又会导致知识断层,最终模型往往陷入 "懂物理不会操作、会操作难泛化" 的两难。
Kairos 开悟世界模型彻底摒弃这种 "后补式" 微调思路,提出跨具身数据课程(Cross-Embodiment Data Curriculum,CEDC),将异构数据组织为三级渐进式训练体系,从训练源头原生注入物理智能。
第一阶段为物理预训练,依托百万小时级开放世界视频,构成物理认知的规模根基。Kairos 开悟世界模型采用的数据覆盖人类、机器人、通用场景、物理现象四大核心领域,通过层级分类体系实现千级细粒度场景覆盖。这一层数据量级最大、覆盖最广,核心价值是为模型注入重力、碰撞、物体恒存、流体力学等通用物理规律,构建底层世界常识,对应物理预训练阶段的能力目标。
第二阶段则是 "以人为中心" 的 ACE 数据范式,通过十万小时级人类行为数据,承载任务语义的过渡衔接。针对机器人操作场景数据稀缺的行业痛点,团队收集了大量以人为中心的高精度人类操作数据,并配套长时程任务思维链增强,重点覆盖工具使用、日常家务等结构化任务场景,完整保留人类完成任务的视角逻辑、动作序列与隐含意图,承上启下打通物理认知与动作控制的语义断层,完成从 "被动观察" 到 "主动理解" 的能力过渡。
第三阶段为状态与动作联合训练,利用高精度机器人交互数据实现具身控制的精准锚定。这一层整合优质开源机器人数据集与自研真实机器人交互数据,聚焦双臂协作、柔性操作等高价值场景,数据密度最高、动作锚定最精准,直接支撑模型感知表征与动作空间的原生对齐。
从 "堆砌数据混训" 到 "课程化渐进习得",这套原生预训练范式通过 "以人为中心" 数据金字塔大幅提升了数据利用效率,让不同来源的知识逐层沉淀、有机融合,既保留了大规模数据带来的泛化性,又实现了机器人控制的高精度锚定,为原生统一架构的能力落地筑牢了数据根基。
首创端侧原生部署,让世界模型走出云端走进物理世界
物理 AI 产业落地的核心瓶颈,在于世界模型能否实现轻量化、高实时性的端侧部署。Kairos 世界模型自底层架构起便将部署效率列为核心原生设计准则,依托算法蒸馏与硬件协同的全栈一体化优化,颠覆行业内 "高性能世界模型必须绑定超大算力集群" 的固有认知,达成消费级终端流畅运行、边缘设备近实时推理的能力,彻底打破云端算力的部署局限,深度融入机器人实体运动控制闭环。
首个世界模型驱动的端侧具身大脑 Kairos-4B
Kairos 开悟世界模型采用算法、芯片双向协同的部署一体化设计,把端侧算力、内存、时延约束前置至模型研发全链路。算法侧创新推出 "分布匹配 + 一致性约束" 混合时间步蒸馏框架,将传统数十轮扩散采样精简至仅 4 步,在近乎无损维持物理运动一致性、画面生成品质的基础上,从算法本源压低推理时延理论下限;芯片侧深度定制混合并行推理调度、DiT 特征缓存复用、算子内核融合方案,叠加 FP8 低精度运算、INT4 权重量化、分块流式内存读写多重优化手段,在保障输出精度不衰减的前提下,显著降低显存开销与整体计算耗时。
实测验证数据表明:轻量化端侧可用的 Kairos-4B 世界模型生成一段 480P、时长 5 秒的物理仿真视频,4 卡 A800 硬件环境下仅需 3 秒即可完成;推理速度较同参数规格竞品提升 2.5–3.7 倍,对比数十亿参数通用世界模型,最高提速可达 85 倍。
一次范式级的跃迁
回到文章开头那个耐人寻味的时刻 —— 当英伟达 Cosmos 3.0 采用与 Kairos 同源的架构时,它所印证的,其实是一条技术路线的正确性。
凭借原生技术体系的全栈式革新,Kairos 开悟世界模型实现了技术路线的范式级跃迁。以 "多模态理解 — 生成 — 预测" 原生一体化架构、跨具身渐进式训练体系、"以人为中心" 的数据金字塔,以及端侧可部署的能力,系统性破解了行业长期存在的能力偏科、落地门槛高、长时程稳定性不足等核心痛点,打造 "一脑多型" 能力,为各种类型等多元实体场景提供了可规模化落地的核心智能底座。
从 "世界生成器" 到 "理解世界、生成世界、与世界交互" 的物理智能大脑,Kairos 走的不是一条修补旧范式的路,而是从架构底层重新出发。这,或许正是大晓机器人能比巨头提前一步、并在四大全球基准上全面登顶的根本原因。
文中视频链接:https://mp.weixin.qq.com/s/tKuXwuJxnnVG9gNph_NPCg
热门跟贴