黄仁勋的物理AI ChatGPT时刻，正被这家中国公司的“流式多模态”接棒|新模型|机器人|模态|英伟达|黄仁勋

“物理AI的ChatGPT时刻已经到来。”

2026年1月5日，拉斯维加斯CES展会，英伟达创始人兼CEO黄仁勋宣告AI正式进入新阶段。

在他看来，AI的演进可以分为四个阶段：Perception AI、Generative AI、Agentic AI、Physical AI。当模型能够理解质量、摩擦、惯性、动量守恒，AI才真正走出屏幕。他同时指出，要让机器人理解物理世界，不能仅靠单一模型，而是需要建立一整套智能系统。

黄仁勋描绘了未来愿景，但一个问题摆在了所有人面前——物理世界的AI，到底需要什么样的技术能力？

AI真正走向物理世界，机器人、无人机、安防摄像头、可穿戴设备这些场景，需要的不是回答问题，而是持续工作。物理AI最重要的，也就是主动执行的能力。

Om AI联汇CEO兼首席科学家赵天成博士表示：“之前整个业内对通用视觉智能的关注度偏低，大家可能更关注一些可以看秀的表演或操作场景。但通用视觉这个点是未来物理AI真正规模化应用落地必不可少的，而且可能是更加现实、更加直接的核心技术，会更广泛地应用到所有物理AI场景。”

通用视觉智能（General Vision Intelligence），即模型能像人一样持续观察环境、精准定位目标、自主驱动行动，且这一切必须在端侧完成。

近日发布的VLX端侧流式多模态模型系列，正是这一路径的最新实践。

这是业界首次提出 “流式多模态” 这一全新模型架构。区别于传统模型“采集-上传-离线处理”的路径，VLX系列面向物理世界中持续涌入的视频流，实现毫秒级实时感知，并首次在端侧打通“持续感知→精准定位→行动决策”的完整闭环。

一、三个模型、三层能力、一条链路

什么是通用视觉智能（General Vision Intelligence）？

Om AI联汇的定义是三项核心能力：持续感知（无需人工触发）、空间智能（精准定位目标）、行动输出（直接驱动设备）。VLX系列的Flow、Seek、Go按个模型刚好对应这三项能力：

VLX-Flow是持续感知层：

传统视频AI普遍采用离散式处理逻辑，通过截取画面完成单次问答交互，观测存在明显间断。而VLX-Flow采用流式视频输入架构，图像数据流不间断送入模型，实现持续观测与时序记忆留存。VLX-Flow的实时性聚焦底层感知，无需人工下发指令触发，可自主不间断运行。

VLX-Seek是精准定位层：

市面上通用视觉大模型仅能实现画面内容文本描述，只能告知画面存在物体，却无法输出精准空间位置，难以回答目标坐标、数量等实操性问题。VLX-Seek更换底层技术思路，采用区域指代机制，直接输出毫米级精准空间锚点。

VLX-Go是行动输出：

传统视觉模型解析画面后仅能生成文字化操作指令，无法直接驱动硬件执行。VLX-Go更进一步，能够输出设备可直接调用的导航航点，支撑机器人自主完成移动动作，实现低延时实时反馈。

视频流持续进入，Flow负责“看懂”，Seek负责“找对”，Go负责“动起来”。三块拼图拼在一起，才构成完整的物理世界AI。

在基准测试中，VLX用三组数据印证了一个趋势：参数规模与物理世界的实际表现，正在脱钩。

Seek-3B在目标检测基准MSCOCO val2017、复杂语义基准RefCOCO、开放词汇检测基准ODinW13以及目标计数基准PixMo Count，均大幅超越Gemini 3.1 Pro和GPT-5等旗舰大模型，用3B小参数做到了旗舰精度。

在机器人导航与跟踪任务中，Go（0.6B）以极小的参数量实现了85.42%的高成功率，超越参数大其13倍的Qwen-RobotNav-8B；同时以94.08%的跟踪率显著领先所有对比模型，证明其在动态目标跟随方面具备极强的视觉-运动协同能力，更加有力证明了针对端侧物理场景进行专用架构设计的有效性。

在延迟方面，端侧推理仅需0.1秒，而云端推理通常超过5秒，这50倍的差距直接决定了系统“可用”与“不可用”的边界。

结果证明，当模型必须跑在端侧、必须实时响应、必须自主决策时，“大”反而成了包袱。VLX的真正价值，是用更小的模型在端侧芯片上跑出更好的结果，证明了“为场景设计模型”这条路，比“把通用模型塞进场景”更高效。

二、给物理世界造一套“视觉中枢”

这样亮眼的测试成绩，根源于架构层面的差异。

传统模型处理视觉信息的方式是“截帧-上传-提问-回答”，即拍一张照片或上传一段视频，问一句，答一句。这种模式本质上是离散的、被动的。目前多数模型的解决方案依赖长上下文来处理视频输入，本质仍是“离线看一遍”。

Om AI联汇提出的流式多模态，相当于给设备装上一套持续运转的“视觉中枢”。摄像头采集的视频流像水一样流入模型，模型持续接收、理解、记忆，形成一个不间断的感知流。用户或开发者通过提示词自由定义输出目标，这套中枢可以按需输出文本描述、空间锚点或行动轨迹。

在技术路径上，VLX的流式能力则面向实时交互场景设计，系统可以自主持续观察、精准锁定、即刻行动。二者应用场景不同，架构设计也随之分化。

行业通用做法是先训练大参数模型，再通过量化、蒸馏等方式压缩至端侧，Om AI联汇采取了一条不同的技术路径。

据该公司技术团队介绍，VLX从设计起点即围绕端侧算力约束展开架构设计。Flow采用Linear Attention机制替代标准Attention，保证视频流持续输入时显存不溢出；Seek以区域指代替代坐标生成，在提升精度的同时降低计算量；Go采用短时航点预测，以快速响应周围环境的快速变化。

三、不再纸上谈兵，Om AI联汇定义物理AI新范式

此前，物理AI的落地一直卡在一个尴尬的位置：Demo惊艳，但量产乏力。VLX从头就是为了落地而设计的，并也已经大规模落地：

具身智能领域：行业长期面临的一个痛点是：不同机器人平台的系统架构、传感器方案、执行机构高度异构，算法从A机器人迁移到B机器人往往需要大量适配工作。VLX大脑具备跨平台能力，已全面支持云深处、宇树等头部企业的端侧设备，开发者在不同机器人平台上的适配周期大幅缩短。
无人机领域：传统无人机巡检依赖飞手人工操作或拍完视频回传后台审核，耗时耗力。搭载VLX的无人机具备了自主视觉导航精准目标锁定能力，可自主识别违章、自主避障、自主规划航线。巡检效率提升数倍，响应时间从小时级缩短至秒级
可穿戴设备领域：中国有超过1700万视障人士，但市面上的辅助工具大多停留在语音播报或简单障碍物提醒，无法解决“我在哪、周围有什么、怎么走过去”的连贯需求。Om AI联汇Homer平台旗下好马APP已服务近10万视障用户，通过AI助视眼镜帮助用户安全避障、出行导航、空间寻物。

安防摄像头领域：客户无需更换现有硬件，只需在边缘侧或轻量化网关中接入VLX，即可让摄像头升级为可24小时自主研判的AI哨兵。原有硬件资产得到保护，避免了推倒重来的高额成本。
AI PC领域：PC上的端侧AI长期停留在文字对话和简单图像生成层面，缺乏真正的视觉理解与空间交互能力。VLX已完成与苹果、联想、惠普、英伟达四大头部品牌的端侧适配，为PC设备注入了实时视觉理解能力
国产芯片方面：端侧AI的算力部署长期依赖英伟达等海外高端芯片，国产芯片受限于算力与生态，难以承载大参数模型。VLX针对算力约束做了专门优化，已在华为昇腾、地瓜、RK3588等国产平台完成适配。

VLX的行业价值，在于验证了一条不同于数字AI的架构路径。

当行业仍在比拼谁把云端模型压缩得更小时，VLX选择从端侧算力约束出发设计模型。测试数据显示这条路无需等待算力迭代即可落地，部署成本大幅压缩，实时响应能力提升数十倍，国产芯片即可流畅运行。

与此同时，这套流式多模态路线已覆盖具身智能、无人机、可穿戴、安防、AI PC等多个场景，物理AI从“Demo展示”到“量产交付”的拐点正在显现。而VLX系列模型向开发者开放体验平台，则进一步降低了端侧智能应用的研发门槛，为产业链协同创新提供了更大的想象空间。

结语：用流式架构为物理世界重新设计AI

回到一开始的那个问题：物理世界，究竟需要怎样的AI？

Om AI联汇用VLX系列模型给出了答案：用流式架构为物理世界重新设计AI。

这背后，是Om AI联汇多年的长线布局与持续深耕。从2016年切入生成式对话技术，到2021年押注多模态赛道，再到2022年拿下国内首张多模态大模型测评证书，团队始终走在行业趋势之前，持续沉淀底层技术能力。

放眼整个物理AI赛道，行业从不缺愿景、概念与演示Demo。真正稀缺的，是能够适配真实场景、稳定运行、可规模化落地的成熟系统。更重要的是，它需要被百万级设备验证过。

VLX为物理AI的端侧化路径，提供了一个可参考的样本。