超越智能体和世界模型！Meta押宝神经网络计算机

我不叫阿哏

2026-04-15 16:27 ·广东

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

传统电脑，通过键盘输入字符，用鼠标点击窗口，底层操作系统默默分配着处理器与内存的资源。

一项突破常规的计算机技术探索正在发生。

Meta AI联合KAUST（阿卜杜拉国王科技大学）的科学家，把前沿的视频生成模型改造成了神经网络计算系统。

AI不再局限于预测未来画面的走向，也不再仅仅扮演操作现有软件的帮手，模型本身正在演化成一台包含计算、存储和输入输出接口的完整计算机。

机器的新物种

传统数字计算机依靠中央处理器、内存和硬盘分工协作。

程序员编写具体的指令代码，机器严格按照指令改变内部的存储状态。

近年来兴起的AI智能体，学着像人一样操作外部的软件系统来完成任务，它们需要依赖现成的电脑和操作系统作为舞台。

世界模型（World Model）擅长观察环境规律并预测接下来的画面变化，只负责推演，不负责保留真正的程序运行状态。

而神经网络计算机（Neural Computer，简称NC）打破了软硬件分离的旧架构。

系统用一套庞大的数学权重统一了计算、存储和输入输出。

在每一次键盘敲击或鼠标移动时，模型吸收当前的屏幕像素和用户的操作动作，在内部更新一个隐式的运行状态。

隐式状态既充当系统的工作内存，也包含了当前任务的上下文信息。

模型直接根据更新后的状态，渲染出下一帧的屏幕画面。

研究团队的长远目标是打造完全神经网络计算机（Completely Neural Computer，简称CNC）。

那是一个成熟的通用计算载体，具备稳定的执行能力，接受明确的编程改造，学过的技能可以长久复用。

作为迈向完全形态的第一步，研究人员选定Wan2.1视频生成模型作为基础，打造了针对命令行和图形界面的早期原型。

原型系统展示了极具潜力的演进方向。使用者不再面对冰冷的硬件组装部件，而是与一个能在内部融合各种功能的新载体交互。

我们把新机器与现有的系统生态放在一起对比，差别极其清晰。

常规电脑依赖明确的程序。AI智能体围绕具体任务打转。世界模型聚焦环境动态。神经网络计算机围绕运行时状态构建，把安装的能力和运行状态固化在模型内部。

命令行界面的像素级试探

为了验证可行性，研究人员挑选了当今最强大的视频生成模型作为底层平台，加入了专门的动作模块，分别在命令行界面和图形界面展开测试。

研究团队构建了专属的数据集。通用数据集包含真实世界复杂终端记录，纯净数据集基于固定脚本生成。视频模型根据输入的文字提示和初始屏幕画面，在内部不断更新状态，预测并生成后续的终端操作视频。

这种纯视觉生成的电脑靠得住吗。测试给出了肯定的答案。

在常规的13像素字体大小下，模型生成的终端画面依然保持着极高的清晰度，可以精准还原代码高亮，光标移动，复杂的进度条以及排版对齐。

给出的文字描述越细致，比如详尽说明画面里会有哪些颜色和文本，模型还原的精准度就越高。

字符级别的渲染也相当惊艳。经过数万步的训练，模型可以逐行生成完全吻合的文本内容。这种对文本结构和空间关系的把握，让生成的界面兼具视觉逼真度与实际可读性。

只是原生算术能力依然是当前架构的短板。面对基础的数学计算，几大主流视频模型的直接生成准确率大都徘徊在个位数。

有趣的是，稍微调整提示词，把正确答案隐式喂给系统，准确率立马飙升到83%。可以发现当前阶段的模型更像是一个极高保真度的渲染器，其内在的逻辑运算依然需要系统级的辅助。

图形界面的精准操控

带有窗口，按钮和图标的图形界面挑战更大。图形界面要求极高精度的光标追踪和即时的点击反馈。

研究人员对比了三种不同质量的数据源。

结果非常明确。仅仅110小时的目标导向数据，训练效果彻底超越上千小时的随意操作数据。明确的动作意图和可预测的状态切换，是神经网络学习操作逻辑的核心。

光标控制是图形界面的灵魂。单纯让模型学习光标的坐标位置，准确率连10%都不到。加上复杂的特征转换，准确率也勉强突破13%。

当研究人员直接把光标的视觉遮罩作为参考画面喂给模型后，精准度奇迹般冲到了98.7%。显式的视觉监督让模型真正把光标当成了一个视觉实体来理解。

模型又是如何接收键盘和鼠标动作的呢。

研究设计了四种不同深度的信息注入方式。数据印证了深度注入的绝对优势，内部模式在画面一致性和动作响应上表现最好。

不管是用原始的按键流，还是打包好的抽象动作指令，深层注入都起到了决定性作用。

迈向完全神经计算机

现阶段的神经计算机依然只是一个初级原型。

它出色地证明了神经网络可以处理输入输出对齐，实现短周期的精准控制，能够渲染并执行基本的命令工作流。

距离稳定复用旧程序，进行复杂符号计算，以及长期运行不出错，还有很长的路要走。

它和现有的系统生态有着本质区别。

当今的计算机依赖严格的代码指令，稍有偏差就会全盘崩溃。

神经计算机基于海量的多维数值表示，天生对噪音具备极强的容忍度，能够处理视觉，语言，声音等各种模态的信息。

一旦跨越了通用编程和状态持久化的门槛，我们与机器打交道的方式将被彻底重塑。

用户输入的操作轨迹，屏幕截图和随口说出的指令，都会直接变成重塑计算机内部结构的运行代码。

未来的计算设备不再需要套上一层层外壳，那个不断学习的大脑本身，就是一台专属于你的电脑。

参考资料：

https://arxiv.org/pdf/2604.06425

https://metauto.ai/neuralcomputer/

https://github.com/metauto-ai/NeuralComputer

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴