专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

传统电脑,通过键盘输入字符,用鼠标点击窗口,底层操作系统默默分配着处理器与内存的资源。

一项突破常规的计算机技术探索正在发生。

Meta AI联合KAUST(阿卜杜拉国王科技大学)的科学家,把前沿的视频生成模型改造成了神经网络计算系统。

打开网易新闻 查看精彩图片

AI不再局限于预测未来画面的走向,也不再仅仅扮演操作现有软件的帮手,模型本身正在演化成一台包含计算、存储和输入输出接口的完整计算机。

机器的新物种

传统数字计算机依靠中央处理器、内存和硬盘分工协作。

程序员编写具体的指令代码,机器严格按照指令改变内部的存储状态。

近年来兴起的AI智能体,学着像人一样操作外部的软件系统来完成任务,它们需要依赖现成的电脑和操作系统作为舞台。

世界模型(World Model)擅长观察环境规律并预测接下来的画面变化,只负责推演,不负责保留真正的程序运行状态。

而神经网络计算机(Neural Computer,简称NC)打破了软硬件分离的旧架构。

打开网易新闻 查看精彩图片

系统用一套庞大的数学权重统一了计算、存储和输入输出。

在每一次键盘敲击或鼠标移动时,模型吸收当前的屏幕像素和用户的操作动作,在内部更新一个隐式的运行状态。

隐式状态既充当系统的工作内存,也包含了当前任务的上下文信息。

模型直接根据更新后的状态,渲染出下一帧的屏幕画面。

研究团队的长远目标是打造完全神经网络计算机(Completely Neural Computer,简称CNC)。

那是一个成熟的通用计算载体,具备稳定的执行能力,接受明确的编程改造,学过的技能可以长久复用。

作为迈向完全形态的第一步,研究人员选定Wan2.1视频生成模型作为基础,打造了针对命令行和图形界面的早期原型。

打开网易新闻 查看精彩图片

原型系统展示了极具潜力的演进方向。使用者不再面对冰冷的硬件组装部件,而是与一个能在内部融合各种功能的新载体交互。

打开网易新闻 查看精彩图片

我们把新机器与现有的系统生态放在一起对比,差别极其清晰。

常规电脑依赖明确的程序。AI智能体围绕具体任务打转。世界模型聚焦环境动态。神经网络计算机围绕运行时状态构建,把安装的能力和运行状态固化在模型内部。

命令行界面的像素级试探
打开网易新闻 查看精彩图片
命令行界面的像素级试探

为了验证可行性,研究人员挑选了当今最强大的视频生成模型作为底层平台,加入了专门的动作模块,分别在命令行界面和图形界面展开测试。

研究团队构建了专属的数据集。通用数据集包含真实世界复杂终端记录,纯净数据集基于固定脚本生成。视频模型根据输入的文字提示和初始屏幕画面,在内部不断更新状态,预测并生成后续的终端操作视频。

打开网易新闻 查看精彩图片

这种纯视觉生成的电脑靠得住吗。测试给出了肯定的答案。

在常规的13像素字体大小下,模型生成的终端画面依然保持着极高的清晰度,可以精准还原代码高亮,光标移动,复杂的进度条以及排版对齐。

给出的文字描述越细致,比如详尽说明画面里会有哪些颜色和文本,模型还原的精准度就越高。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

字符级别的渲染也相当惊艳。经过数万步的训练,模型可以逐行生成完全吻合的文本内容。这种对文本结构和空间关系的把握,让生成的界面兼具视觉逼真度与实际可读性。

打开网易新闻 查看精彩图片

只是原生算术能力依然是当前架构的短板。面对基础的数学计算,几大主流视频模型的直接生成准确率大都徘徊在个位数。

有趣的是,稍微调整提示词,把正确答案隐式喂给系统,准确率立马飙升到83%。可以发现当前阶段的模型更像是一个极高保真度的渲染器,其内在的逻辑运算依然需要系统级的辅助。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
图形界面的精准操控
打开网易新闻 查看精彩图片
图形界面的精准操控

带有窗口,按钮和图标的图形界面挑战更大。图形界面要求极高精度的光标追踪和即时的点击反馈。

研究人员对比了三种不同质量的数据源。

结果非常明确。仅仅110小时的目标导向数据,训练效果彻底超越上千小时的随意操作数据。明确的动作意图和可预测的状态切换,是神经网络学习操作逻辑的核心。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

光标控制是图形界面的灵魂。单纯让模型学习光标的坐标位置,准确率连10%都不到。加上复杂的特征转换,准确率也勉强突破13%。

当研究人员直接把光标的视觉遮罩作为参考画面喂给模型后,精准度奇迹般冲到了98.7%。显式的视觉监督让模型真正把光标当成了一个视觉实体来理解。

打开网易新闻 查看精彩图片

模型又是如何接收键盘和鼠标动作的呢。

研究设计了四种不同深度的信息注入方式。数据印证了深度注入的绝对优势,内部模式在画面一致性和动作响应上表现最好。

不管是用原始的按键流,还是打包好的抽象动作指令,深层注入都起到了决定性作用。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
迈向完全神经计算机
打开网易新闻 查看精彩图片
迈向完全神经计算机

现阶段的神经计算机依然只是一个初级原型。

它出色地证明了神经网络可以处理输入输出对齐,实现短周期的精准控制,能够渲染并执行基本的命令工作流。

距离稳定复用旧程序,进行复杂符号计算,以及长期运行不出错,还有很长的路要走。

它和现有的系统生态有着本质区别。

当今的计算机依赖严格的代码指令,稍有偏差就会全盘崩溃。

神经计算机基于海量的多维数值表示,天生对噪音具备极强的容忍度,能够处理视觉,语言,声音等各种模态的信息。

一旦跨越了通用编程和状态持久化的门槛,我们与机器打交道的方式将被彻底重塑。

用户输入的操作轨迹,屏幕截图和随口说出的指令,都会直接变成重塑计算机内部结构的运行代码。

未来的计算设备不再需要套上一层层外壳,那个不断学习的大脑本身,就是一台专属于你的电脑。

参考资料:

https://arxiv.org/pdf/2604.06425

https://metauto.ai/neuralcomputer/

https://github.com/metauto-ai/NeuralComputer