专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
传统电脑,通过键盘输入字符,用鼠标点击窗口,底层操作系统默默分配着处理器与内存的资源。
一项突破常规的计算机技术探索正在发生。
Meta AI联合KAUST(阿卜杜拉国王科技大学)的科学家,把前沿的视频生成模型改造成了神经网络计算系统。
AI不再局限于预测未来画面的走向,也不再仅仅扮演操作现有软件的帮手,模型本身正在演化成一台包含计算、存储和输入输出接口的完整计算机。
机器的新物种
传统数字计算机依靠中央处理器、内存和硬盘分工协作。
程序员编写具体的指令代码,机器严格按照指令改变内部的存储状态。
近年来兴起的AI智能体,学着像人一样操作外部的软件系统来完成任务,它们需要依赖现成的电脑和操作系统作为舞台。
世界模型(World Model)擅长观察环境规律并预测接下来的画面变化,只负责推演,不负责保留真正的程序运行状态。
而神经网络计算机(Neural Computer,简称NC)打破了软硬件分离的旧架构。
系统用一套庞大的数学权重统一了计算、存储和输入输出。
在每一次键盘敲击或鼠标移动时,模型吸收当前的屏幕像素和用户的操作动作,在内部更新一个隐式的运行状态。
隐式状态既充当系统的工作内存,也包含了当前任务的上下文信息。
模型直接根据更新后的状态,渲染出下一帧的屏幕画面。
研究团队的长远目标是打造完全神经网络计算机(Completely Neural Computer,简称CNC)。
那是一个成熟的通用计算载体,具备稳定的执行能力,接受明确的编程改造,学过的技能可以长久复用。
作为迈向完全形态的第一步,研究人员选定Wan2.1视频生成模型作为基础,打造了针对命令行和图形界面的早期原型。
原型系统展示了极具潜力的演进方向。使用者不再面对冰冷的硬件组装部件,而是与一个能在内部融合各种功能的新载体交互。
我们把新机器与现有的系统生态放在一起对比,差别极其清晰。
常规电脑依赖明确的程序。AI智能体围绕具体任务打转。世界模型聚焦环境动态。神经网络计算机围绕运行时状态构建,把安装的能力和运行状态固化在模型内部。
为了验证可行性,研究人员挑选了当今最强大的视频生成模型作为底层平台,加入了专门的动作模块,分别在命令行界面和图形界面展开测试。
研究团队构建了专属的数据集。通用数据集包含真实世界复杂终端记录,纯净数据集基于固定脚本生成。视频模型根据输入的文字提示和初始屏幕画面,在内部不断更新状态,预测并生成后续的终端操作视频。
这种纯视觉生成的电脑靠得住吗。测试给出了肯定的答案。
在常规的13像素字体大小下,模型生成的终端画面依然保持着极高的清晰度,可以精准还原代码高亮,光标移动,复杂的进度条以及排版对齐。
给出的文字描述越细致,比如详尽说明画面里会有哪些颜色和文本,模型还原的精准度就越高。
字符级别的渲染也相当惊艳。经过数万步的训练,模型可以逐行生成完全吻合的文本内容。这种对文本结构和空间关系的把握,让生成的界面兼具视觉逼真度与实际可读性。
只是原生算术能力依然是当前架构的短板。面对基础的数学计算,几大主流视频模型的直接生成准确率大都徘徊在个位数。
有趣的是,稍微调整提示词,把正确答案隐式喂给系统,准确率立马飙升到83%。可以发现当前阶段的模型更像是一个极高保真度的渲染器,其内在的逻辑运算依然需要系统级的辅助。
带有窗口,按钮和图标的图形界面挑战更大。图形界面要求极高精度的光标追踪和即时的点击反馈。
研究人员对比了三种不同质量的数据源。
结果非常明确。仅仅110小时的目标导向数据,训练效果彻底超越上千小时的随意操作数据。明确的动作意图和可预测的状态切换,是神经网络学习操作逻辑的核心。
光标控制是图形界面的灵魂。单纯让模型学习光标的坐标位置,准确率连10%都不到。加上复杂的特征转换,准确率也勉强突破13%。
当研究人员直接把光标的视觉遮罩作为参考画面喂给模型后,精准度奇迹般冲到了98.7%。显式的视觉监督让模型真正把光标当成了一个视觉实体来理解。
模型又是如何接收键盘和鼠标动作的呢。
研究设计了四种不同深度的信息注入方式。数据印证了深度注入的绝对优势,内部模式在画面一致性和动作响应上表现最好。
不管是用原始的按键流,还是打包好的抽象动作指令,深层注入都起到了决定性作用。
现阶段的神经计算机依然只是一个初级原型。
它出色地证明了神经网络可以处理输入输出对齐,实现短周期的精准控制,能够渲染并执行基本的命令工作流。
距离稳定复用旧程序,进行复杂符号计算,以及长期运行不出错,还有很长的路要走。
它和现有的系统生态有着本质区别。
当今的计算机依赖严格的代码指令,稍有偏差就会全盘崩溃。
神经计算机基于海量的多维数值表示,天生对噪音具备极强的容忍度,能够处理视觉,语言,声音等各种模态的信息。
一旦跨越了通用编程和状态持久化的门槛,我们与机器打交道的方式将被彻底重塑。
用户输入的操作轨迹,屏幕截图和随口说出的指令,都会直接变成重塑计算机内部结构的运行代码。
未来的计算设备不再需要套上一层层外壳,那个不断学习的大脑本身,就是一台专属于你的电脑。
参考资料:
https://arxiv.org/pdf/2604.06425
https://metauto.ai/neuralcomputer/
https://github.com/metauto-ai/NeuralComputer
热门跟贴