我们习惯把AI当成聊天工具。但换个角度看系统架构,成熟的AI Agent更像一种新型个人计算机——它就运行在你的设备上。
这台"计算机"的核心不是传统CPU,而是大语言模型(LLM,Large Language Model)。但LLM本身有个关键局限:没有长期记忆。它更像一个推理引擎,无法原生记住过去发生的事。如果说LLM是CPU,那上下文(Context)就是AI的内存。而这份内存应该分成两层。
第一层是持久记忆,属于整个Agent,信息会随时间塑造Agent的行为模式。第二层是会话记忆,只属于当前对话,类似程序运行时的临时内存。但LLM的上下文窗口并非无限,Agent必须像操作系统一样管理内存:长期数据不该留在上下文窗口里,而应存放在文件系统中。一种很自然的形式就是Markdown文件——笔记、文档、代码、配置都能存成Markdown。它的巨大优势在于:AI能读,人也能直接读。这就创造了一个"人与AI共享的知识空间"。
未来的AI Agent不会只有"知识",还会有"技能"。这些技能可能由软件工具组成,未来甚至会出现专门的应用商店。传统聊天机器人有个最大误解:人们以为AI只通过文本交流。实际上,未来的AI Agent将拥有完整的多模态输入输出系统。从本质上看,AI Agent是一种全新的交互层。
把整个架构拼起来看:LLM作为CPU,上下文分层管理内存,Markdown充当文件系统,技能层扩展功能,多模态I/O完成交互——这越来越像一台真正的计算机。只不过它不是围绕图形界面(GUI)构建的,而是围绕"语言理解与推理"构建的。
未来,每个人的设备上可能都运行着一个持续在线的AI Agent。我们使用的不再只是"一个更聪明的聊天工具",而是一种以个人AI为核心的新型操作系统。而今天我们用的对话框,或许只是这个新纪元最早的原型。
这一架构思路并非空想。2023年10月,Park等人在arXiv发表论文《MemGPT: Towards LLMs as Operating Systems》,提出将LLM作为操作系统的设计方向。同年12月,Wang等人发表《LLM as OS, Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem》,进一步描绘了AIOS与Agent生态的愿景。两篇论文的底层判断一致:LLM的范式正在从工具向系统迁移。
热门跟贴