打开网易新闻 查看精彩图片

押注 AI 的 Memory Layer。


作者|连冉

编辑|郑玄

5 月底,一家叫 Clipto.AI 的公司,推出一款端侧产品登上了 Product Hunt 全球榜首。

它是一个多模态搜索工具,用户可以直接输入一句自然语言,在数 TB 的视频、音频、图片和文档中快速找到需要的内容。

不过,Clipto 想解决的问题不止搜索。

过去几年,大模型不断提升生成能力。AI 会写代码、会画图、会制作视频,内容生产效率被推到前所未有的高度。但与此同时,另一个问题正在变得越来越突出:人们创造和保存的数据越来越多,却越来越难被重新利用。

电脑里堆积着会议录音、直播录像、播客访谈、采访素材、项目文档和截图。对于记者、创作者、律师、研究员等知识工作者而言,真正消耗时间的往往不是生产内容,而是在海量素材中寻找内容。

在 Clipto 创始人康洪文看来,这暴露出的并不是搜索问题,而是 AI 缺失了一层关键基础设施。他把这层基础设施称为 Memory Layer(记忆层)。

AI 一直在构建世界模型,却缺少用户模型;Agent 越来越聪明,却因为缺失记忆,始终无法真正理解用户。

而从视频理解研究,到 AIGC 创业,再到今天押注 AI 记忆层,康洪文过去二十年的经历,某种程度上也对应着 AI 技术演进的一条隐藏主线:从理解内容,到生成内容,再到组织内容。

01

从搜索工具到记忆层:

Clipto 想解决什么问题?

在康洪文的定义里,Clipto 并不是一款单纯的多模态搜索工具,而是连接个人数据与智能体生态的「记忆层」。

「过去十年,AI 一直在构建世界模型,但缺少用户模型。每个人的数据都散落在自己设备里,尚未转化为 AI 可以持续理解和调用的个人上下文。」他这样总结行业的空白,「如果没有长期记忆,再聪明的 Agent 也无法真正理解用户。搜索只是开始,Clipto 的最终目标是打造 AI 时代缺失的记忆层。」

Clipto 给出的解法,是一套完全跑在本地的多模态记忆构建逻辑:用户将本地的视频、音频、图片和文档等多模态数据导入后,系统会依靠设备自身的 AI 算力与自研端侧多模态大模型,对所有文件完成感知理解、结构化解析与向量化处理,最终搭建起带有认知图谱、实现时空对齐的个人记忆系统。

实际使用中,用户只需用自然语言描述需求,端侧大模型会先完整解析查询的意图与上下文,再通过本地搜索 Agent 在数秒内完成精准定位——无论是特定人物、场景、对白,还是完整的事件段落,都能直接命中对应的文件与时间点。

不止于检索召回,Clipto 真正打通了底层大模型与上层 Agent 之间缺失的记忆通路。在 TB 级的私有数据之上,用户可以以对话形式提问,让 AI 回答任何与本地记忆相关的问题,或是基于已有内容自动生成摘要、总结与内容梳理。

而所有这些运算与处理,全程都不会离开用户的本地设备。这一方面省去了海量数据上传、调用云端模型产生的高额 Token 成本;另一方面,对于包含商业机密、敏感信息的工作素材,以及移动办公、断网等特殊场景,数据不出设备本身就是一道刚性的安全与可用性门槛。

康洪文认为,过去的软件更多解决的是「存储」问题,却没有真正理解内容。Clipto 的核心,就是利用本地多模态模型把视频、音频、图片和文档转化为 AI 能理解的数据结构,让用户从「搜索文件」变成「搜索记忆」。

在他看来,搜索只是第一步,更重要的是建立一套能够持续积累个人上下文的 Memory Layer。过去十年,AI 构建的是关于世界的知识库;未来,AI 需要进一步理解每个用户的个人知识和经历。

02

二十年:从视频理解到视频生成

从履历来看,康洪文几乎参与并见证了过去二十年 AI 从研究走向产业化的几个重要阶段。

2004 年,他进入微软亚洲研究院实习。那时距离深度学习浪潮还有很多年,AI 更多时候还属于实验室里的研究课题。

他参与的项目之一,是帮助 Xbox 自动分析用户拍摄的大量家庭照片和视频,再从几个小时素材中自动提取关键片段,最终生成一段家庭短片。

今天听起来似乎稀松平常。但在当时,这几乎已经触碰到了计算机视觉最核心的问题。

因为机器必须先理解内容,才能生成内容。它需要知道谁出现了、发生了什么、哪些画面重要、哪些画面可以被忽略。

后来康洪文前往卡内基梅隆大学攻读博士,师从计算机视觉领域传奇学者 Takeo Kanade。

在那里,他继续研究图像与视频理解,希望让机器人能够通过持续积累视觉经验来理解现实世界。

在很多人眼里,视频是一段画面。但视频本质上是一种关于时间、人物、事件和关系的复杂信息结构。理解视频,本质上是在理解现实世界。

2017 年,康洪文创办慧川智能,随后推出文字生成视频平台智影。此时移动互联网和短视频行业开始高速增长,大量内容创作者进入市场。

新的问题出现了。过去的问题是机器看不懂内容。现在的问题是内容生产效率太低。

于是康洪文开始把技术重心从理解延伸到生成。文字生成视频、智能剪辑、数字人……这些后来成为 AIGC 热门赛道的方向,当时都已经出现在智影的产品探索中。

2020 年底,智影被腾讯收购。康洪文加入腾讯,负责腾讯智影团队,继续推动文生图、文生视频和数字人等全栈 AIGC 产品研发。

如果按照行业逻辑继续发展下去,他完全可以继续押注生成式 AI。但真正让他产生新思考的,恰恰是生成能力的爆发。

当生成越来越容易的时候,一个新的问题开始浮现。内容越来越多了,人们开始拥有海量视频、海量录音、海量文档。新的瓶颈变成了管理。AI 解决了创造内容的问题,却没有解决理解个人内容的问题。当越来越多的信息被记录下来,人们反而越来越难找回自己需要的信息。

这让他意识到,也许行业忽略了一个更底层的问题。

在生成之前,需要理解。在理解之后,还需要记忆。而 AI 的下一步,可能正是记忆。

03

AI 的下一层竞争,

为什么会是 Memory

在康洪文看来,Agent 真正走向成熟之前,还有一个问题必须先解决——记忆。

今天的大模型已经足够聪明。它们能够写代码、做分析、生成报告,甚至替用户完成部分工作流程。但无论模型能力多强,它始终存在一个天然缺陷——它不了解用户。

每次打开一个新的 AI 产品,都像是在和一个失忆的人重新认识。你需要重新介绍自己是谁、正在做什么、过去做过什么。而一旦对话结束,这些上下文又会消失。

在康洪文看来,整个 AI 基础设施缺失了一层关键能力——缺少用户模型。

今天的大模型拥有互联网上几乎所有公开知识,却无法真正理解一个具体的人。因为关于这个人的数据,并不在互联网。它们散落在电脑、手机、NAS、网盘、相机、会议记录和各种本地设备之中。

对于 AI 来说,这些信息几乎处于不可见状态。而当 Agent 开始大规模普及后,这个问题会变得更加明显。

今天大家讨论 Agent,更多是在讨论它能够帮助用户完成什么任务。但如果未来真的出现数百万甚至数亿个 Agent,那么新的问题也会随之出现:这些 Agent 如何理解用户?它们如何知道用户过去做过什么?又如何共享同一套个人上下文?

康洪文认为,不可能每一个 Agent 都重新构建一套用户记忆。这既不现实,也没有必要。更合理的方式,是存在一个独立的 Memory Layer。

打开网易新闻 查看精彩图片

Living Memory Graph

Agent 负责执行任务,Memory Layer 负责管理用户记忆,所有 Agent 都能够基于这套统一记忆系统理解用户。

这有点类似互联网时代的操作系统,应用程序越来越多,但底层文件系统只有一个。

今天的 Agent 生态,或许也需要一个类似的记忆系统作为公共基础设施。这也是 Clipto 希望扮演的角色。

在康洪文的判断里,未来的 AI 架构很可能会形成两层基础设施:一层是 Intelligence Layer,负责理解世界,一层是 Memory Layer,负责沉淀用户的个人知识、上下文和长期记忆。前者主要由云端大模型提供世界知识,后者则建立在用户持续产生的个人数据之上。

两者共同构成真正意义上的 Personal AI。这也是为什么他并不认为所有 AI 能力最终都会迁移到云端。

过去几年,整个行业几乎都在争夺云端大模型市场。OpenAI、Google、Anthropic,以及国内的大模型公司,竞争焦点始终围绕着模型能力展开。

但与此同时,另一种趋势也在出现。Apple M 系列芯片不断提升神经网络算力,NVIDIA 开始推动 AI PC,微软推出 Copilot+ PC。越来越多计算能力正在回到用户设备本身。

AI 的计算结构正在发生变化。过去,大部分 AI 能力运行在云端;未来,随着个人数据越来越重要,越来越多与记忆相关的能力将运行在用户设备上,而推理和世界知识仍将持续受益于云端大模型。。

因为用户最重要的数据,本来就存在本地。采访记录、合同文件、财务资料、创作素材、家庭照片,这些内容既不适合频繁上传云端,也很难完全依赖云端处理。

更重要的是,数据规模本身正在迅速膨胀。对于影视制作团队来说,一个项目可能产生数十 TB 甚至上百 TB 视频素材。对于媒体机构而言,几年时间积累下来,同样会形成庞大的内容资产。

在这种情况下,云端不一定是最优解。本地理解、本地索引、本地推理,反而开始具备新的价值。

不过,康洪文并不认为未来属于「纯本地 AI」。他强调,Memory Layer 最终依然会是一个云端与本地协同的体系。

因为记忆本身并不等于存储。真正重要的是组织、关联和调用。用户的数据可能分散在不同设备和平台上。

电脑里有文件,手机里有照片、视频,云盘里还有另一部分资料。未来的记忆系统,需要把这些原本割裂的数据重新连接起来,最终形成一个能够被 AI 理解、查询和调用的个人知识网络。

而这也是康洪文过去二十年思考不断演化后的结果。在微软亚洲研究院,他研究机器如何理解视频;在智影时期,他研究机器如何生成内容;而到了今天,他开始思考一个新的问题:当 AI 已经能够理解内容、生成内容之后,谁来组织内容。

*头图来源:受访者

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待 Memory Layer ?