当所有 AI 都在理解世界，这家公司在理解你|agent|上下文|调用

押注 AI 的 Memory Layer。

作者｜连冉

编辑｜郑玄

5 月底，一家叫 Clipto.AI 的公司，推出一款端侧产品登上了 Product Hunt 全球榜首。

它是一个多模态搜索工具，用户可以直接输入一句自然语言，在数 TB 的视频、音频、图片和文档中快速找到需要的内容。

不过，Clipto 想解决的问题不止搜索。

过去几年，大模型不断提升生成能力。AI 会写代码、会画图、会制作视频，内容生产效率被推到前所未有的高度。但与此同时，另一个问题正在变得越来越突出：人们创造和保存的数据越来越多，却越来越难被重新利用。

电脑里堆积着会议录音、直播录像、播客访谈、采访素材、项目文档和截图。对于记者、创作者、律师、研究员等知识工作者而言，真正消耗时间的往往不是生产内容，而是在海量素材中寻找内容。

在 Clipto 创始人康洪文看来，这暴露出的并不是搜索问题，而是 AI 缺失了一层关键基础设施。他把这层基础设施称为 Memory Layer（记忆层）。

AI 一直在构建世界模型，却缺少用户模型；Agent 越来越聪明，却因为缺失记忆，始终无法真正理解用户。

而从视频理解研究，到 AIGC 创业，再到今天押注 AI 记忆层，康洪文过去二十年的经历，某种程度上也对应着 AI 技术演进的一条隐藏主线：从理解内容，到生成内容，再到组织内容。

从搜索工具到记忆层：

Clipto 想解决什么问题？

在康洪文的定义里，Clipto 并不是一款单纯的多模态搜索工具，而是连接个人数据与智能体生态的「记忆层」。

「过去十年，AI 一直在构建世界模型，但缺少用户模型。每个人的数据都散落在自己设备里，尚未转化为 AI 可以持续理解和调用的个人上下文。」他这样总结行业的空白，「如果没有长期记忆，再聪明的 Agent 也无法真正理解用户。搜索只是开始，Clipto 的最终目标是打造 AI 时代缺失的记忆层。」

Clipto 给出的解法，是一套完全跑在本地的多模态记忆构建逻辑：用户将本地的视频、音频、图片和文档等多模态数据导入后，系统会依靠设备自身的 AI 算力与自研端侧多模态大模型，对所有文件完成感知理解、结构化解析与向量化处理，最终搭建起带有认知图谱、实现时空对齐的个人记忆系统。

实际使用中，用户只需用自然语言描述需求，端侧大模型会先完整解析查询的意图与上下文，再通过本地搜索 Agent 在数秒内完成精准定位——无论是特定人物、场景、对白，还是完整的事件段落，都能直接命中对应的文件与时间点。

不止于检索召回，Clipto 真正打通了底层大模型与上层 Agent 之间缺失的记忆通路。在 TB 级的私有数据之上，用户可以以对话形式提问，让 AI 回答任何与本地记忆相关的问题，或是基于已有内容自动生成摘要、总结与内容梳理。

而所有这些运算与处理，全程都不会离开用户的本地设备。这一方面省去了海量数据上传、调用云端模型产生的高额 Token 成本；另一方面，对于包含商业机密、敏感信息的工作素材，以及移动办公、断网等特殊场景，数据不出设备本身就是一道刚性的安全与可用性门槛。

康洪文认为，过去的软件更多解决的是「存储」问题，却没有真正理解内容。Clipto 的核心，就是利用本地多模态模型把视频、音频、图片和文档转化为 AI 能理解的数据结构，让用户从「搜索文件」变成「搜索记忆」。

在他看来，搜索只是第一步，更重要的是建立一套能够持续积累个人上下文的 Memory Layer。过去十年，AI 构建的是关于世界的知识库；未来，AI 需要进一步理解每个用户的个人知识和经历。

二十年：从视频理解到视频生成

从履历来看，康洪文几乎参与并见证了过去二十年 AI 从研究走向产业化的几个重要阶段。

2004 年，他进入微软亚洲研究院实习。那时距离深度学习浪潮还有很多年，AI 更多时候还属于实验室里的研究课题。

他参与的项目之一，是帮助 Xbox 自动分析用户拍摄的大量家庭照片和视频，再从几个小时素材中自动提取关键片段，最终生成一段家庭短片。

今天听起来似乎稀松平常。但在当时，这几乎已经触碰到了计算机视觉最核心的问题。

因为机器必须先理解内容，才能生成内容。它需要知道谁出现了、发生了什么、哪些画面重要、哪些画面可以被忽略。

后来康洪文前往卡内基梅隆大学攻读博士，师从计算机视觉领域传奇学者 Takeo Kanade。

在那里，他继续研究图像与视频理解，希望让机器人能够通过持续积累视觉经验来理解现实世界。

在很多人眼里，视频是一段画面。但视频本质上是一种关于时间、人物、事件和关系的复杂信息结构。理解视频，本质上是在理解现实世界。

2017 年，康洪文创办慧川智能，随后推出文字生成视频平台智影。此时移动互联网和短视频行业开始高速增长，大量内容创作者进入市场。

新的问题出现了。过去的问题是机器看不懂内容。现在的问题是内容生产效率太低。

于是康洪文开始把技术重心从理解延伸到生成。文字生成视频、智能剪辑、数字人……这些后来成为 AIGC 热门赛道的方向，当时都已经出现在智影的产品探索中。

2020 年底，智影被腾讯收购。康洪文加入腾讯，负责腾讯智影团队，继续推动文生图、文生视频和数字人等全栈 AIGC 产品研发。

如果按照行业逻辑继续发展下去，他完全可以继续押注生成式 AI。但真正让他产生新思考的，恰恰是生成能力的爆发。

当生成越来越容易的时候，一个新的问题开始浮现。内容越来越多了，人们开始拥有海量视频、海量录音、海量文档。新的瓶颈变成了管理。AI 解决了创造内容的问题，却没有解决理解个人内容的问题。当越来越多的信息被记录下来，人们反而越来越难找回自己需要的信息。

这让他意识到，也许行业忽略了一个更底层的问题。

在生成之前，需要理解。在理解之后，还需要记忆。而 AI 的下一步，可能正是记忆。

AI 的下一层竞争，

为什么会是 Memory

在康洪文看来，Agent 真正走向成熟之前，还有一个问题必须先解决——记忆。

今天的大模型已经足够聪明。它们能够写代码、做分析、生成报告，甚至替用户完成部分工作流程。但无论模型能力多强，它始终存在一个天然缺陷——它不了解用户。

每次打开一个新的 AI 产品，都像是在和一个失忆的人重新认识。你需要重新介绍自己是谁、正在做什么、过去做过什么。而一旦对话结束，这些上下文又会消失。

在康洪文看来，整个 AI 基础设施缺失了一层关键能力——缺少用户模型。

今天的大模型拥有互联网上几乎所有公开知识，却无法真正理解一个具体的人。因为关于这个人的数据，并不在互联网。它们散落在电脑、手机、NAS、网盘、相机、会议记录和各种本地设备之中。

对于 AI 来说，这些信息几乎处于不可见状态。而当 Agent 开始大规模普及后，这个问题会变得更加明显。

今天大家讨论 Agent，更多是在讨论它能够帮助用户完成什么任务。但如果未来真的出现数百万甚至数亿个 Agent，那么新的问题也会随之出现：这些 Agent 如何理解用户？它们如何知道用户过去做过什么？又如何共享同一套个人上下文？

康洪文认为，不可能每一个 Agent 都重新构建一套用户记忆。这既不现实，也没有必要。更合理的方式，是存在一个独立的 Memory Layer。

Living Memory Graph

Agent 负责执行任务，Memory Layer 负责管理用户记忆，所有 Agent 都能够基于这套统一记忆系统理解用户。

这有点类似互联网时代的操作系统，应用程序越来越多，但底层文件系统只有一个。

今天的 Agent 生态，或许也需要一个类似的记忆系统作为公共基础设施。这也是 Clipto 希望扮演的角色。

在康洪文的判断里，未来的 AI 架构很可能会形成两层基础设施：一层是 Intelligence Layer，负责理解世界，一层是 Memory Layer，负责沉淀用户的个人知识、上下文和长期记忆。前者主要由云端大模型提供世界知识，后者则建立在用户持续产生的个人数据之上。

两者共同构成真正意义上的 Personal AI。这也是为什么他并不认为所有 AI 能力最终都会迁移到云端。

过去几年，整个行业几乎都在争夺云端大模型市场。OpenAI、Google、Anthropic，以及国内的大模型公司，竞争焦点始终围绕着模型能力展开。

但与此同时，另一种趋势也在出现。Apple M 系列芯片不断提升神经网络算力，NVIDIA 开始推动 AI PC，微软推出 Copilot+ PC。越来越多计算能力正在回到用户设备本身。

AI 的计算结构正在发生变化。过去，大部分 AI 能力运行在云端；未来，随着个人数据越来越重要，越来越多与记忆相关的能力将运行在用户设备上，而推理和世界知识仍将持续受益于云端大模型。。

因为用户最重要的数据，本来就存在本地。采访记录、合同文件、财务资料、创作素材、家庭照片，这些内容既不适合频繁上传云端，也很难完全依赖云端处理。

更重要的是，数据规模本身正在迅速膨胀。对于影视制作团队来说，一个项目可能产生数十 TB 甚至上百 TB 视频素材。对于媒体机构而言，几年时间积累下来，同样会形成庞大的内容资产。

在这种情况下，云端不一定是最优解。本地理解、本地索引、本地推理，反而开始具备新的价值。

不过，康洪文并不认为未来属于「纯本地 AI」。他强调，Memory Layer 最终依然会是一个云端与本地协同的体系。

因为记忆本身并不等于存储。真正重要的是组织、关联和调用。用户的数据可能分散在不同设备和平台上。

电脑里有文件，手机里有照片、视频，云盘里还有另一部分资料。未来的记忆系统，需要把这些原本割裂的数据重新连接起来，最终形成一个能够被 AI 理解、查询和调用的个人知识网络。

而这也是康洪文过去二十年思考不断演化后的结果。在微软亚洲研究院，他研究机器如何理解视频；在智影时期，他研究机器如何生成内容；而到了今天，他开始思考一个新的问题：当 AI 已经能够理解内容、生成内容之后，谁来组织内容。

*头图来源：受访者

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你如何看待 Memory Layer ？

当所有 AI 都在理解世界，这家公司在理解你

热搜

热门跟贴

热搜

热门跟贴

相关推荐

Karpathy投了一家AI记忆公司，撞名DeepSeek Engram记忆架构

黄仁勋：Prompt正在过时，Loop才是新范式

Anthropic合伙人：AI发展已踩不了刹车，它并非程序而是“模拟脑组织”，大模型会形成“品格”

AI短剧观察：灰色产业链，如何倒逼行业洗牌？

物理AI，Momenta开场

人工智能与人脑

当一个AI编程助手在TCL深度上岗，工程师的活儿变了

同济出手！国产AI，第一次进攻土木工程

百度沈抖自曝：老忘吃药，用AI做了个小程序

80%代码由Claude合并，Anthropic内部人员点破Agent真相

首个长程Doc2Repo训练集！代码Agent不止修bug，开始造仓库

用户反应张雪500f捏离合熄火，多次维修未果，看张雪怎么解决

Leader 考核实习生：“你怎么配置 Claude Code？” 我挠头：“多写 Skills？” 她摇头：“明天别来了！”

投资600万元的加油站，建成即被“责令限期拆除”？河南淮滨县发布情况通报

腾讯推出Agent专属邮箱，我让它自动回复全网邮件

趁着办公室没有人，女子竟做出这举动，打印的什么机密文件

连豆包都没解完的难题，被一款国产AI游戏接手了

男生查分看到屏幕显示不敢信，妈妈也蒙了，爸爸直呼“怎么可能”

马斯克预测GLM明年Q1追平Fable，智谱唐杰：没那么久

郭春林 2026教育大变局！人才选拔逻辑已经发生了改变