Memories AI：为AI装上视觉记忆，让机器真正看懂世界|memories|shen|推理|索引|视觉

2026年3月的GTC大会上，英伟达宣布了一项看似低调却意义深远的合作——与初创公司Memories.ai联手开发AI的"视觉记忆"能力。这不仅仅是又一家AI公司的技术发布，而是指向了一个被长期忽视的关键问题：AI能看，但记不住自己看到了什么。

Memories.ai的创始人Shawn Shen和CTO Ben Zhou并非凭空想象出这个方向。两人此前在Meta负责Ray-Ban智能眼镜的AI系统开发。在为这款网红眼镜搭建AI能力的过程中，他们发现了一个尴尬的现实：用户戴着眼镜录了一整天的视频，却无法有效检索和回忆这些内容。

"如果AI只能实时分析画面，却不能记住用户一周前看到的东西，那它的实用价值就大打折扣。"Shen在接受TechCrunch采访时说。

他们开始在市场上寻找解决方案，却发现这个领域几乎是一片空白。OpenAI、Google、xAI都在做AI记忆，但清一色是文本记忆——让ChatGPT记住你们之前的对话内容。对于需要与物理世界交互的AI来说，这显然不够。

文本记忆相对简单。文字是结构化的，有明确的语义边界，索引和检索都有成熟方案。但视频是另一回事——它是连续的、非结构化的、数据量巨大的信息流。

Memories.ai的解决方案分为两层：

第一层是基础设施：把视频转换成可存储、可检索的数据格式。这需要专门的嵌入模型（Embedding Model）来提取视频中的关键信息，并建立高效的索引系统。

第二层是数据：为了训练这个模型，他们甚至自己造了一款叫LUCI的硬件设备，让"数据采集员"佩戴记录视频。Shen强调他们不想成为硬件公司，只是市面上的录像设备要么画质过剩、要么耗电太快，都不符合需求。

这次GTC上公布的合作，让Memories.ai的技术栈更加清晰。他们将使用英伟达的两款核心产品：Cosmos-Reason 2推理视觉语言模型，负责理解视频内容；Metropolis视频搜索与摘要应用，提供检索能力。

此外，Memories.ai还宣布与高通达成合作，其大型视觉记忆模型（LVMM）将支持高通处理器，预计今年晚些时候落地。

Memories.ai成立于2024年，至今已完成两轮融资，总计1600万美元。投资方包括Susa Ventures、Seedcamp、Fusion Fund等知名机构。

但Shen对商业化保持克制："我们现阶段更专注于模型和基础设施，因为可穿戴设备和机器人市场终将爆发，只是时机未到。"

这种判断有其道理。苹果Vision Pro的市场反响、Meta Ray-Ban眼镜的走红，都说明可穿戴AI设备正在起势。但真正的爆发可能需要killer app——而"视觉记忆"很可能就是其中之一。

试想一下：你的AI助手记得你三个月前把护照放在了哪个抽屉，记得你上周在超市看到的那款零食叫什么名字，记得你停车时周围的地标——这才是真正有用的AI伴侣。

Memories.ai并非没有竞争对手。Google的Gemini Embedding 2就是类似方向的多模态索引检索模型。但Memories.ai的优势在于专注——他们只做视觉记忆这一件事，而且已经推出了第二代LVMM。

更关键的是，他们已经与"几家大型可穿戴设备公司"展开合作。在可穿戴AI这个即将爆发的赛道，抢先与头部厂商建立合作关系，意味着巨大的先发优势。

当所有人都在谈论大模型的参数规模和推理能力时，Memories.ai选择了一个更基础却同样重要的问题：AI的记忆。

这不是一个能登上头条的炫酷功能，但可能是决定AI能否真正融入物理世界的关键拼图。毕竟，一个看过就忘的AI，和一个能记住生活点滴的AI，哪个更像真正的智能？

答案不言而喻。

Memories AI：为AI装上视觉记忆，让机器真正看懂世界