打开网易新闻 查看精彩图片

2026年3月的GTC大会上,英伟达宣布了一项看似低调却意义深远的合作——与初创公司Memories.ai联手开发AI的"视觉记忆"能力。这不仅仅是又一家AI公司的技术发布,而是指向了一个被长期忽视的关键问题:AI能看,但记不住自己看到了什么。

Memories.ai的创始人Shawn Shen和CTO Ben Zhou并非凭空想象出这个方向。两人此前在Meta负责Ray-Ban智能眼镜的AI系统开发。在为这款网红眼镜搭建AI能力的过程中,他们发现了一个尴尬的现实:用户戴着眼镜录了一整天的视频,却无法有效检索和回忆这些内容。

"如果AI只能实时分析画面,却不能记住用户一周前看到的东西,那它的实用价值就大打折扣。"Shen在接受TechCrunch采访时说。

他们开始在市场上寻找解决方案,却发现这个领域几乎是一片空白。OpenAI、Google、xAI都在做AI记忆,但清一色是文本记忆——让ChatGPT记住你们之前的对话内容。对于需要与物理世界交互的AI来说,这显然不够。

文本记忆相对简单。文字是结构化的,有明确的语义边界,索引和检索都有成熟方案。但视频是另一回事——它是连续的、非结构化的、数据量巨大的信息流。

Memories.ai的解决方案分为两层:

第一层是基础设施:把视频转换成可存储、可检索的数据格式。这需要专门的嵌入模型(Embedding Model)来提取视频中的关键信息,并建立高效的索引系统。

第二层是数据:为了训练这个模型,他们甚至自己造了一款叫LUCI的硬件设备,让"数据采集员"佩戴记录视频。Shen强调他们不想成为硬件公司,只是市面上的录像设备要么画质过剩、要么耗电太快,都不符合需求。

这次GTC上公布的合作,让Memories.ai的技术栈更加清晰。他们将使用英伟达的两款核心产品:Cosmos-Reason 2推理视觉语言模型,负责理解视频内容;Metropolis视频搜索与摘要应用,提供检索能力。

此外,Memories.ai还宣布与高通达成合作,其大型视觉记忆模型(LVMM)将支持高通处理器,预计今年晚些时候落地。

Memories.ai成立于2024年,至今已完成两轮融资,总计1600万美元。投资方包括Susa Ventures、Seedcamp、Fusion Fund等知名机构。

但Shen对商业化保持克制:"我们现阶段更专注于模型和基础设施,因为可穿戴设备和机器人市场终将爆发,只是时机未到。"

这种判断有其道理。苹果Vision Pro的市场反响、Meta Ray-Ban眼镜的走红,都说明可穿戴AI设备正在起势。但真正的爆发可能需要killer app——而"视觉记忆"很可能就是其中之一。

试想一下:你的AI助手记得你三个月前把护照放在了哪个抽屉,记得你上周在超市看到的那款零食叫什么名字,记得你停车时周围的地标——这才是真正有用的AI伴侣。

Memories.ai并非没有竞争对手。Google的Gemini Embedding 2就是类似方向的多模态索引检索模型。但Memories.ai的优势在于专注——他们只做视觉记忆这一件事,而且已经推出了第二代LVMM。

更关键的是,他们已经与"几家大型可穿戴设备公司"展开合作。在可穿戴AI这个即将爆发的赛道,抢先与头部厂商建立合作关系,意味着巨大的先发优势。

当所有人都在谈论大模型的参数规模和推理能力时,Memories.ai选择了一个更基础却同样重要的问题:AI的记忆。

这不是一个能登上头条的炫酷功能,但可能是决定AI能否真正融入物理世界的关键拼图。毕竟,一个看过就忘的AI,和一个能记住生活点滴的AI,哪个更像真正的智能?

答案不言而喻。