1 月 15 日,谷歌宣布 Gemini 上线名为“Personal Intelligence”(个人智能)的新功能。这项新功能允许 Gemini 接入用户的 Gmail 邮箱、Google Photos 相册、YouTube 观看历史以及搜索记录,根据问题需要调取相应的记忆,以提供更具针对性的回答。
该功能目前以测试版形式向美国地区的付费订阅用户开放,计划在未来几周内逐步扩展到免费用户及更多国家。
在这个功能上,谷歌显然拥有自己的系统生态优势。与 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 等独立模型不同,谷歌掌控着 Gmail、YouTube、照片等覆盖数亿用户的消费级平台。“Personal Intelligence”正是将这种平台覆盖面转化为差异化价值的尝试。
此前的谷歌 AI 也有类似的应用连接功能。早在 2023 年,当时的 Gemini 还叫做 Bard,它就支持用户通过 “@Gmail” 等标签从特定应用中检索信息。但那种交互方式更像是显式的数据调用——用户必须明确告诉助手去哪里找什么。
而此次升级的核心在于“跨应用推理”能力:Gemini 不再需要用户指定数据源,而是能够主动在多个应用间建立关联,综合分析后给出答案。
Gemini 应用副总裁 Josh Woodward 在社交媒体上演示了一个具体场景:他需要更换轮胎,但不知道轮胎尺寸。此时他向 Gemini 提问,结果 Gemini 不仅记得用户的车型并找到标准轮胎规格,还会参考 Google Photos 中的家庭公路旅行照片,推荐适合日常驾驶和全天候路况的不同选项,并附上评分和价格对比。
当需要车牌号码时,Gemini 会从 Photos 中的某张照片里提取出七位数字,同时通过搜索 Gmail 确认车辆的具体配置型号。整个过程中,用户并未告诉它去翻阅邮件或相册。
此外,Google Photos 创始人 David Lieb 也在社交媒体上展示了 Gemini 如何根据 Gmail 记录帮他记得上次理发的时间,并且还会进一步提问他是否需要进行预约。
谷歌官方还演示了当用户想去一些有趣的地方旅行时,Gemini 会如何联动你邮件里的旅行日期,和相册里的自然风光偏好,为你推荐适合的旅行目的地。
从某种意义上来说,拥有了 Personal Intelligence 的Gemini 已不再仅仅是一个大语言模型,它正经历从“对话工具”向“个人智能体(AI Agent)”的跨越。
通过深度应用 AI Agent 记忆机制(Agent Memory),它将超长上下文的处理能力、多模态感知的深度与私有数据的语义索引无缝集成。
在今天共同发布的技术白皮书中,谷歌详细阐述了这套系统的架构设计和技术路线。
整个架构分为三个层级。最上层是产品接入层,目前以 Gemini 应用为主,即将接入搜索中的 AI Mode。中间层是模型使能层,以 Gemini 3 系列模型为核心,提供深度语义理解、复杂逻辑推理及多模态处理能力。
最关键的是底层新构建的 Personal Intelligence 引擎——这是一个全新的中间件,负责连接模型与用户的私有数据源,包括 Gmail、Google Photos、YouTube 和搜索历史等。
它像是一个智能的记忆调度系统,面对用户多年积累的海量邮件、照片和搜索记录,它知道当前任务需要哪些信息,并精准地将它们放到传送带上进行输出。
具体来说,这一目标的实现依赖三大支柱。
首先是 Gemini 3 的推理能力。相比之前的模型,Gemini 3 能够更好地理解复杂的个人语境,比如映射家族关系或识别用户特定的审美偏好——当用户提到“我的车”时,它需要理解这不仅是一个名词,还关联着购车合同、保养记录、驾驶习惯等一系列个人数据。
其次是工具调用能力的强化。这是从被动检索到主动推理的关键跃升。白皮书强调,模型现在能够“智能地”(Agentically)理解用户目标,并主动生成指令从 Personal Intelligence 引擎中检索与用户偏好相关的信息。这种检索建立在谷歌多年搜索和密集检索研究的基础上,包括 Gemini Embeddings 等技术。
当用户询问“为我即将到来的旅行计划一份靠近酒店的餐厅清单”时,模型会将这个任务拆解成多个细节:酒店预订信息、航班抵达时间、过往用餐历史以及收藏的餐厅。系统会在后台执行智能检索,不仅查找最近的邮件行程,还会关联过往的餐厅预订记录、搜索查询、YouTube 观看历史和过去的对话记录,最终给出贴合用户住宿地点的个性化推荐。
第三个也是最核心的技术支柱,是超长上下文处理与“上下文打包”技术的结合。Gemini 3 拥有 100 万 token 的上下文窗口,理论上可以处理相当于 1 小时视频、11 小时音频、3 万行代码或 70 万个单词的信息量。但谷歌在白皮书中坦承,真正有用的个性化需要处理远超这一窗口的数据规模——仅用户积累的邮件和照片往往就以数量级超出这个限制。
这正是上下文打包技术的关键所在。该技术通过动态识别并合成最适当的信息片段,将它们放入模型的“工作记忆”(Working Memory)中,而非简单地将所有数据塞进上下文窗口。
此外,Personal Intelligence 采用的是 RAG(检索增强生成,Retrieval-Augmented Generation)的进化版,不再只是从公网检索知识,而是通过语义索引对用户的 Gmail、相册、搜索历史进行实时向量化。
这对应了 Agent 架构中的外部记忆(External Memory):模型本身不存储这些隐私数据,而是在推理时根据用户的提示词生成检索指令,从用户的“私有知识库”中提取切片,放入上下文窗口中。
整个系统的工作流程体现了“智能代理式”的特征。当接收到复杂指令时,系统会进行任务拆解(Task Decomposition):调用 Gmail API 查找订单,调用 Photos API 分析图片特征,调用 YouTube API 匹配相关内容。
更重要的是,架构的核心在于将个人信息视为一种“持续流式语境”(Continuous Stream of Context)——用户一旦授权,Gemini 便可将某些类型的个人信息作为连续的上下文来源,实时告知模型的每一次交互,从而提供定制化服务。
然而,当前阶段的实际效果还存在需要完善的地方。Google Labs与 Gemini 应用副总裁 Josh Woodward 在明确提醒:尽管团队已进行广泛测试以"最小化错误",用户仍可能遇到"不准确的响应"或"过度个性化"。
即模型在不相关的话题之间建立错误联系。在涉及时机或细微差别的场景中,例如关系变化(如用户与伴侣离婚、分手的情况)或用户的多元兴趣,Gemini 可能难以准确把握。
对于跨应用调取信息来说,隐私保护是一个绕不开的话题。在这方面,谷歌强调 Personal Intelligence 是默认关闭的,用户需主动开启并选择连接哪些应用。在数据在传输和存储过程中也会采用加密保护。
关于训练数据使用,谷歌澄清不会直接在用户的邮箱或相册上训练模型,但会使用"特定提示词和模型响应"以及"摘要、摘录和推断"来改进功能——这意味着虽然你的原始照片不会被用于训练,但你的提问及 Gemini 的回答可能会被纳入训练数据。这种区分对普通用户而言并不直观,也留下了数据使用边界的灰色地带。
值得注意的是,谷歌此举恰巧发生在其计划在人工智能购物工具中引入个性化广告的几天后。广告主可以通过谷歌搜索中的AI模式(由Gemini模型驱动)向准备购买商品的顾客提供独家优惠。
届时,Gemini 究竟是最得力的 AI 助手,还是藏得最深的“超级导购”?我们仍需画一个问号。
谷歌在白皮书结尾写道,Personal Intelligence 是"迈向真正个人化 AI 的一步",并强调这仍是"技术的早期阶段"。这份文件表明,Gemini 已从"通用知识问答"转向以 Agent 为中心、以工作记忆动态管理为手段的技术方向。
只是随着 Personal Intelligence 逐步扩展至免费用户、与搜索深度整合,甚至可能接入更多第三方服务,如何界定隐私的边界、确保用户知情同意的充分性,以及监管框架能否跟上技术演进的速度,是需要持续关注的问题。
1.https://www.ft.com/content/9bbdf59e-ce46-4176-aab9-b45a3f49fc4e
2.https://www.theverge.com/news/861576/google-gemini-ai-personal-intelligence-gmail-search-youtube-photos
运营/排版:何晨龙
热门跟贴