DeepMind研究团队最近公开了更多关于"Magic Pointer"的技术细节。这个内置于Googlebook的AI指针功能,核心目标是解决一个日常痛点:传统AI工具需要用户主动把内容"拖"进对话窗口,而Magic Pointer想要反过来——让AI主动理解用户正在看什么、为什么关心。

"我们的目标是让指针不仅理解它指向的内容,还理解这对用户为什么重要。"DeepMind团队这样描述设计初衷。具体实现方式是,指针会实时捕捉周围的视觉和语义上下文,让计算机"看见"用户关注的内容,从而把"文字繁重的提示词"替换成更直观的交互。

打开网易新闻 查看精彩图片

官方给出的典型场景包括:指向PDF直接要一份 bullet-point 摘要粘贴进邮件;悬停在统计表格上请求转成饼图;高亮食谱后要求所有食材用量翻倍。还有一个更具体的例子:旅行视频里暂停的某一帧画面,能直接变成那家看起来很酷的餐厅的预订链接。

目前Google在AI Studio上线了两个可体验的demo。同时,这项功能正在向Chrome浏览器中的Gemini集成——用户很快就能用指针直接询问网页上感兴趣的部分,比如选中几款产品让AI对比,或者指向客厅某个位置询问新沙发放置效果。

技术层面,这依赖"上下文+指向+语音"的三重理解。DeepMind认为,当AI系统能同时处理这三种输入,用户就能用"自然语言的简写方式"发出复杂指令,而不需要反复解释背景。

从交互演进的角度看,Magic Pointer代表了一种趋势:AI从独立的对话框,逐渐渗透进用户原本的工作流。不需要切换窗口、复制粘贴、重新描述场景——指针停留的地方,就是AI理解的起点。这种"无中断"的设计思路,可能是下一代AI工具的共同方向。