苹果的视觉智能为iPhone 16用户提供了便捷且多样的工具,助其更多地了解周围世界。

在 9 月的 iPhone 16 发布活动中,苹果

打开网易新闻 查看精彩图片

的演示通过识别狗的品种或从海报上了解一场音乐会等例子展示了这一点——这与我最初使用iOS 18.2 测试版的体验类似。

如果视觉智能旨在告知您眼前不熟悉的事物,并为您提供原本未必能获取的背景信息,那么在一些画作上试用它似乎是理想的应用。绘画是一种视觉媒介,有各种各样的审视角度,但除非您拥有美术学位,否则可能难以入手。最近我参观了伦敦的泰特不列颠美术馆,试图改变这种情况。

我的任务是在美术馆找到并体验一个特定的展览,期望视觉智能能助力让这次出行轻松且富有启发性。

一进入泰特不列颠美术馆,我就做了件显而易见的事,寻找一张地图来指引我找到我想要查看的艺术家——英国浪漫主义画家 J.M.W. 特纳。幸运的是,这张地图我自己很容易阅读和解读,但我还是把 iPhone 对准了它。如果这张地图是用另一种语言或字母书写的,那么我绝对需要帮助才能阅读,这就是我希望视觉智能能发挥作用的地方。

对我来说幸运的是,这张地图是纵向的,与视觉智能所期望的纵向视图相匹配。拍了一张照片后,iPhone 很快识别出了标志上的大部分(但不是全部)文字。在这里,我有两个实际的选择——让苹果智能为我自己解释这个标志,或者通过“询问”按钮将其传递给 ChatGPT。

苹果智能提供了总结文本的选项,还提取出了 2025 年 2 月 16 日(一个临时展览的结束日期)。总结能够告诉我美术馆的名称、一些著名的艺术家以及我可以参观的几个空间。所有这些都是有用的信息,但它并不能帮助我找到特纳的画作。

于是我随后尝试了 ChatGPT。奇怪的是,它确切地说不出我到底在哪里,只说这是一家英国艺术博物馆和一张地图。幸运的是,我可以追问后续问题,所以我问在哪里可以找到特纳的展览。ChatGPT 能够表明这些画作在地图的右下角,但它读错了房间号,而且没有包括展览所涉及的所有房间。这不是一个大错误,但如果我一开始不能看地图,可能会造成混淆。

进入展览,你会看到特纳最著名的一幅肖像画——这是视觉智能的主要目标。ChatGPT 立刻识别出了他,并提供了一些相关背景。

我还尝试了搜索功能(实际上是谷歌镜头的快捷方式),效果也不错,为我展示了该图像的在线搜索结果。点击其中一个结果会在视觉智能界面上弹出一个浏览器窗口,这还可以,但我更希望事情能留在视觉智能中,或者直接带我进入完整的浏览器应用程序,而不是这种折中的解决方案。

我第一次尝试苹果视觉智能时对它提出的一个批评是,它只能进行数字缩放。尽管我携带的 iPhone 16 Pro Max 有出色的 5 倍长焦摄像头,但在视觉智能中不支持。在泰特不列颠美术馆,这一事实变得格外烦人。

每幅画旁边的标识从远处很容易看清,但如果你试图在视觉智能的取景器中放大以获取整个面板,最终会得到一个模糊的混乱画面。

我不得不紧挨着墙站,才能清晰地看到那个视觉智能能够总结的标志,但其对我而言,细节过少。但如果我和墙之间有障碍物,或者有一个焦虑的保安想知道我为什么要离这些有 200 年历史的杰作这么近,这就会是个问题。

这个画廊里最著名的特纳画作之一是《诺勒姆城堡,日出》,这是一幅令人惊叹的、近乎抽象的英格兰东北部城堡的描绘。在附近的一个标志上,我了解到这幅画是基于特纳最初为一本书制作的一幅印刷品,而不是从头开始画的。这似乎是个有趣的事实,所以我就查看视觉智能能不能给我讲讲相关情况。

这搜索功能没啥帮助,就只提供了图像结果,还没有细化查询的选项。与此同时,ChatGPT 经过两次提示才正确识别出这幅画,然后当我询问时,它告诉了我这幅画所基于的城堡。

我意识到在这种情况下,我的问题可能太模糊了,然后我更明确地询问这幅画是否基于一本书,这时 ChatGPT 解释了印刷品和这幅画之间的关系。我最终得到了我需要的结果,但这只是因为我从一开始就知道最终目标是啥。

虽然谷歌的搜索结果不像你从 ChatGPT 那儿得到的那么全乎,但我发现它 100%准确,不像聊天机器人。例如,看特纳一幅不太知名的作品《在斯劳附近翻萝卜》,搜索功能在网上正确地找到了匹配的结果。当我在 ChatGPT 中使用“提问”按钮时,即使我告诉它这是特纳的作品,它还是错误地识别了画1bl.lyssgw.com家和这幅画。

这展现出 ChatGPT 与苹果智能集成存在的一大限制——每次聊天都是完全独立的交互。如果您通过专用的 ChatGPT 应用程序进行类似操作,它在回答进一步的问题时可以记住您之前的消息。但对于普通的 iPhone 16 用户来说,如果他们想要试用视觉智能且无需注册任何额外内容,这意味着您每次拍摄新图像都要从头开始,需要一遍又一遍地向手机解释。

在这个画廊里,我最喜欢的一幅画是雷古勒斯,不仅因为它看起来令人难以置信,还因为围绕它的传说——特纳在画太阳时不小心刺穿了画布,因为他试图把它画得如此耀眼的白。

这正是您期望视觉智能能给您讲述的关于一幅画的那种故事,所以我让它给我讲讲这幅画。在一个错误的开端,它错将这幅画的背景认作是威尼斯而非迦太基之后,我最终通过专门询问创作过程中对这幅画的损坏情况得到了我想要的故事。询问一般的琐事或更笼统的损坏情况并没有得到我想要的故事。

我给视觉智能的最后一项测试是解释为何另一位艺术家——约翰·康斯特布尔——的画会挂在博物馆的同一区域。谷歌立即识别出了这幅画,但链接只显示了关于那幅画的结果,这对我关于它为什么特别挂在这里的问题没有帮助。

再一次,ChatGPT 需要额外的提示来识别这幅画及其创作者,但它能够解释特纳和康斯特布尔之间的时间和风格联系,给出的解释基本上与画廊在那个房间入口处的标志上给出的相同。

我在泰特不列颠美术馆尝试视觉智能的经历表明,构成该功能的三个主要部分——视觉智能本身获取信息的方式,加上由谷歌和 ChatGPT 驱动的提供实际内容的核心——能力水平相差悬殊。但它们共同能够提供相当数量的大致准确的信息,不像是口袋里装着一位博物馆馆长,倒更像是一位自认为无所不知的叔叔,他往往会记错大学时上过的那堂艺术课,直到你纠正他。

首先,视觉智能本身已被证明使用方便,能够通过其文本识别、总结能力以及与其他苹果应用程序的集成能力提供帮助,无需其他服务。但在无法靠近拍摄对象时,它确实需要与可用的光学变焦相机配合使用。如果能提供更多、更广泛的探索图像的选项,而非仅仅目前所连接的两个服务,那就更好了。

我觉得在视觉智能套餐中,谷歌的搜索结果是最可靠的,但也是整合度最低的。结果往往只是图片,这可能会形成阻碍,而且颇为奇怪,因为在浏览器中的常规谷歌搜索很乐意提供人工智能总结或特色文本摘录来告诉你你正在寻找的内容。

最后是 ChatGPT,如果能有更大的上下文窗口来对多个镜头做出更多解释,而非需要一次又一次地进行提示,那将会更好。也许为了平衡 ChatGPT 的服务器成本和苹果向 iPhone 16 用户免费提供服务,这无法实现,但这仍然在我的愿望清单上。更高的准确性,或者在首次询问时能够添加书面提示和图像的选项,或许也有助于更快地将结果聚焦于你所需的内容上。

作为一种学习工具,视觉智能已经显示出它有很大的潜力,如果苹果能够在未来的 iOS 更新和硬件迭代中基于这种潜力进行开发,iPhone 用户可能会拥有最好的教育工具之一。但目前,也许在未来很长一段时间内,寻找一个标志或向附近的专家询问,以获得关于一幅画的准确介绍,仍然比一次又一次地提示 ChatGPT 以获得正确的艺术家名字要快。