打开网易新闻 查看精彩图片

智东西
作者 陈骏达
编辑 漠影

最近几天,支付宝App中悄然出现了一项新的AI应用——“探一下”。在“扫一扫”页面下方切换至“探一下”就能体验。

打开网易新闻 查看精彩图片

与传统的识物、搜题等视觉搜索应用不同,“探一下”的核心亮点为探索。识图辨物只是开始,在此基础上,有探知识探灵感探文本等能力板块。

视觉搜索到智能推荐信息,“探一下”可成为一本随身的“视觉百科全书”。逛展时,打开“探一下”对准画作,背后的故事、历史背景、艺术风格都一览无余。踏青时,打开“探一下”对准花朵,不仅能识别出名称、科属,还有文化、园艺的相关知识。

打开网易新闻 查看精彩图片

“探一下”也可以识别同款商品、给出药物使用指南,或是翻译外文菜单,并链接到支付宝丰富的商业生态,提供用车、医疗等服务,使用场景很广泛。

打开网易新闻 查看精彩图片

当切换至探灵感功能时,它可以根据场景灵活配文,可幽默、可治愈,在宠物、办公等场景,还会有“读心”、“卷王”等定制滤镜,适合想晒图但不知道怎么写文案的人。

打开网易新闻 查看精彩图片

这些实用、有趣的功能背后,其实是视觉搜索产品在GenAI(生成式AI)时代范式转变的缩影,告别过去的传统判别式方案,多模态大模型驱动的AI视觉搜索方案正逐渐走向规模化应用。

在海外,Google Lens这一爆款视觉搜索产品,已凭借GenAI成为谷歌增长最快的查询类型之一,每月视觉搜索调用量超200亿次。依托于扫一扫的用户群体、支付宝的庞大商业生态圈以及蚂蚁的技术积累,“探一下”会否成为国内对标乃至超越Google Lens的现象级产品呢?

一、视觉搜索赛道火热,理解分析能力亟待突破

过去20多年中,传统的文字搜索引擎已成为了搜索的标准形态。不过近几年来,原本作为文字搜索补充的视觉搜索已经逐渐走到台前。2022年,谷歌开发的视觉搜索应用Google Lens每月执行的视觉搜索任务已超过120亿次,2024年这一数字已达200亿次,并持续快速增长。

从用户角度来看,视觉搜索能提供超越文字限制的直观搜索体验,还能帮助用户发现更多相关信息,从而激发新的创意与灵感。在传统文字搜索增长进入稳定期后,视觉成为众多互联网科技企业发力的重点之一。

从商业价值的角度来看,视觉搜索能在电商、社交媒体等领域提供全新的体验,成为连接用户与商业服务的重要桥梁,催生新的商业模式与价值。国内与国际的淘宝、亚马逊等电商平台纷纷推出相关服务,正是出于这一考量。

然而,在中国,现象级的视觉搜索产品尚未出现。许多厂商的视觉搜索基于AI1.0时代的判别式基础视觉算法,依托大量数据,专注于某一垂直领域,如搜题、识花、购物等,未能实现破圈。

打开网易新闻 查看精彩图片

即便是具备“识万物”能力的产品,也大多停留在了“识你所见”的层面,并且在复杂场景上的表现并不理想。当用户需要了解图片背后的更多信息时,仍需链接到搜索引擎的结果,理解分析能力成为上一代视觉搜索的明显短板,亟待突破。

打开网易新闻 查看精彩图片

二、从判别到生成,GenAI重新定义视觉搜索

互联网诞生以来,搜索的形态就处于不断流变的过程中。以Google为代表的传统搜索通过匹配关键词来获取信息,其核心是基于文字的资讯检索。

随着深度学习浪潮的开启,视觉搜索应运而生,以Google Lens早期版本为代表的同类产品以图像识别技术为核心,匹配数据库中的物体、场景或文字。

在GenAI技术的洗礼之下,传统搜索已往生成式搜索靠拢,显然,视觉搜索也需要顺应这一趋势。用户已经不再满足于仅仅获取信息,而是期待更丰富、更智能、更个性化的体验与解读。

视觉搜索需要从单纯的信息检索工具,进化为能够理解用户意图、提供个性化内容、激发创意灵感、连接服务生态的下一代生成式视觉搜索

GenAI对视觉搜索的变革性意义已经成为共识。

去年,谷歌旗下的视觉搜索产品已与大模型进行了深度融合,可在识别画面信息之外回答用户的问题,内容由模型进行整合并输出。Google Lens还进一步支持了视频提问、语音提问等功能,同样也可为用户提供丰富、个性化的交互体验。

打开网易新闻 查看精彩图片

苹果也提升了对视觉智能的重视。新款iPhone的“相机控制”按钮能一键启用视觉智能,成为Apple Intelligence的视觉入口,支持拍餐厅看评价、拍传单添加日程、拍小狗看品种、拍商品买同款等新颖的交互体验。

支付宝近期推出“探一下”,也正是由于他们把握住了生成式视觉搜索这一视觉搜索领域的新趋势。“探一下”业务负责人蔡伟(David Cai)曾在谷歌工作,从零开始深度参与了Google Lens等视觉搜索项目,他认为这一代基于多模态大模型的视觉搜索技术变迁有两大趋势,一是由搜索走向生成,二是由文本输入走向多模态、全模态输入。

据了解,“探一下”的视觉原生解决方案将多模态大模型能力同mRAG(多模态检索增强生成)、基础视觉算法、Agent能力相结合,以视觉为中心,提供了以探索为核心亮点,有用、有趣的用户体验。

为稳住识别等“求知”类需求的基本盘,并进行更具深度和广度的分析解读,“探一下”采用多模态大模型全图理解+open-set多主体检测的技术链路,能够识别特定场景中的多个主体,并将识别的结果聚合到一起,从而实现意图识别的快响应、高精度,并借助大模型理解力和知识力,进一步分析信息、理解信息、提供信息。

打开网易新闻 查看精彩图片

在精细化识别的基础上,“探一下”还可提供趣味性、启发性的内容。结合预训练好的“读心、幽默、治愈”等文本模版,“探灵感”功能可以即时生成对应“类人”风格的文本。

打开网易新闻 查看精彩图片

响应速度是不少AI产品落地时的痛点。蔡伟介绍,“探一下”联合蚂蚁百灵多模态大模型团队,针对大模型进行了轻量化推理加速,并采用了从视觉初定位,到粗意图,再到精细化识别的Coarse-to-Fine机制,缩短了结果输出的耗时,为用户提供了更为即时的体验。

准确性则是所有AI产品真正发挥实际效用的关键。探一下在生成回答时依靠不同的数据源,利用RAG技术综合信息进行交叉验证,还在最终输出时注明来源,让结果更可靠,用户更信任。

同时,“探一下”在隐私与安全上保持了与支付宝金融级产品一样的安全合规标准,对图片类型、数据存储位置(用户或服务器)都进行了细致严格的限定。

三、链接支付宝生态,“探一下”探万物的可能性

“探一下”目前的主要入口是支付宝的扫一扫功能,这从一定程度上反映了蚂蚁对这一交互形式的信心与决心。“我们认为生成式AI带来的搜索变革,其实是一个全新的交互形态,视觉不仅仅是文本的一个附庸,而是能承载独立的产品入口。”

蔡伟进一步介绍,扫一扫在过去已积累了亿万级的用户,新应用“探一下”能利用这一优势,降低培养用户习惯的成本。如果探一下能为用户创造足够多的价值,或许有希望引发如上一轮“扫一扫”般的新一轮用户行为升级。

未来,“探一下”仍然会专注于大模型具有优势,而前一代技术无法实现的场景。蚂蚁并不是一家搜索起家的企业,这让他们得以轻装上阵,更自由地探索“探一下”发展的可能性。

基于支付宝丰富的服务供给,“探一下”未来可能会接入小程序、智能体和其他潜在的用户交互形式。今年蚂蚁集团接连推出了AI生活管家“支小宝”、AI金融管家“蚂小财”和AI健康管家。作为视觉元素交互入口,“探一下”也有可能成为链接三大管家服务的重要入口。比如,在健康管家中,“探一下”可以识别药物,并且进一步链接用药指南、报告解读、医生推荐、智能导诊等健康服务。

打开网易新闻 查看精彩图片

在三大AI管家之外,作为独立的视觉原生入口,“探一下”还能识别汽车等物品及场景,链接到支付宝的“车生活”服务,提供看车、充电等生活服务,具备链接商业世界的想象力空间。

“探一下”也可落地到更丰富的应用场景,如旅游、户外、亲子等场景,不断扩大内容生态;也能基于支付宝数字公益方面的经验,发挥更大的社会价值,比如,探索无障碍辅助等领域,更好服务视障人群。

“探一下”团队在测试与发布过程中发现了不少意外之喜:如用户很喜欢用它来识别昆虫;部分用户还用“探一下”取代相机,作为内容记录与分享的新方式。作为一款C端的通用AI视觉搜索产品,“探一下”未来会针对用户需求不断进行迭代,持续优化体验。

此外,新一代视觉搜索也带来了智能硬件的发展想象。在部分场景中,“Always-on”的智能眼镜等硬件能提供比手机更好的用户体验,蔡伟称“探一下”也在思考与智能硬件的融合模式。

结语:“探一下”或将引领下一代AI视觉搜索趋势

搜索是互联网的组织层,串联起用户、信息、商业、服务等诸多要素,是信息、智能世界的重要入口。谷歌定义了搜索目前的模样,但他们起初或许并不知道搜索会长成它现在的样子。

在生成式AI时代,视觉搜索这个动作,将极大丰富搜索的样式,搜索不再是从已知中找答案,而是基于多模态大模型的视觉理解与创作能力,提供更智能、更丰富、更具交互性的服务体验。

蚂蚁集团入局AI视觉搜索,正是对其AI First战略的进一步加速。2024年,蚂蚁集团发布三大AI管家,设立强化学习实验室,AI专利、AI论文数量猛增。而支付宝的“探一下”也正在探索下一代AI视觉搜索新范式,焕新传统的搜索产品,也有希望让AI像扫码支付一样便利每个人的生活——不止有大脑能对话、有手脚能办事,更有眼睛能探索身边世界。