打开网易新闻 查看精彩图片
《纽约时报》最近公布的一组数据,把谷歌AI概览的"成绩单"摊在了桌上——准确率约90%。听着挺漂亮,但换算一下就很刺激:按谷歌每年5万亿次搜索量,这意味着每小时可能蹦出5700万条错误答案,每分钟近100万条。相当于你眨个眼的工夫,几千条不靠谱的信息已经流进用户眼睛。
AI初创公司Oumi用SimpleQA基准做了实测。4326次搜索后,Gemini 2去年10月准确率85%,今年2月Gemini 3提升到91%。数字在涨,但另一个指标在跌:AI概览与来源不符的比例,从37%飙到了56%。
这就像一个学生,作业正确率提高了,但抄错参考书页码的次数反而翻倍。具体表现也很迷——有时是错误概览配正确链接,有时是准确概览引了错误信息。更麻烦的是,Oumi承认评估本身依赖AI工具,可能存在误差,而且谷歌对同一查询有时会生成不同概览,稳定性存疑。
操纵难度比想象中低。有记者专门测试:发布虚假博客,谷歌次日就在概览里引用了。用户斯蒂芬·潘瓦西的经历更典型——搜摔跤手霍克·霍根的死讯,AI Overviews明确说"没有可信报告显示去世",但页面下方文章标题赫然写着"霍根之死谜团加深"。
自己打自己脸,用户看懵了。
谷歌发言人质疑Oumi的测试方法,认为没反映真实搜索行为。但问题是,真实用户的困惑已经摆在那儿了。AI概览的设计初衷是让用户"不用点开链接就能获取答案",可当答案和链接互相矛盾时,用户该信哪个?
这个产品设计上的张力,目前看来还没找到平衡点。
热门跟贴