人工智能排行榜显示,聊天机器人使用的最新推理模型由于幻觉率较高,导致结果准确性下降。专家表示,问题远不止于此

过去几个月,OpenAI 和谷歌等科技公司的人工智能聊天机器人一直在进行所谓的推理升级——理想情况下,它们能更好地给出值得信赖的答案,但最近的测试表明,它们有时表现不如之前的模型。聊天机器人的错误,即所谓的“幻觉”,从一开始就是一个问题,而且越来越明显的是,我们可能永远无法摆脱它们。

幻觉是一个笼统的术语,指的是大型语言模型 (LLM) 所犯的某些错误,这些模型为 OpenAI 的 ChatGPT 或谷歌的 Gemini 等系统提供支持。它最广为人知的是,它描述了这些模型有时会将虚假信息呈现为真实信息。但它也可以指人工智能生成的答案在事实上准确,但与被问到的问题实际上并不相关,或者在其他方面未能遵循指令。

OpenAI 一份评估其最新 LLM 的技术报告显示,其于今年 4 月发布的 o3 和 o4-mini 模型的幻觉发生率显著高于该公司于 2024 年底发布的上一代 o1 模型。例如,在总结关于人类的公开信息时,o3 产生幻觉的概率为 33%,而 o4-mini 的概率为 48%。相比之下,o1 的幻觉发生率为 16%。

这个问题并不仅限于 OpenAI。Vectara公司的一个评估幻觉率的热门排行榜显示,一些“推理”模型——包括开发者 DeepSeek 开发的DeepSeek-R1 模型——的幻觉率与其开发者之前的模型相比,出现了两位数的增长。这类模型在做出反应之前,会经过多个步骤来展示推理过程。

OpenAI 表示,推理过程并非罪魁祸首。“幻觉在推理模型中并非天生就更普遍,尽管我们正在积极努力降低在 o3 和 o4-mini 中观察到的较高幻觉发生率,”OpenAI 的一位发言人表示。“我们将继续研究所有模型中的幻觉问题,以提高准确性和可靠性。”

一些潜在的大语言模型(LLM)申请可能会因幻觉而受阻。一个不断陈述谎言并需要事实核查的模型不会成为一个有用的研究助理;一个引用虚构案例的律师助理机器人会给律师带来麻烦;一个声称过时政策仍然有效的客服人员会给公司带来麻烦。

然而,人工智能公司最初声称这个问题会随着时间的推移而逐渐消失。事实上,在模型首次发布后,每次更新后,幻觉的出现频率都会减少。但最近版本的高幻觉出现率使这一说法更加复杂——无论推理是否出了问题。

Vectara 的排行榜根据模型在总结给定文档时的事实一致性进行排名。Vectara 的Forrest Sheng Bao表示,这表明“推理模型和非推理模型的幻觉率几乎相同”,至少对于 OpenAI 和谷歌的系统来说是如此。谷歌没有提供更多评论。Bao 表示,就排行榜而言,具体的幻觉率数字不如每个模型的总体排名重要。

但这种排名可能不是比较AI模型的最佳方式。

首先,它混淆了不同类型的幻觉。Vectara 团队指出,尽管 DeepSeek-R1 模型出现幻觉的概率为 14.3%,但大多数幻觉都是“良性的”:这些答案有逻辑推理或世界知识的事实支持,但实际上并不存在于机器人被要求总结的原文中。DeepSeek 未提供更多评论。

华盛顿大学的艾米丽·本德表示,这种排名的另一个问题是,基于文本摘要的测试“无法反映 LLM 用于其他任务时输出错误率”。她表示,排行榜结果可能并非评判这项技术的最佳方式,因为 LLM 并非专门为文本摘要而设计的。

这些模型的工作原理是反复回答“下一个词可能是什么”的问题,从而形成对提示的答案,因此它们并非按照通常的方式处理信息,即试图理解文本主体中存在哪些信息,本德说道。但许多科技公司在描述输出错误时,仍然频繁使用“幻觉”一词。

“‘幻觉’这个术语本身就存在双重问题,”本德说道。“一方面,它暗示错误的输出是一种异常,或许可以缓解,而其余时间系统是扎实、可靠且值得信赖的。另一方面,它的作用是将机器拟人化——幻觉指的是感知到并不存在的东西,而大型语言模型什么都感知不到。”

普林斯顿大学的阿尔温德·纳拉亚南 (Arvind Narayanan)表示,这个问题不仅仅是幻觉。模型有时也会犯其他错误,例如引用不可靠的来源或使用过时的信息。仅仅向人工智能投入更多的训练数据和计算能力并不一定能起到作用。

最终结果是,我们可能不得不忍受容易出错的人工智能。纳拉亚南在一篇社交媒体帖子中表示,在某些情况下,最好只在核实人工智能答案仍然比自己进行研究更快的情况下才使用此类模型。但本德表示,最好的做法可能是完全避免依赖人工智能聊天机器人来提供事实信息。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。 如有侵权,请与我们联系。 所有信息仅供参考和分享,不构成任何投资建议。投资者应基于自身判断和谨慎评估做出决策。 投资有风险,入市需谨慎。

注我们,一起探索AWM

2025-05-08

2025-05-06

2025-05-06