打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

大型语言模型 (LLM) 以其逐步分解复杂问题的能力令人印象深刻。当我们要求 LLM 解决数学问题时,它们会展示其工作成果,逐步完成每个逻辑步骤,最终得出答案。这种被称为“思维链 (CoT)”推理的方法,使人工智能系统的思维过程更像人类。但如果这种令人印象深刻的推理能力实际上只是一种幻觉呢?亚利桑那州立大学的一项新研究表明,看似真正的逻辑思维可能是一种复杂的模式匹配技术。在本文中,我们将探讨这一发现,并分析其对我们设计、评估和信任人工智能系统方式的影响。

01

当前理解的问题

思路链提示已成为人工智能推理领域最受认可的进步之一。它通过展示中间步骤的工作,使模型能够解决从数学问题到逻辑谜题的各种问题。这种看似合理的推理能力让许多人相信,人工智能系统正在发展出类似于人类思维的推理能力。然而,研究人员已经开始质疑这种观点。

在最近的一项研究中,他们观察到,当被问及诸如美国建国年份是闰年还是平年之类的问题时,LLM 给出的答案并不一致。虽然他们正确地指出了1776年能被4整除的原因,并指出那是闰年,但模型仍然得出结论,认为美国建国年份是平年。在这种情况下,模型展现了对规则的了解,并展示了逻辑步骤,但却得出了自相矛盾的结论。

这些例子表明,表面上的推理和实际的逻辑推理之间可能存在根本差距。

02

理解人工智能推理的新视角

本研究的一项关键创新是引入“数据分布透镜”来检验思路链 (CoT) 推理。研究人员假设,CoT 是一种先进的模式匹配技术,它基于训练数据中的统计规律而非真正的逻辑推理。该模型生成的推理路径与其之前所见的路径近似,而非执行逻辑运算。

为了验证这一假设,研究人员创建了一个受控的实验环境 DataAlchemy。他们没有使用复杂的训练历史来测试预训练的 LLM,而是在精心设计的任务上从头开始训练较小的模型。这种方法消除了大规模预训练的复杂性,并能够系统地测试分布变化如何影响推理性能。

研究人员专注于涉及字母序列的简单转换任务。例如,他们训练模型应用诸如旋转字母表中的字母(A 变为 N,B 变为 O)或在序列中移动位置(APPLE 变为 EAPPL)等操作。通过组合这些操作,研究人员创建了复杂程度各异的多步骤推理链。这种方法赋予了他们精准的优势。他们可以精确控制模型在训练过程中学习的内容,然后测试它们在新情况下的泛化能力。对于在海量多样化数据集上训练的大型商用 AI 系统来说,这种程度的控制是无法实现的。

03

当人工智能推理失效时

研究人员在三个关键维度上测试了 CoT 推理,现实世界的应用可能与训练数据不同。

任务泛化考察了模型如何处理从未遇到过的新问题。在对与训练数据完全相同的转换进行测试时,模型取得了完美的性能。然而,细微的变化会导致其推理能力严重下降。即使新任务是由熟悉的操作组合而成,模型也无法正确应用其学习到的模式。

最令人担忧的发现之一是,模型经常会生成格式完美、看似合乎逻辑的推理步骤,但却得出错误的答案。在某些情况下,它们会通过巧合生成正确答案,但遵循完全错误的推理路径。这些发现表明,模型本质上只是匹配表面模式,而不是理解底层逻辑。

长度泛化测试了模型能否处理比训练中更长或更短的推理链。研究人员发现,以长度 4 训练的模型在以长度 3 或 5 进行测试时完全失败,尽管这些变化相对较小。此外,这些模型会试图通过不恰当地添加或删除步骤来强制其推理到熟悉的模式长度,而不是适应新的要求。

格式泛化评估了对问题呈现方式表面变化的敏感性。即使是插入噪声标记或略微修改提示结构等细微变化也会导致性能显著下降。这揭示了模型对训练数据中精确格式模式的依赖程度。

04

脆性问题

在所有三个维度上,研究揭示了一个一致的模式:CoT推理在应用于与训练示例相似的数据时效果良好,但即使在适度的分布变化下也会变得脆弱且容易失败。这种表面上的推理能力本质上是一种“脆弱的海市蜃楼”,当模型遇到不熟悉的情况时就会消失。

这种脆弱性可以表现在几个方面。模型可以生成流畅、结构良好的推理链,但这些推理链实际上却是完全错误的。它们可能遵循完美的逻辑形式,却缺乏基本的逻辑联系。有时,它们通过数学巧合得出正确答案,却展现出有缺陷的推理过程。

研究还表明,对少量新数据进行监督微调可以快速恢复性能,但这仅仅扩展了模型的模式匹配能力,而没有发展真正的推理能力。这就像学习解决一类新型数学问题时,仅仅记住具体的例子,而不是理解其背后的数学原理。

05

现实世界的影响

这些发现可能会对我们如何部署和信任人工智能系统产生重大影响。在医学、金融或法律分析等高风险领域,生成看似合理但本质上存在缺陷的推理的能力可能比简单的错误答案更危险。逻辑思维的出现可能会导致用户对人工智能的结论产生不必要的信任。

该研究为人工智能从业者提供了几条重要的指导原则。首先,组织不应将CoT视为通用的问题解决方案。使用与训练集类似的数据的标准测试方法不足以评估真正的推理能力。相反,严格的分布外测试对于理解模型的局限性至关重要。

其次,模型容易生成“流畅的胡言乱语”,这需要人工的仔细监督,尤其是在关键应用中。人工智能生成的推理链的连贯结构可以掩盖一些可能不会立即显现的基本逻辑错误。

06

超越模式匹配

或许最重要的是,这项研究挑战了人工智能界,使其超越表面改进,转向开发具有真正推理能力的系统。当前依赖于扩展数据和参数的方法,如果主要构建复杂的模式匹配系统,可能会遭遇根本性的限制。

这项研究并不会削弱当前人工智能系统的实际效用。大规模模式匹配对许多应用而言都非常有效。然而,它强调了理解这些能力的真正本质的重要性,而不是在根本不存在类似人类推理的地方强行赋予其能力。

07

前进的道路

这项研究提出了关于人工智能推理未来的重要问题。如果当前的方法从根本上受到训练分布的限制,那么哪些替代方法可以带来更强大的推理能力?我们如何开发能够区分模式匹配和真正逻辑推理的评估方法?

研究结果还强调了人工智能开发中透明度和适当评估的重要性。随着这些系统变得越来越复杂,其输出越来越令人信服,如果不加以正确理解,表观能力与实际能力之间的差距可能会变得越来越危险。

总结

LLM 中的思路链推理通常反映的是模式匹配,而非真正的逻辑。虽然输出结果可能看似令人信服,但在新的条件下可能会失效,这引发了医学、法律和科学等关键领域的担忧。这项研究强调了对更完善的测试和更可靠的人工智能推理方法的需求。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

设为星标 避免错过

虚拟世界没有旁观者,每个点赞都是创造历史的像素

关注我,一起探索AWM⁺

2025-08-15

2025-08-14

2025-08-13

商业赞助

打开网易新闻 查看精彩图片

点击下方 “目录” 阅读更多