AI开始像人一样"思考"了，但代价也一样贵|推理|生物进化|相似性|神经网络|科学

你有没有发现，ChatGPT最近变聪明了？以前让它算个复杂数学题，它大概率会胡扯；现在它居然会"琢磨"一会儿，然后给出正确答案。这种变化背后，是一类新模型的崛起——推理模型。而MIT的科学家最近发现了一个有趣的现象：这些AI思考越难的问题，人类大脑处理起来也越费劲。换句话说，AI的"思考成本"和人类的"思考成本"，居然对上了。

这项研究来自MIT麦戈文脑科学研究所，今天发表在《PNAS》上。研究团队由脑科学与认知科学副教授Evelina Fedorenko带领。他们的核心发现是：推理模型在处理复杂问题时需要的计算资源，与人类面对同类问题时需要的时间，呈现出相似的规律。这不是设计出来的巧合，而是两种完全不同的系统——硅基神经网络和碳基神经网络——在解决问题时的一种意外收敛。

Fedorenko本人对这个发现感到意外。她坦承，自己过去属于"AI怀疑派"，认为神经网络在感知和语言上表现不错，但推理能力还差得远。"然后这些大型推理模型出现了，它们在解数学题、写代码这类思考任务上表现得好得多。"她说，"模型构建者根本不在乎AI是不是像人类那样思考，他们只想要一个在各种条件下都能稳定输出正确答案的系统。但两者居然有某种趋同，这真的很 striking。"

那么，这些推理模型到底做了什么不同的事？

关键变化在于"分步思考"。研究团队成员、博士后Andrea Gregor de Varda解释，开发者意识到模型需要更多空间来执行实际计算。"如果你让模型把问题拆成几个部分来解决，性能就开始变得强得多。"这种思路听起来简单，但效果惊人——模型不再试图一次性蹦出答案，而是像学生打草稿一样，一步步推导。

研究团队设计了一系列实验来验证这种"分步"机制。他们给模型和人类被试呈现相同类型的问题，然后观察两者的表现模式。结果发现，那些需要更多推理步骤的问题，模型消耗的计算量更大，人类花费的反应时间也更长。这种对应关系不是严格的数值等价，而是趋势上的一致性：难题对两者都难，简单题对两者都简单。

这种"成本对齐"意味着什么？

从科学角度看，它暗示了一种可能的深层规律：某些认知任务的内在结构，可能决定了任何系统——无论是生物进化出来的还是人工设计出来的——解决它们时都需要付出相应的"代价"。就像搬重物需要能量，处理复杂信息也需要"认知能量"。MIT的研究没有声称发现了这种规律的完整机制，但他们提供了初步证据，表明这种规律确实存在。

不过，研究者也强调了几点重要的限制。

第一，这种相似性只出现在特定条件下。研究团队测试的是"需要多步推理的明确问题"，比如数学证明或逻辑谜题。对于开放式创意写作、情感理解这类任务，AI和人类的"思考成本"是否还对得上，目前不清楚。

第二，"成本"的度量方式完全不同。模型的"成本"是计算步骤和能耗，人类的"成本"是反应时间和主观努力感。两者只是趋势相似，不能直接换算。Fedorenko团队没有声称1秒人类思考等于X次模型运算——这种等式在原文中不存在。

第三，也是最根本的一点：这种趋同可能是"功能性的"而非"机制性的"。意思是，AI和人类可能只是在最终表现上看起来相似，但内部的运作方式完全不同。就像飞机和鸟类都能飞，但一个靠引擎一个靠肌肉。MIT的研究没有深入比较神经机制，这个方向留给了后续研究。

这项研究的另一个有趣之处在于它的"意外性"。

AI领域的发展常常伴随着关于"像不像人类"的争论。早期神经网络被批评为"黑箱"，后来大语言模型被质疑"只是统计模式匹配"。推理模型的出现改变了部分讨论——它们确实展现出某种"系统性思考"的能力。但Fedorenko指出，这种能力并非来自对人类的模仿，而是来自工程优化。"模型构建者没有刻意让AI像人类一样思考，"她说，"他们只是在解决一个工程问题：如何让系统更可靠。"

这种"无意的相似"反而让神经科学家更感兴趣。如果两种独立进化的系统都找到了类似的解决方案，那可能说明这个方案是"好的"或"必然的"。这在科学史上不乏先例：蝙蝠和海豚独立进化出了回声定位，章鱼和人眼独立进化出了类似的镜头结构。趋同进化往往指向某种深层约束。

当然，把AI和生物进化类比需要谨慎。神经网络的设计者——人类——本身就是进化产物，我们设计的系统难免带有某些"人类痕迹"。但MIT的研究团队认为，这种解释不足以说明全部现象。推理模型的架构细节、训练目标函数、优化算法，都与人类大脑的发育和学习机制截然不同。在这种前提下仍能观察到"成本对齐"，值得认真对待。

对于普通用户来说，这项研究有什么实际意义？

最直接的一点：当你感觉ChatGPT"变聪明了"，你的直觉是对的，但原因可能和你想的不一样。它不是"懂了更多"，而是学会了"慢慢想"。这种变化带来了更好的表现，也带来了新的限制——推理模型需要更长的响应时间，消耗更多计算资源。厂商需要在"聪明程度"和"响应速度"之间做权衡，用户也需要调整自己的预期：有些问题值得等，有些问题没必要。

更深一层，这项研究为AI评估提供了新视角。传统上，我们测试AI主要看最终答案对不对。但MIT的工作提示，"思考过程"本身也可能是重要的评估维度——不仅是对错，还有"怎么错的""花了多少力气"。这种视角对于理解AI的可靠性和局限性都有帮助。

研究团队也提到了一些悬而未决的问题。比如，这种"成本对齐"会持续到多高的复杂度？当问题难到一定程度，人类会放弃或寻求外部帮助，模型也会吗？又或者，是否存在某些问题类型，对人类很难但对AI很容易，或者相反？这些问题的答案，将决定"类人推理"这个概念的适用范围。

最后，值得重复一遍研究者的谨慎态度。Fedorenko在多个场合强调，她们没有证明AI"像人类一样思考"，只是发现了一种特定的相似性。这种相似性很有趣，但不应该被过度解读。在科学传播中，这种克制尤其难得——毕竟，"AI终于像人一样思考了"是更抓眼球的标题。

但真相往往比标题更微妙。MIT的这项研究告诉我们：当AI开始"琢磨"的时候，它可能真的在付出某种"代价"——和人类面对难题时一样。这种发现不会终结关于机器智能的争论，但它提供了一个新的观察角度：不是问"AI有多像人"，而是问"在解决特定问题时，两种系统是否面临相似的约束"。后者是一个可以检验的科学问题，而前者往往陷入语义泥潭。

下一次当你看到ChatGPT在输入框里"闪烁"几秒才给出答案，你可以想象：在那几秒内，某个遥远的数据中心里，硅基神经元正在经历一种陌生的"费力感"——和你解一道难题时的体验，或许并没有那么不同。