你有没有发现,ChatGPT最近变聪明了?以前让它算个复杂数学题,它大概率会胡扯;现在它居然会"琢磨"一会儿,然后给出正确答案。这种变化背后,是一类新模型的崛起——推理模型。而MIT的科学家最近发现了一个有趣的现象:这些AI思考越难的问题,人类大脑处理起来也越费劲。换句话说,AI的"思考成本"和人类的"思考成本",居然对上了。
这项研究来自MIT麦戈文脑科学研究所,今天发表在《PNAS》上。研究团队由脑科学与认知科学副教授Evelina Fedorenko带领。他们的核心发现是:推理模型在处理复杂问题时需要的计算资源,与人类面对同类问题时需要的时间,呈现出相似的规律。这不是设计出来的巧合,而是两种完全不同的系统——硅基神经网络和碳基神经网络——在解决问题时的一种意外收敛。
Fedorenko本人对这个发现感到意外。她坦承,自己过去属于"AI怀疑派",认为神经网络在感知和语言上表现不错,但推理能力还差得远。"然后这些大型推理模型出现了,它们在解数学题、写代码这类思考任务上表现得好得多。"她说,"模型构建者根本不在乎AI是不是像人类那样思考,他们只想要一个在各种条件下都能稳定输出正确答案的系统。但两者居然有某种趋同,这真的很 striking。"
那么,这些推理模型到底做了什么不同的事?
关键变化在于"分步思考"。研究团队成员、博士后Andrea Gregor de Varda解释,开发者意识到模型需要更多空间来执行实际计算。"如果你让模型把问题拆成几个部分来解决,性能就开始变得强得多。"这种思路听起来简单,但效果惊人——模型不再试图一次性蹦出答案,而是像学生打草稿一样,一步步推导。
研究团队设计了一系列实验来验证这种"分步"机制。他们给模型和人类被试呈现相同类型的问题,然后观察两者的表现模式。结果发现,那些需要更多推理步骤的问题,模型消耗的计算量更大,人类花费的反应时间也更长。这种对应关系不是严格的数值等价,而是趋势上的一致性:难题对两者都难,简单题对两者都简单。
这种"成本对齐"意味着什么?
从科学角度看,它暗示了一种可能的深层规律:某些认知任务的内在结构,可能决定了任何系统——无论是生物进化出来的还是人工设计出来的——解决它们时都需要付出相应的"代价"。就像搬重物需要能量,处理复杂信息也需要"认知能量"。MIT的研究没有声称发现了这种规律的完整机制,但他们提供了初步证据,表明这种规律确实存在。
不过,研究者也强调了几点重要的限制。
第一,这种相似性只出现在特定条件下。研究团队测试的是"需要多步推理的明确问题",比如数学证明或逻辑谜题。对于开放式创意写作、情感理解这类任务,AI和人类的"思考成本"是否还对得上,目前不清楚。
第二,"成本"的度量方式完全不同。模型的"成本"是计算步骤和能耗,人类的"成本"是反应时间和主观努力感。两者只是趋势相似,不能直接换算。Fedorenko团队没有声称1秒人类思考等于X次模型运算——这种等式在原文中不存在。
第三,也是最根本的一点:这种趋同可能是"功能性的"而非"机制性的"。意思是,AI和人类可能只是在最终表现上看起来相似,但内部的运作方式完全不同。就像飞机和鸟类都能飞,但一个靠引擎一个靠肌肉。MIT的研究没有深入比较神经机制,这个方向留给了后续研究。
这项研究的另一个有趣之处在于它的"意外性"。
AI领域的发展常常伴随着关于"像不像人类"的争论。早期神经网络被批评为"黑箱",后来大语言模型被质疑"只是统计模式匹配"。推理模型的出现改变了部分讨论——它们确实展现出某种"系统性思考"的能力。但Fedorenko指出,这种能力并非来自对人类的模仿,而是来自工程优化。"模型构建者没有刻意让AI像人类一样思考,"她说,"他们只是在解决一个工程问题:如何让系统更可靠。"
这种"无意的相似"反而让神经科学家更感兴趣。如果两种独立进化的系统都找到了类似的解决方案,那可能说明这个方案是"好的"或"必然的"。这在科学史上不乏先例:蝙蝠和海豚独立进化出了回声定位,章鱼和人眼独立进化出了类似的镜头结构。趋同进化往往指向某种深层约束。
当然,把AI和生物进化类比需要谨慎。神经网络的设计者——人类——本身就是进化产物,我们设计的系统难免带有某些"人类痕迹"。但MIT的研究团队认为,这种解释不足以说明全部现象。推理模型的架构细节、训练目标函数、优化算法,都与人类大脑的发育和学习机制截然不同。在这种前提下仍能观察到"成本对齐",值得认真对待。
对于普通用户来说,这项研究有什么实际意义?
最直接的一点:当你感觉ChatGPT"变聪明了",你的直觉是对的,但原因可能和你想的不一样。它不是"懂了更多",而是学会了"慢慢想"。这种变化带来了更好的表现,也带来了新的限制——推理模型需要更长的响应时间,消耗更多计算资源。厂商需要在"聪明程度"和"响应速度"之间做权衡,用户也需要调整自己的预期:有些问题值得等,有些问题没必要。
更深一层,这项研究为AI评估提供了新视角。传统上,我们测试AI主要看最终答案对不对。但MIT的工作提示,"思考过程"本身也可能是重要的评估维度——不仅是对错,还有"怎么错的""花了多少力气"。这种视角对于理解AI的可靠性和局限性都有帮助。
研究团队也提到了一些悬而未决的问题。比如,这种"成本对齐"会持续到多高的复杂度?当问题难到一定程度,人类会放弃或寻求外部帮助,模型也会吗?又或者,是否存在某些问题类型,对人类很难但对AI很容易,或者相反?这些问题的答案,将决定"类人推理"这个概念的适用范围。
最后,值得重复一遍研究者的谨慎态度。Fedorenko在多个场合强调,她们没有证明AI"像人类一样思考",只是发现了一种特定的相似性。这种相似性很有趣,但不应该被过度解读。在科学传播中,这种克制尤其难得——毕竟,"AI终于像人一样思考了"是更抓眼球的标题。
但真相往往比标题更微妙。MIT的这项研究告诉我们:当AI开始"琢磨"的时候,它可能真的在付出某种"代价"——和人类面对难题时一样。这种发现不会终结关于机器智能的争论,但它提供了一个新的观察角度:不是问"AI有多像人",而是问"在解决特定问题时,两种系统是否面临相似的约束"。后者是一个可以检验的科学问题,而前者往往陷入语义泥潭。
下一次当你看到ChatGPT在输入框里"闪烁"几秒才给出答案,你可以想象:在那几秒内,某个遥远的数据中心里,硅基神经元正在经历一种陌生的"费力感"——和你解一道难题时的体验,或许并没有那么不同。
热门跟贴