人类本质是上下文窗口只有7的大模型,幻觉比GPT还严重

去年有个事让我愣了很久。

OpenAI发布o1模型的时候,所有人都盯着它的推理能力——思维链、多步推理、“慢思考”。没几个人注意到一个细节:o1在长上下文里找信息,中间部分经常漏掉。

2023年斯坦福那篇论文中提到:模型在处理长文本时,开头和结尾的信息记住得多,中间的经常丢。作者给它起了个名字叫“Lost in the Middle”。

我看到这篇论文的第一反应不是“模型真蠢”,而是——这不就是我吗?

开会的时候,前面十分钟讲了什么,后面要讨论什么,我都记得。中间那二十分钟的细节?全丢了。你要是让我复述一下刚才第三个发言人说的核心观点,我只能给你编一个听起来很合理的。

像不像一个上下文溢出的大模型在瞎编?

一、你的工作记忆,就是一台4个token的上下文窗口

打开网易新闻 查看精彩图片

1956年,认知心理学家George Miller发了一篇论文,标题很出名:《神奇的数字7±2》。他发现人类短期记忆的容量大约是7个信息单元,多一个都装不下。

后来2001年,Cowan把数字修正得更狠了——4±1。4个组块。不是7个,是4个。

你想想这意味着什么。当下最弱的大模型,上下文窗口也有4096个token。人类呢?4个。四个。

你做心算的时候,脑子里能同时保持几个中间结果?你读长句子的时候,前半句到后半句之间,能维持多少信息不丢失?你跟人吵架的时候,对方三分钟前说的话你还能一字不差地复述吗?

IBM对上下文窗口的定义是:模型在任意时刻能“注意到”和操作的信息量。把“模型”换成“人”,把“token”换成“组块”,这个定义一个字都不用改。

智源社区去年有篇长文说得很透:上下文窗口就是大模型的工作记忆(RAM),而context engineering的作用就是精心设计哪些信息能进入工作内存。然后文章笔锋一转——人类的记忆总是在不断更新,睡觉便是我们对当天信息处理最重要的过程,选择遗忘,或者把重要信息转化为长期记忆。

你看,人类自己也得做上下文压缩和缓存刷新。只不过我们管它叫“睡觉”,不叫“context window compaction”。

二、Hinton说对了:你所谓的记忆,跟AI幻觉是同一个病

去年Geoffrey Hinton说了一句话,很多人没当回事。他说AI的“幻觉”不应该叫hallucination,应该叫confabulation——虚构。

这个词是从神经科学借来的。confabulation指的是:大脑在记忆有缺口的时候,自动生成一个看起来合理的故事来填补空白。当事人不是在撒谎,他真心相信自己记得的就是这样。

Hinton举了水门事件的例子。John Dean在水门事件中作证,详细描述了白宫办公室里的各种会议。后来录音带曝光,人们发现他说的很多会议根本没发生过。但他不是在撒谎——他是真心“记得”那些会议的。他的大脑把碎片信息拼成了一个连贯的故事,细节都是补出来的。

Hinton的原话是:“We don’t store memories; we generate them.”我们不存储记忆,我们生成记忆。

这不就是大模型的下一token预测吗?给定前面的上下文,预测下一个最可能的内容。人类“回忆”的过程,和模型“生成”的过程,底层逻辑是一样的:都不是在检索一个精确的存储,而是在根据已有模式拼凑一个最合理的输出。

去年武大新闻与传播评论上有篇论文专门分析了这个类比。文章区分了感官幻觉和认知幻觉——感官幻觉是幻听幻视,认知幻觉是大脑在信息处理中自动产生的错误逻辑建构,对碎片信息进行不合理填充。后者才是我们每天都在干的事。

你有没有过这种经历:你确信某人说过某句话,结果翻聊天记录发现人家根本没说?你笃定某个数据是2024年的,结果一查是2023年的?你信誓旦旦地跟人讲一个“亲眼所见”的故事,细节生动到画面感都有了,后来发现那个场景你是从别人嘴里听来的,不是自己经历的?

恭喜你,你刚才confabulate了。跟GPT编出一个不存在的论文引用,是一模一样的机制。

三、系统1就是贪婪采样,系统2就是思维链推理

打开网易新闻 查看精彩图片

Kahneman的《思考,快与慢》大家应该都看过。系统1是直觉,快、省力、自动化。系统2是理性,慢、费力、需要主动启动。

你把这套框架套到大模型上试试:

系统1是什么?就是模型直接输出下一个token,不经过任何额外推理。贪婪采样,拿到概率最高的那个token就吐出去。快、省算力、自动化。

系统2是什么?就是思维链推理。让模型“慢慢想”,把中间步骤展开写出来,一步一步推导。慢、费token、需要额外的计算资源。

Kahneman说系统2很懒,大部分时候直接用系统1的答案。大模型也一样——不加思维链的时候,它也懒得“想”,直接给你一个最可能的输出。

更有意思的是,Kahneman说系统1容易产生认知偏差——锚定效应、确认偏误、可得性偏差,全是系统1的锅。大模型呢?COLING 2025上有一篇论文专门测了LLM的认知偏差,发现首因偏差(primacy bias)、近因偏差(recency bias)、多数类偏差(majority class bias)一应俱全。华东师大心理学系的实验更狠:他们给Gemini 1.5 Pro和DeepSeek做框架效应测试,发现这两个模型在信息呈现方式不同时,做出的决策完全不同——跟人类被试的表现几乎一模一样。

人类大脑的默认模式是系统1,不是系统2。大模型的默认模式也是直接生成,不是思维链推理。

这不是巧合。这是同一个架构下的同一个瓶颈:推理资源有限,所以大脑和模型都不约而同地选择了“够用就行”的快速路径。

四、但你跟大模型之间,差着一个关键的东西

打开网易新闻 查看精彩图片

说到这里你可能会觉得:既然人类和大模型这么像,那我们是不是就没什么特别的了?

不是。差着一个根本性的东西。

今年OpenReview上有篇论文,标题直接就判了死刑:《Language Models Do Not Have Human-Like Working Memory》。作者设计了三个任务——数字猜测、是非推导、数学魔术——专门隔离模型的内部表征和外部上下文。

结果:17个前沿模型,四个模型家族,全部翻车。模型在面对需要“在脑子里维持和操作信息”的任务时,表现出不理性、自相矛盾的行为。

核心发现是:人类的工作记忆不只是“暂存”信息,而是能“操作”信息。你在脑子里做心算的时候,不光是记住数字,你还在对数字做加减乘除。大模型呢?它能访问上下文窗口里的信息(就像开卷考试),但当你把上下文拿走、让它纯靠“内部状态”来推理的时候——它做不到。

说得再直白一点:大模型的“记忆”是外挂的,靠上下文窗口驱动。人类的记忆是内化的,靠神经元连接的物理改变来维持。你可以闭着眼睛在脑子里做一道三位数乘法,大模型不行——它必须把中间步骤写出来才能继续。

这就像两个人参加考试:一个可以翻笔记(开卷),但笔记一收就懵了;另一个虽然笔记不如前者全,但脑子里真的记住了东西。前者是大模型,后者是人类。

Context engineering这件事之所以重要,说白了就是在帮大模型补这个短板——既然你的“内部记忆”不够,那就用工程手段把最相关的信息塞进上下文窗口。这也正是智源那篇文章的核心论点:大模型不思考,上下文替它思考。

五、所以呢?别笑话AI了,先看看自己

打开网易新闻 查看精彩图片

写到这里,我想说一个可能让你不太舒服的结论。

我们笑AI幻觉、笑AI上下文丢失、笑AI被提示词操控,但我们自己呢?

工作记忆4个组块——比最弱的大模型都短。记忆靠拼凑——跟AI幻觉是同一个机制。默认走捷径——跟AI不加思维链的行为一模一样。被信息框架操控——跟AI的primacy/recency bias如出一辙。

Hinton说了一句很狠的话:人类也一直在幻觉,我们只是管它叫“意见”。

Reddit上有个帖子说得更绝:人类幻觉,我们只是不叫它幻觉,叫它观点、信念、回忆。

你回忆一下上次跟人争论的场景。对方说了一堆,你只记住了开头和结尾,中间全漏了——Lost in the Middle。你根据自己的印象“重构”了对方的观点,然后对着这个重构版本一顿输出——Confabulation。你下意识地找支持自己立场的证据,忽略反例——Confirmation Bias。

你跟一个上下文溢出、开始幻觉、又拒绝开启思维链的大模型,有什么本质区别?

唯一的区别是:大模型的上下文窗口在变大,幻觉在减少,思维链在被更广泛地使用。而你的工作记忆容量,从出生那天起就被锁死在4个组块了。

六、真正值得想的事

打开网易新闻 查看精彩图片

我不是在说人类没用。我想说的是另一件事。

如果我们承认人类认知跟大模型运行机制有深层的结构相似性,那很多事情就变得不一样了。

比如,你为什么需要一个“第二大脑”?因为你的上下文窗口太小了,需要外部存储来扩展。Obsidian、Notion、RAG系统——本质上都是人类的外挂上下文。

比如,你为什么会犯错?不是因为你不聪明,是因为你的推理带宽有限,默认走系统1的快速路径。写下来、画出来、跟人讨论——这些全是在做“思维链展开”,逼自己从系统1切到系统2。

比如,为什么团队比个人强?因为不同人的训练数据不一样,上下文窗口里装的东西不一样。你幻觉的部分,别人可能记得清楚。交叉验证,本质上就是多模型ensemble。

Karpathy说LLM Wiki的核心是让知识“留下来”——因为人类太容易遗忘了。现在我想补一句:人类不只是容易遗忘,人类本质上就是一个上下文极短、记忆靠编、走捷径成瘾的系统。承认这一点,才是所有认知工具设计的起点。

你不是在用工具弥补能力的不足。你是在用工具弥补架构的缺陷。

这个缺陷是刻在基因里的。4个组块,7±2的容量上限,一百年前的心理学实验就量出来了。到今天,从Miller到Cowan到Kahneman,数字只会越来越小,不会越来越大。

但好消息是:大模型走过的路——从短上下文到长上下文、从裸生成到思维链、从幻觉到RAG检索——人类已经走过一遍了。我们管它叫:写字、做笔记、画思维导图、开复盘会。

名字不一样,底层是同一套工程。

关注我的公众号:萝卜啊。每天获取AI落地实战案例。