人类本质是上下文窗口只有7的大模型，幻觉比GPT还严重|上下文|大模型|心理学|推理|新论文|相似性|组块

人类本质是上下文窗口只有7的大模型，幻觉比GPT还严重

去年有个事让我愣了很久。

OpenAI发布o1模型的时候，所有人都盯着它的推理能力——思维链、多步推理、“慢思考”。没几个人注意到一个细节：o1在长上下文里找信息，中间部分经常漏掉。

2023年斯坦福那篇论文中提到：模型在处理长文本时，开头和结尾的信息记住得多，中间的经常丢。作者给它起了个名字叫“Lost in the Middle”。

我看到这篇论文的第一反应不是“模型真蠢”，而是——这不就是我吗？

开会的时候，前面十分钟讲了什么，后面要讨论什么，我都记得。中间那二十分钟的细节？全丢了。你要是让我复述一下刚才第三个发言人说的核心观点，我只能给你编一个听起来很合理的。

像不像一个上下文溢出的大模型在瞎编？

一、你的工作记忆，就是一台4个token的上下文窗口

1956年，认知心理学家George Miller发了一篇论文，标题很出名：《神奇的数字7±2》。他发现人类短期记忆的容量大约是7个信息单元，多一个都装不下。

后来2001年，Cowan把数字修正得更狠了——4±1。4个组块。不是7个，是4个。

你想想这意味着什么。当下最弱的大模型，上下文窗口也有4096个token。人类呢？4个。四个。

你做心算的时候，脑子里能同时保持几个中间结果？你读长句子的时候，前半句到后半句之间，能维持多少信息不丢失？你跟人吵架的时候，对方三分钟前说的话你还能一字不差地复述吗？

IBM对上下文窗口的定义是：模型在任意时刻能“注意到”和操作的信息量。把“模型”换成“人”，把“token”换成“组块”，这个定义一个字都不用改。

智源社区去年有篇长文说得很透：上下文窗口就是大模型的工作记忆（RAM），而context engineering的作用就是精心设计哪些信息能进入工作内存。然后文章笔锋一转——人类的记忆总是在不断更新，睡觉便是我们对当天信息处理最重要的过程，选择遗忘，或者把重要信息转化为长期记忆。

你看，人类自己也得做上下文压缩和缓存刷新。只不过我们管它叫“睡觉”，不叫“context window compaction”。

二、Hinton说对了：你所谓的记忆，跟AI幻觉是同一个病

去年Geoffrey Hinton说了一句话，很多人没当回事。他说AI的“幻觉”不应该叫hallucination，应该叫confabulation——虚构。

这个词是从神经科学借来的。confabulation指的是：大脑在记忆有缺口的时候，自动生成一个看起来合理的故事来填补空白。当事人不是在撒谎，他真心相信自己记得的就是这样。

Hinton举了水门事件的例子。John Dean在水门事件中作证，详细描述了白宫办公室里的各种会议。后来录音带曝光，人们发现他说的很多会议根本没发生过。但他不是在撒谎——他是真心“记得”那些会议的。他的大脑把碎片信息拼成了一个连贯的故事，细节都是补出来的。

Hinton的原话是：“We don’t store memories; we generate them.”我们不存储记忆，我们生成记忆。

这不就是大模型的下一token预测吗？给定前面的上下文，预测下一个最可能的内容。人类“回忆”的过程，和模型“生成”的过程，底层逻辑是一样的：都不是在检索一个精确的存储，而是在根据已有模式拼凑一个最合理的输出。

去年武大新闻与传播评论上有篇论文专门分析了这个类比。文章区分了感官幻觉和认知幻觉——感官幻觉是幻听幻视，认知幻觉是大脑在信息处理中自动产生的错误逻辑建构，对碎片信息进行不合理填充。后者才是我们每天都在干的事。

你有没有过这种经历：你确信某人说过某句话，结果翻聊天记录发现人家根本没说？你笃定某个数据是2024年的，结果一查是2023年的？你信誓旦旦地跟人讲一个“亲眼所见”的故事，细节生动到画面感都有了，后来发现那个场景你是从别人嘴里听来的，不是自己经历的？

恭喜你，你刚才confabulate了。跟GPT编出一个不存在的论文引用，是一模一样的机制。

三、系统1就是贪婪采样，系统2就是思维链推理

Kahneman的《思考，快与慢》大家应该都看过。系统1是直觉，快、省力、自动化。系统2是理性，慢、费力、需要主动启动。

你把这套框架套到大模型上试试：

系统1是什么？就是模型直接输出下一个token，不经过任何额外推理。贪婪采样，拿到概率最高的那个token就吐出去。快、省算力、自动化。

系统2是什么？就是思维链推理。让模型“慢慢想”，把中间步骤展开写出来，一步一步推导。慢、费token、需要额外的计算资源。

Kahneman说系统2很懒，大部分时候直接用系统1的答案。大模型也一样——不加思维链的时候，它也懒得“想”，直接给你一个最可能的输出。

更有意思的是，Kahneman说系统1容易产生认知偏差——锚定效应、确认偏误、可得性偏差，全是系统1的锅。大模型呢？COLING 2025上有一篇论文专门测了LLM的认知偏差，发现首因偏差（primacy bias）、近因偏差（recency bias）、多数类偏差（majority class bias）一应俱全。华东师大心理学系的实验更狠：他们给Gemini 1.5 Pro和DeepSeek做框架效应测试，发现这两个模型在信息呈现方式不同时，做出的决策完全不同——跟人类被试的表现几乎一模一样。

人类大脑的默认模式是系统1，不是系统2。大模型的默认模式也是直接生成，不是思维链推理。

这不是巧合。这是同一个架构下的同一个瓶颈：推理资源有限，所以大脑和模型都不约而同地选择了“够用就行”的快速路径。

四、但你跟大模型之间，差着一个关键的东西