徐贲：AI时代，还需要闭卷考试吗？|备考|时代|标准答案|考试|苏格拉底|闭卷

文｜徐贲，美国加州圣玛丽学院英语系荣休教授

美国历史学家阿瑟·恩格尔（Arthur J. Engel）在《从教士到大学教师：19世纪牛津大学学术职业的兴起》（From Clergyman to Don: The Rise of the Academic Profession in Nineteenth-Century Oxford，1983）一书中记载，19世纪中期牛津大学的古典学荣誉考试（Literae Humaniores）采用闭卷形式。学生进入考场时，仅允许携带笔和纸，不得使用参考书、笔记或其他外部资料。考试要求学生完成拉丁文写作、希腊文和拉丁文翻译，以及用英文就历史和哲学问题进行论证，所有内容必须在规定时间内当场完成。这一考试制度是当时牛津教育改革的重要组成部分，被视为通过标准化考核选拔人才、体现学术公平性的主要方式。

在那个没有搜索引擎、没有数据库、甚至没有廉价印刷品的年代，这套闭卷考试制度被奉为公平的化身、智识成就的终极检验、文明训练的最高展示舞台。到了今天，一个携带智能手机的十六岁高中生，拥有的信息检索能力，已经远超那些在牛津备考整整四年的维多利亚时代精英。而一个大型语言模型，则可以在数秒内生成一篇在语法、论证结构和参考文献上都无懈可击的拉丁文学术论文，这在1858年会让任何人瞠目结舌。

那么，那场考试究竟在检验什么？在今天，它还有意义吗？更根本的是：当知识越来越可以被即时召唤，当记忆越来越可以被外包，那个要求人们将知识"存入脑内"的古老教育理念，是否已经成为一种时代错误的残留？

这个问题，比它表面上看起来的更深，也更难。它不只是一个关于考试形式的教育政策问题，而是一个关于知识的性质、记忆的功能、人格的形成，以及在AI时代人类究竟应当培育什么的根本性文明问题。要真正回答它，必须先回到一个更古老的问题：记忆，在知识的历史中，究竟是什么？

一、记忆的神圣性——苏格拉底的忧思与西塞罗的宫殿

关于记忆与知识的关系，西方思想史在很早的时候便出现了一场意义深远的争论，而这场争论的结果，深刻地塑造了此后两千年的教育哲学。柏拉图在《斐德鲁斯篇》（Phaedrus）中，记录了一则传说，几乎可以被视为有史以来对"外部存储技术"的第一次重要批评。故事是这样的：埃及神祇托特（Thoth）向法老泰亚穆斯（Thamus）引介文字的发明，声称文字将使人们的智慧和记忆大大增强。然而，泰亚穆斯拒绝了这份礼物，理由令人深思："这项发明将在学习者的灵魂中造成遗忘，因为他们不再练习记忆；他们会信任外部书写的符号，而不是从自身内部汲取真正的记忆。"苏格拉底（Socrates）在叙述这个故事后，表达了对书写本身的怀疑：书写只是提醒，而非记忆；只是外表的智慧，而非真正的理解（Plato, Phaedrus, 274c–275b）。

这种对"外部存储"的深切疑虑，是古代记忆哲学的核心之一。在古代世界，"记忆"（mnēmē）从来不只是信息的保存，它是理解力和判断力的土壤——没有真正的记忆，就没有真正的思考，只有对外部符号的机械依赖。因此，训练记忆，在古代教育中不是一项辅助技能，而是知识生产的核心基础设施。然而，古代人对记忆的崇拜，并不是一种单纯的保守主义或对书写技术的反动。它有着深刻的认识论基础，这在罗马修辞学传统中获得了最为精细的阐发。西塞罗（Cicero）在《论演说家》（De Oratore）中详细描述了"记忆宫殿"（loci method，也称method of loci）技术：演说家想象自己在一座熟悉的建筑中漫步，将需要记忆的材料"放置"在建筑的不同位置，然后在演说时以"漫步"来"取回"它们（Cicero, De Oratore, II.354–360）。这不只是一种记忆技巧，它体现了一种对知识如何在人的内部组织的深层理解：知识必须与空间、情感和感官体验相联结，才能真正成为可随时调用的内在资源。

玛丽·卡鲁瑟斯（Mary Carruthers）在其关于中世纪记忆文化的权威研究《记忆之书》（The Book of Memory, 1990）中，深刻揭示了中世纪学者对记忆的理解与今天的巨大差异：在中世纪，拥有"好记忆"（bona memoria）从来不意味着机械地保存大量信息，而是指拥有一种能够在恰当时刻调取恰当知识、并将其与其他知识灵活联结的内在组织能力。记忆，是思维的结构，而非仅仅是思维的仓库。经院哲学家们的巨著——阿奎那（Thomas Aquinas）的《神学大全》（Summa Theologica）、彼得·伦巴德（Peter Lombard）的《箴言四书》（Sentences）——之所以采取那种繁复的问题-反驳-回应的写作结构，不只是出于逻辑演示的目的，更是出于记忆组织的考量：这种结构，使读者能够将内容在脑内以一种可随时漫游的空间方式加以储存和检索。

这种对记忆的深层理解，为理解"闭卷考试"的历史哲学提供了最重要的认识论背景：闭卷所保护的，不是记忆作为仓库的功能，而是记忆作为思维结构的功能。它所检验的，是知识是否已经在人的内部形成了一种有机的联结网络，而非只是一堆孤立存储的信息点。

二、作为人格博弈的考试——中世纪的“口试”淬炼

在理解闭卷考试的历史渊源时，有一个常常被忽视的事实：最早的大学知识检验，根本没有书写，更遑论闭卷。在中世纪大学，知识的检验是口头的、公开的、面对面的，是一种被称为"辩论"（disputatio）的激烈智识格斗，其残酷程度在今天的任何考试形式中都难以找到对应物。一位博士候选人，在获得学位之前，必须在一场对所有人开放的公开场合——教师、学生、甚至路过的市民都可以进入——面对来自各方的无限制质疑，并在当场即时回应。这种“口试”的难度是今天大学的任何“答辩”都无法比拟的。

候选人没有准备时间，没有翻阅任何材料的机会，没有"让我想想"的缓冲。质疑者可以提出任何他认为能够推翻候选人论点的论据，而候选人必须在公众目光下，以他自己的语言、逻辑和知识，当场应对。

有一则关于阿奎那的记载，以一种极为具体的方式体现了这种考验的强度。1256年，托马斯·阿奎那在巴黎进行博士答辩，面对的质疑者之一是一位以思维敏锐和攻击性著称的同行。那位质疑者提出了一个精心设计的三段论，看起来能够将阿奎那引入一个难以逃脱的逻辑困境。阿奎那在片刻沉思后，不是直接攻击对方结论的错误，而是指出了对方大前提中一个极为微妙的歧义，然后以一种令在场所有人都感到意外的方向，重新构建了整个问题的框架——不只是赢得了这一回合，更是以这个回应本身展示了那种只有在真正深刻理解中才能产生的洞察力（Weisheipl, Friar Thomas d'Aquino, 1974）。

这个故事之所以流传，不是因为阿奎那记住了什么，而是因为他展示了一种无法伪造的能力：在一个完全不可预测的压力情境下，他的知识已经如此深刻地内化于他的思维结构，以至于他可以以一种创造性的方式，当场组织和重新运用这些知识，而不是机械地提取预先存储的答案。这正是中世纪口头考验所试图检验的东西，也是此后书面闭卷考试试图以不同方式延续的核心：知识的内化程度，不是用"能否背出"来衡量，而是用"能否在陌生情境下当场运用"来衡量。这两种衡量方式之间的差异，是理解所有关于闭卷考试讨论的关键。

口头辩论最终让位于书面考试，这一历史转变在18到19世纪加速，并不是因为口头辩论作为知识检验方式本身失效了，而是因为大学规模的扩张使得为每个学生提供充分的口头辩论机会变得越来越不现实，以及现代科学知识的量化性质使得书面表达成为更自然的检验媒介（Rothblatt, The Revolution of the Dons, 1968）。但在这个转变中，被悄悄改变的，是那种"知识检验是一场公开的、整个人格参与其中的实时表演"的理解，取而代之的是一种更为私密、更为个体化、也在某种程度上更易于管理和标准化的书面考试形式。闭卷的书面考试，是一种在规模化条件下对中世纪口头辩论精神的折中式延续：它保留了"不能依赖外部资源"和"必须在限定时间内当场完成"这两个核心要素，却以书面替代了口头，以私密替代了公开，以标准化替代了个性化的对话。这既是一种进步，也是一种失落。

三、古代中国的巨型实验——科举、闭卷与"聪明"的认知筛选

若我们将视线从西方转向古代中国，便会发现，人类历史上规模最大、历时最久、社会影响最深的闭卷考试实践，并非在牛津，而在欧亚大陆另一端的中华帝国。中国的科举制度运行一千三百年，其闭卷制度的严密程度，在人类考试史上无出其右。唐代科举已行糊名，但尚未普遍。至北宋真宗景德年间，糊名与誊录成为定制。所谓糊名（又称"封弥"），即将试卷上考生姓名、籍贯等项用纸糊盖，使考官不知卷子为何人所做。所谓誊录，则是在考生交卷后，由专雇的誊录人员用朱笔将墨卷重抄一遍，称为"朱卷"，再交考官评阅——如此连笔迹也无法辨认。考生原卷称"墨卷"，抄本称"朱卷"，两相对照以防篡改。考场内，考生被关入一间间仅容一人的"号舍"，连续数日不得出入，吃喝拉撒全在其中。从物理空间到制度设计，这几乎是人类所能想象的"信息隔绝"的极致状态。

然而，这里存在一个需要被立即纠正的深刻误解。我们很容易将科举想象成一种"全封闭、全靠临场发挥"的考试，但事实远为复杂。所谓"闭卷"，只意味着考试当天不能携带任何文字材料入场，却绝不意味着考生在入场之前是一片空白地等待命运的裁决。恰恰相反，围绕着"闭卷"这一制度性节点，形成了一个庞大而精密的"事先准备"生态，其丰富程度远远超出了"读书—背诵—考试"的线性想象。中国古代的教育话语中，甚至专门用"场屋"（指考场）与"窗下"（指平日读书）的对举，来标示这种"临场"与"准备"之间的辩证关系——"窗下十年功，场上一刻钟"，说的正是这个道理。

在科举的合法准备手段中，存在着一种被民间话语敏锐捕捉、却极少被制度史家系统理论化的分类学——即区分"聪明"的备考与"笨"的备考。这不是简单的努力程度之别，而是认知策略的本质分化。其核心差异可以表述为：是将大脑用作"移动硬盘"进行机械存储，还是将大脑编程为"生成算法"以应对不可预知的新情境。

所谓"笨"的备考，其典型形态是机械化的累积式记忆。考生面对十三经、二十四史、历代程墨（官方刊行的优秀试卷范文），试图以反复诵读、逐字抄写的方式，将海量文本塞入大脑。这种方法在中国古代有一个专门的批评性称呼——"记问之学"。《礼记·学记》中早已言明："记问之学，不足以为人师。"其意正在于，仅仅记住现成答案而无法灵活运用，在真正的智识考验面前是站不住脚的。明清时期流行的"高头讲章"——将经典文本逐句加以详尽注释和评点的辅导读物——若被以死记硬背的方式使用，便成为这种"笨"路径的物质载体。这种方法的核心缺陷在于认知经济学层面：大脑的长期记忆容量虽大，但其提取的准确性与速度在高压情境下急剧衰减。一个背诵了三百篇范文的考生，在考场上面对一个略有偏移的题目时，往往陷入"似乎背过相似的，但记不真切"的焦虑状态，最终产出的是一篇拼凑痕迹明显、气脉不通的"死文"。清代学者焦循在《忆书》中讽刺此类考生："记诵之学，不可与言文，犹鹦鹉之不可与言诗也。"更隐蔽的危机在于，这种路径培养的是对权威文本的依附性人格——学习被视为被动接收，知识被视为不可变动的固体，而考场上需要的那种灵活调适、见机而作的能力，在这种准备模式中从未被真正训练过。

与之相对，"聪明"的备考展现的是一种高阶的元认知（metacognition）能力。其核心方法论，在古代术语中被称为"揣摩"——这个词在《史记·苏秦列传》中本指纵横家的游说之术，后来被科举语境借用，特指对考试规律、出题风向和文章范式的深度研习与灵活内化。具体而言，聪明的士子不背全文，而精研"义理"。宋代以后科举重"经义"，即要求考生对儒家经典的核心思想进行阐发。一个高明的备考者会将《论语》一万余字压缩为"仁"与"礼"的辩证关系，将《孟子》压缩为"心性"与"王道"的贯通逻辑，将《周易》压缩为"变易"与"时中"的哲学框架。这种压缩，在古代被称为"提要"或"钩玄"——韩愈在《进学解》中所谓"记事者必提其要，纂言者必钩其玄"，正是此意。它不是简化，而是提取深层结构，与现代认知科学所揭示的"深度内化的知识是以语义网络而非逐字副本形式存在"的规律不谋而合。

除此之外，"聪明"的士子还广泛使用一种被称为"拟题"或"揣题"的方法——即根据对历年考题趋势的深入分析，预测可能出现的题目并据此进行针对性准备。南宋学者吕祖谦编写的《东莱博议》因精准预测科举题目而风靡一时，他将历代经典案例与论说范式结合，学生若能熟读并真正理解其中的论证逻辑，考试时即便遇到相近题目也能从容应对。这种"拟题"并非投机取巧，而是建立在对考试规律和学术脉络深刻把握之上的策略性准备。明清时期，研习"程墨"（官方刊行的中式试卷范文）更成为士子们的必修课——他们不背诵这些范文，而是"析其章法，味其气脉"，将优秀文章的内在结构消化为自己的思维习惯。明代学者艾南英在《天佣子集》中回忆自己的备考经历，说他将历科墨卷"反覆摩挲，至废寝食"，最终"得其神理，不在字句间"。这种"不在字句间"的领悟，正是"聪明"的备考与"笨"的死记硬背之间的分水岭。

四、印刷术危机的历史先例——第一次外包冲击

AI对记忆的挑战，并非知识存储技术对人类记忆的首次冲击。15至16世纪古腾堡印刷术的普及，曾引发一场结构上惊人相似的危机。在印刷术之前，一位学者最珍贵的智识资产，是他能够随时从记忆中调取的知识——他所读过的经典、他所经历的辩论、他所构建的论证。书籍极为稀缺，学习过程的核心不是"拥有书"而是"成为书"——通过反复诵读、背诵和冥想，将文本转化为自身的一部分。修道院传统中的"ruminatio"（反刍式阅读）就是这种理解的具体体现：像牛反刍食物一样，反复咀嚼所读文本，直到它的意义充分渗入思维（Leclercq, The Love of Learning and the Desire for God, 1961）。

印刷术的出现，从根本上改变了知识与人的关系。当书籍可以被大量廉价生产，记忆的负担开始可以被卸载到书页上。最初，有识者对这种变化的反应，与今天许多人对AI的忧虑高度相似。意大利人文主义者彼得罗·拉莫（Petrus Ramus）在16世纪积极推广一种新的知识组织方式——将知识以图表形式印刷在纸上，使读者可以通过"视觉定位"而非记忆来理解和应用知识。他的批评者，尤其是坚持传统记忆法传统的学者，指责他的方法将摧毁人类思维的深度，将学习变成一种浅薄的符号排列，而非真正的知识内化（Ong, Ramus, Method, and the Decay of Dialogue, 1958）。

这场争论的结局，是一种高度复杂的历史妥协：印刷术确实取代了大量记忆工作，使人类可以将认知资源从"存储已知"转向"探索未知"；但同时，教育系统也逐渐认识到，并非所有记忆工作都可以被书页所取代。医学、法律、数学以及后来的科学，都发展出了各自关于"什么必须被内化"的规范，而这些规范，驱动了此后数百年的考试制度设计。艾森斯坦（Elizabeth Eisenstein）在其关于印刷革命的开创性研究《作为变革动因的印刷机》（The Printing Press as an Agent of Change, 1979）中，特别指出印刷术在最初并没有简单地"摧毁记忆文化"，而是与记忆文化发生了长达数代人的复杂协商，在这个过程中，什么应当被内化、什么可以被外包，逐渐形成了一套新的文化共识。

这段历史告诉我们，这不是第一次知识存储技术的革命与记忆文化的冲突，历史提供了一种关于"这种冲突如何解决"的参照——不是通过任何一方的彻底胜利，而是通过一种漫长的、涉及整个文化和教育体系的协商，最终形成一套关于内化与外包的新文化共识。

五、闭卷的真正意义——人格显露而非记忆测试

在以上历史和认知科学讨论的基础上，现在可以以更大的精确性来追问：闭卷考试真正检验的究竟是什么？最浅显的答案——"它检验记忆力"——是不准确的，至少是极不完整的。最准确的答案似乎是：它检验知识是否已经真正内化为人格的一部分。但这个回答本身也需要被进一步展开。

首先，它意味着概念的操作化——不是对某个概念的定义的记忆，而是对这个概念在具体情境中如何运作的直觉感知。一个真正内化了"弹性需求"概念的经济学学生，不需要在遇到相关问题时先回忆定义、再应用公式，而是能够在面对一个新情境时，近乎自动地感知到"这里存在弹性问题"，然后以这个感知为起点展开分析。这种操作化的直觉，是知识内化的第一个标志。

其次，它意味着跨概念的自发联结——不是在被明确要求时才进行的刻意类比，而是在面对一个问题时，自发地看到它与其他领域或其他概念之间的深层联结。这种自发联结，是所有真正创造性思维的基础，也是最难以在短暂的考试时间内被伪造的能力，因为它依赖的正是那种只有在长期、深度内化之后才能形成的密集联结网络。

第三，它意味着在压力下维持逻辑一致性——在没有任何辅助系统的情况下，在时间限制和心理压力的双重约束下，仍然能够保持思维的连贯性，不在矛盾中迷失，不被细节所淹没，不将局部正确的论点错误地扩展为普遍性声明。这种能力，与记忆力本身的关系并不直接，它更接近于一种认知自律和元认知能力的综合体现。

第四，也是最重要的，闭卷考试检验的，是一种在没有外部依托时仍然存在的自我。这听起来几乎是存在主义的，但它有非常具体的认知含义：一个人的知识、逻辑习惯、对问题的感知方式，是否已经深度整合为一个连贯的、在没有外部支撑时仍然功能完好的认知主体，还是只是一堆依赖特定工具才能被激活的信息碎片？这最后一点，正是AI时代最深刻的挑战所在。AI极大地增强了一个人在有辅助的情况下的认知表现，但它同时也可能加速一个长期以来就在悄悄发生的过程：知识的"自我"与知识的"外部工具"之间的边界，变得越来越模糊，越来越难以辨认。而闭卷考试，恰恰是那种能够在最彻底的方式上画出这条边界的情境：在那个没有任何外部依托的考场里，你就是你所是的样子，不多也不少。

六、认知科学的印证——为什么内化无法被替代

科举传统中对"聪明"与"笨"的直觉区分与现代认知科学的发现，形成了一种令人惊讶的呼应。美国哥伦比亚大学的认知心理学家贝齐·斯帕罗（Betsy Sparrow）及其团队在2011年发表的一项研究，揭示了所谓的"谷歌效应"（Google Effect）：当人们预期某个信息可以在网上被轻松检索时，他们更倾向于记住"在哪里找到它"而不是"信息本身"，记忆的对象从内容转移到了位置（Sparrow, Liu and Wegner, "Google Effects on Memory," Science, 2011）。这是一种深刻的认知重组：人类的记忆系统，开始将互联网本身作为"外部认知伙伴"来处理，而不是一个需要被内化的信息来源。这种重组如果只是"将内容记忆替换为位置记忆"，本身并不必然有害。然而其深层含义在于，如果越来越多的知识只以"位置标签"的形式存在于记忆中，而不以"意义内容"的形式深度嵌入认知网络，那么以内化知识为材料的顿悟和创造性重组，就会越来越罕见——不是因为人变笨了，而是因为可供重组的内部材料变少了。

普林斯顿大学和加州大学洛杉矶分校（UCLA）的研究者穆勒（Pam A. Mueller）和奥本海默（Daniel M. Oppenheimer）比较了手写笔记和电脑打字笔记对学习效果的影响，发现手写笔记者在概念理解和长期记忆方面显著优于打字笔记者（Mueller and Oppenheimer, "The Pen Is Mightier Than the Keyboard," Psychological Science, 2014）。原因是打字笔记者倾向于逐字记录（因为打字速度足够快），而手写笔记者不得不在书写过程中主动进行信息的压缩、重组和概念化——这个"主动处理"的过程本身，就促进了更深层的内化。这个研究结论的意义在于：减少阻力的技术，往往同时减少了认知处理的深度。手写笔记的"低效"，恰恰是其认知价值的来源——那个在书写过程中不得不进行的信息压缩和重组，正是知识内化发生的时刻。打字的高效，则使这个内化过程被绕过了。

将这一逻辑延伸至科举语境，我们会发现：那些"笨"的考生——以死记硬背和模板套用为方法——本质上与打字笔记者的认知模式相同：他们绕过了"主动处理"的挣扎过程。而那些"聪明"的考生——以义理压缩、章法提炼、情境生成为方法——则在持续的挣扎中，将知识一步步嵌入自己的思维结构。这正是"记问之学不足以为人师"的现代认知科学版本。当AI可以即时提供流畅表达，学习者就不再需要经历"如何用自己的语言表达这个想法"的挣扎；当AI可以即时提供论证结构，学习者就不再需要经历"如何将概念组织成连贯论点"的努力。而这些被AI绕过的挣扎，恰恰是知识内化发生的时刻。

现代认知科学对记忆的研究，还揭示了另一个关键区别：人类记忆不是存储，而是重构（reconstruction）。当我们"回忆"某件事，我们不是从某个固定的存储地址提取一个不变的副本，而是以一种高度动态的方式，从分布在整个神经网络的无数节点中，实时重构一个我们认为代表了过去经验的版本。这个重构过程，受当前语境、情绪状态、最近的新信息，以及此刻的目标和预期深刻影响（Schacter, The Seven Sins of Memory, 2001）。这种"重构性记忆"，其"不稳定性"恰恰是其认知价值的来源——正是在每次提取时的微妙重构中，知识被不断地与新的情境、新的联结、新的理解相整合。每一次"回忆"，都是一次轻微的重组，一次对记忆内容的轻微更新。这个过程，使人类记忆成为一种活的认知结构，而非一个静态的信息仓库。数字存储，包括AI的存储，是精确的、稳定的、完全独立于使用者认知状态的。这正是其优势，但也是其局限：它无法进行那种人类记忆在每次提取时自动发生的、将存储内容与当前认知状态动态整合的过程。它是仓库，不是思维。

这个区别，对理解闭卷考试的认知科学基础至关重要。一个真正内化了某个学科知识的学生，在闭卷考试中所展示的，不只是他能"提取"多少预先存储的信息，而是他的认知系统能够将这些信息在特定问题情境下以何种方式动态重构——哪些节点被激活，哪些联结被建立，哪种解读被赋予优先性——这个重构过程，正是思维能力本身的展示，而非单纯记忆能力的展示。科举史上"聪明"的士子所经历的那种淬炼——在信息隔绝的号舍中，面对一个从未见过的题目，调用内化的义理模型，现场建构一篇气脉贯通的文章——正是这种无法被外包的认知能力的最经典展示。它之所以有价值，并非因为它难，而是因为"难"本身构成了迫使内化发生的结构性条件。

七、维多利亚时代的考试改革——闭卷如何成为现代公平的象征

历史上，闭卷书面考试作为一种制度，正是在一个特定的历史语境中崛起并确立其"公平神圣性"的。19世纪的英国，发生了一场对高等教育和公共服务选拔制度的深刻改革，而闭卷书面考试，是这场改革最重要的制度工具之一。在改革之前，牛津和剑桥的学位授予，以及政府职位的任命，高度依赖个人关系、家庭背景和赞助网络——谁的父亲认识谁，往往比谁更有能力更为决定性。改革者——包括威廉·格莱斯顿（William Gladstone）政府任命的麦考利（Thomas Babington Macaulay）等人——力主以统一的、标准化的、书面的、闭卷的考试，来替代这种充满偏袒的人情网络，使选拔建立在可比较的知识表现基础上，而非建立在社会关系基础上（Reader, Professional Men, 1966）。

1854年的《北科特—屈维廉报告》（Northcote-Trevelyan Report），是这场改革的核心文件，它明确将书面考试确立为公平选拔的核心机制，并以"在统一条件下进行的、不依赖个人关系的书面测试"为公平性的基础。这份报告深刻地影响了此后英国乃至整个英语世界的教育评价体系，使闭卷书面考试从一种知识检验工具，演变为一种具有道德合法性的公平象征。1882年，印度文官制度改革同样采用了类似的逻辑——以统一的书面考试替代带有殖民主义偏见的人情选拔，尽管这套逻辑在实践中产生了自己的新型不平等（Metcalf, Ideologies of the Raj, 1994）。

这段历史告诉我们：闭卷考试之所以在现代获得了其"神圣性"，不只是因为它在认识论上有充分的理由，更是因为它在特定的历史条件下，成为了对抗特权和偏袒的有效制度工具。它的道德合法性，建立在"在统一条件下的公平竞争"这一现代公平观念上。然而，这段历史也揭示了闭卷考试"神圣性"的历史条件性——它的公平性，依赖于一个特定的假设：参与者所拥有的认知差异，主要来自其本身的努力和能力，而非来自对特定工具的差异性访问。在一个所有人都没有外部信息工具的世界里，这个假设基本成立；在一个外部信息工具广泛可用但分布不均的世界里，这个假设开始动摇。

八、不可外包的内核——AI时代的四层人类能力

AI带来的，是一次质的飞跃。它不再是"外部存储"，而是"外部智能"。一个大型语言模型不仅能提供信息，还能生成论证结构、模拟不同立场、产出完整文本、甚至在对话中呈现"仿佛理解"的回应。这相当于在科举考场里，每位考生都随身携带了一位能够即时撰写一篇完整八股文的隐形幕僚——而且这位幕僚读遍了所有经典、熟知所有范式、永不疲倦。苏格拉底对"书写造成遗忘"的忧思，在AI时代获得了一个更为激进的版本：AI不只是绕过记忆，它绕过了思维本身的发生过程。当学习者向AI提问并获得完整答案时，他所经历的认知过程，不再是"信息输入→主动处理→内化存储→灵活调用"，而是"问题→指令→接收成品"。那个位于"接收"与"理解"之间的挣扎地带，被彻底抹平了。这正是科举语境中"笨"的备考路径在AI时代的终极形态——如果说"笨"的死记硬背只是内化效率低下，那么在AI辅助下的"零内化"则是从根本上取消了内化的必要性。

然而，无论AI如何强大，有四种能力无法通过外包来获得。第一是直觉性判断——那种在面对新情境时，不需要明确检索、自动感知到"这里有问题"或"这个方向走得通"的能力，它依赖于内化知识的密集联结网络在无意识层面的即时输出。一个经验丰富的医生看到患者面色、听到主诉的第一反应，一个资深工程师扫一眼图纸便觉察到应力薄弱点——这种直觉无法通过查询AI来即时获得，因为它依赖于大脑默认模式网络在极短时间内对海量内化信息进行的并行处理。第二是顿悟与创造性重组——那种在无意识状态下，来自内部的、内化材料之间的自发性联结所产生的洞察。阿基米德的浴缸、凯库勒梦见咬住自己尾巴的蛇从而理解苯环结构，以及那位"聪明"的考生在号舍中突然找到绝妙破题角度的一刻——这些创造性时刻的核心机制是内化材料之间的自发联结。AI可以提供无数种现成的组合，但它无法替人类经历那个"从混沌中突然看见秩序"的内部体验。第三是在压力与不确定中维持逻辑自治——在没有任何辅助、在时间约束和心理压力的双重夹击下，仍然能够保持思维的连贯性、不在矛盾中迷失、不将局部正确的论点错误推广。这种能力反映的是一种认知自律和元认知监控，不可能通过外包来获得，因为外包本身就是退路——一旦退路存在，那种"必须在孤岛中维持思维秩序"的认知肌肉便永远不会被锻炼出来。第四是对知识限度的真实感知——对自己理解的真实边界有切实的感知，知道自己还不知道什么，知道自己的理解可能在哪个环节薄弱。这种"知识的阴影感"只能在内化的过程中形成，因为只有当你真正深入某个领域的内部结构时，你才能看到它的边缘。依赖AI获取答案的人往往产生一种虚假的掌控感——AI能回答，仿佛我也理解——从而丧失了对自己认知限度的真实评估能力。

这四个层次共同构成了一个无法外包的认知内核。闭卷考试在历史上的真正功能，无论东西方，从来不是"检验你是否记住了"，而是以"信息隔绝"为手段，强制性地暴露这四种能力在个体身上的真实状态。科举时代"聪明"的考生——以义理压缩、拟题揣摩、情境生成为方法——实际上就是在持续的训练中强化这四种能力。而在AI时代，"聪明"的含义发生了微妙的位移：它依然意味着在无辅助情境下的独立思维品质，但同时也意味着与AI协作时的批判性主导能力。一个在AI时代被视为"聪明"的学习者，其行为模式是双层的：第一层，他仍然保持并持续训练自己在无辅助状态下的独立思考能力，因为只有具备了这个"内部沙盘"，他才能在第二层对AI的输出进行真正有效的评估；第二层，他将AI作为一个可对话的"思维镜像"，带着自己的初步判断与AI互动，质疑AI的论证漏洞，要求AI提供替代解释，最终以自己的内部框架整合、修正或拒绝AI的贡献。这个过程的核心，依然是那个古老的能力：以内化的深层结构为坐标系，对外部输入进行评判与重组。

九、身体在场的价值——不可伪造的真实性

在AI日益渗透知识生产的时代，传统的闭卷考场正在获得一种它原本并不具有的、新的、意外的价值——它可能成为为数不多的、真正意义上的身体性知识检验空间（embodied space of knowledge verification）。随着AI工具使书面知识产出的质量与其背后的真实认知能力之间的联系变得越来越不确定，能够在不可能使用AI的情境下——身处一间有监考官的实体考场，面对纸质试卷，手执一支笔——展示知识运用能力的经历，反而重新获得了一种在AI时代之前并不需要被强调的价值：它的不可伪造性。

这里出现了一种历史的回环：中世纪口头辩论的价值，正是在于它的身体在场性——质疑者和回应者都必须以整个人格出现，无法躲在任何工具后面，无法用时间换取人工辅助，无法呈现一个经过精心打磨但并不代表真实能力的版本。闭卷书面考试，是以书面形式对这种身体在场性的延续。而在AI时代，这种身体在场性，从一种为了公平而强制实施的约束，变成了一种为了真实性验证而不得不保留的稀缺条件。

这种分析，与对AI时代学术评价的更广泛讨论是一致的：在一个书面文本的来源越来越难以被确认的时代，面对面的、即时的、身体在场的知识展示——无论是口头答辩、现场解题还是闭卷笔试——重新成为最可靠的能力验证手段，不是因为这些手段在认识论上是完美的，而是因为它们在当前技术条件下是最难以被伪造的。然而，值得注意的是，这种价值的重新发现，并不等于对传统闭卷考试的无保留辩护。传统闭卷考试的具体设计，有许多需要认真审视的局限性：它对于那些在高压情境下表现不佳的学生（包括焦虑症、考试恐惧症患者）系统性地不公平；它对于那些能力主要体现在缓慢深思而非快速反应的思维方式系统性地不利；它在测量的实际上是一种特定的认知表现模式，而非所有重要的认知能力。承认这些局限，不是否定闭卷考试的核心价值，而是在对这个价值进行更精确的定位：在AI时代，闭卷考试（或其他形式的身体在场的即时知识检验）所保护的，是那种只有在没有外部依托的情况下才能真正被验证的、内化知识对人格和判断力的塑造程度。这个价值是真实的，不可被忽视的；但它需要以一种更为细腻、更为公平的设计形式来体现，而不是对所有旧有考试形式的无差别保留。

有些能力，无论AI如何强大，都无法通过外包来获得。直觉性的判断、顿悟式的洞察、压力下的逻辑自治、对知识限度的真实感知——这些能力不能通过外包给AI来获得；它们需要通过长期的、有足够密度的、真实内化过程来形成。而教育体系，如果真正关心培育这些能力，就必须提供足够多的、迫使学习者真正内化知识而非只是调用知识的情境。闭卷考试，在其历史形态上，是提供这种情境的一种方式。它未必是唯一的方式，也未必是在所有情况下都最优的方式。中世纪的口头辩论、工程师的现场调试、医生的临床诊断、研究者的即席报告——这些都是在不同情境下、以不同形式提供同样功能的机制：在没有外部依托的情况下，迫使一个人以其真实内化的能力来回应眼前的具体挑战。在AI时代，这些机制不是变得不重要了，而是变得更加重要——因为在一个书面产出的来源越来越难以被确认的世界里，这些"去工具化情境中的知识展示"，成为了确认一个人是否真正拥有某种能力的最可靠的证据。

闭卷考试，作为一种制度设计，也许会在AI时代经历深刻的变革和形式上的转化。但它所试图保护的那个东西——那种只有在没有外部依托时才能被真正检验的、内化知识对人格的塑造——将不会过时，只会在AI时代变得更加紧迫和珍贵。