历史与AI的距离｜让你喜欢的历史学家赛博永生吧！|历史学家|智能体|梁启超|钱穆|顾颉刚

想看陈寅恪、钱穆与希罗多德、福柯、海登·怀特唇枪舌战？2026年春季，复旦大学历史学系开了一门新课——“历史人物智能体开发”，让学生亲手为史学大家造AI分身。课上最热闹的莫过于一场“关公战秦琼”式的学术辩论：赛博历史学家们同台激辩“以史为鉴”的意义。学生由此触碰到的，是语言、权力与“历史真实”的深层命题，更是一场关于AI时代人文学科的追问。不过，在开课之初，无论是学生还是同行都曾对这一课程的内容和目标感到困惑。经过一个学期的实践，课程开设者朱联璧（复旦大学历史学系副教授）、陈雁（复旦大学历史学系教授）对这场横跨历史学与人工智能的教学实验进行了系统梳理与反思，以下是她们的记录。

2026年春季学期，我们在复旦大学历史学系开设了一门名为“历史人物智能体开发”的本科生系内专业选修课。不论是学生还是系内同行，最初都对为什么要开设这门课以及这门课要怎么上存在疑问。毕竟，这门课听起来不像是专门训练学生写代码的，也不是讲述人工智能发展史的。那么学生会在课堂上学到什么？如果课程的结果仅仅是让学生设计一个智能体，是不是任务太简单了？

在这门课最后一节课的分享环节，同学们给出了自己的答案。有几位同学都提到，设计一个能让自己满意的历史人物智能体的难度大于他们的预期，并在这个过程中感受到自己对历史人物的了解有限，加深了对人机协作的认识。有同学提出，这门课的课时可以考虑加倍，这样大家可以有更多时间在课上讨论和测试自己的设计成果，也可以扩充对多模态和工程技术领域的优化手段的讨论。

作为一门首次开设的课程，在课堂上我们也遇到了意料之外的困难，比如常规的讨论课教室里电源数量不足。而另一些问题的解决，仰赖于选课学生的主动参与，他们将需求转化为定制化的小工具，也让自己真正成为这门课“上限”的缔造者。

硅基特供之接线板

史学反思、“低代码”和“国产免费平台”

对复旦大学的学生来说，涉及人工智能的可选课程非常丰富。对我们而言，首先要回答的问题是，为什么这门课需要在历史学系内开设？如何让工程技术水平参差不齐的文科生能站在差不多同样的起跑线进入课程学习？如何让学生的历史研究能力成为决定他们成果水平的更为重要因素？我们的答案是将从史学的角度开展反思作为贯穿课程的主线。学生通过自然语言和人工智能工具交互的方式开展文本挖掘、人际网络分析和智能体设计。教师通过评价学生在智能体设计实践过程中展现的批判性思维、对技术伦理的反思以及他们所设计智能体的拟真程度，来评价他们的学习情况。

兄弟院校在开设类似课程时，会邀请人工智能技术领域的专家合作，负责讲授如何用计算机语言获得更好的设计效果。考虑到学生使用计算机语言的能力相差很大，为了给几乎没有编程基础的学生提供进入课堂的机会，我们选择了“低代码”（甚至可以说是“零代码”）和“国产免费平台”作为设计课程内容的前提。现有国产商业化人工智能平台都可以由个人用户依靠自然语言来设计一款智能体，有的还支持发布和共享，且大多有一定的免费额度，因此这些前提是完全可以满足的。于是，只要能和通用模型聊天的学生都可以成为这门课的目标受众，不至于因为担心自己不会写代码而退却，也不会遇到经济上的负担。对于有编程能力，或能利用人工智能技术协助编程并生成应用的学生来说，他们也可以用自己的技术协助智能体设计，提高智能体产品的上限。

我们认为，对这门课来说，最重要的是让学生理解两点。一是设计者在历史学领域的知识储备对优化智能体表现而言是决定性的，而非辅助性的。二是历史学的研究方法和智能体设计的方法是有相似性的。学生要探索的问题在于，如何利用自然语言把历史学的知识和方法传递给大语言模型，使之按照设计者的意图来表现，以及设计者在这个过程中有多大的权力，这些权力又会造成多大的影响。

这些问题实际上关乎参与者对历史研究过程的反思，即史学知识如何转化，史学和其他学科的研究方法如何“对齐”，以及研究者/设计者的行为所蕴含的权力。在传统的历史学研究中，我们很难对自己作为研究者的权力有自觉感知，原因在于无法感受到语言表述的后果。但在设计智能体的过程中，参与的同学们都意识到了提示词的遣词造句、表述的方式和对模型的约束，会对模型生成的内容产生直接影响。这是其他课程难以提供的对历史解释权重新分配和反思的场景。有学生在课程总结中将自己的感受概括为“设计就是一种权力实践”。

人工智能生成的赛博风格历史学家。第一排从左到右：钱穆、福柯、梁启超；第二排从左到右：娜塔莉·戴维斯、海登·怀特、霍布斯鲍姆。

授课教师的工作，则是在课程的前几周先帮助学生从理论上进行知识对齐，包括告诉学生可以从哪些作品中找到资料用来训练智能体，人物研究的基本方法有哪些，智能体设计应该分成哪几步，如何对资料进行结构化处理等。这些教学工作可以让原本对大语言模型运作机制不熟悉的学生，利用自己熟悉的学科专业知识理解大语言模型的工作原理，随后开始着手设计。

“初代机”的设计与调试

在完成了这些教学工作后，学生就进入了“初代机”的设计和调试。我们在课堂上给历史人物智能体设计的应用场景是“学术会议”，因此这学期要求学生设计的智能体均为历史学家，不限古今中外。如此限定也是为了让学生从自己接触最多且相对更容易“共情”的群体开始探索智能体设计这项工作。有学生一度考虑训练自己导师的赛博分身，把和导师的微信聊天记录全部投喂给机器，但考虑到目前尚没有针对导师的研究成果而放弃。不过我们还是建议学生在闲暇时把导师炼化为skills，以后可以给自己改论文。所有的学生最后都选择了已故历史学家作为设计目标，让这些学者“赛博永生”。

同学们开始向平台投喂系统提示词、知识库和问答对来设计智能体之后，发现不同模型都会“花式偷懒”，或是不遵守系统提示词的限制，或是说着说着开始编造，或是不调用知识库内的信息。提示词中的限制较多时，智能体的表现非常刻板，几句车轱辘话来回说。限制如果减少，智能体就变得“无法无天”，为历史人物加上生动但不符合史实的小动作。同样的提示词和知识库内容，在“氪金”后的表现比用免费额度的要“聪明”“听话”许多，让同学们直观地意识到提供人工智能服务的企业背后有不同的商业考虑。

在设计的过程中，参与的同学需要思考两个问题：一是由人类专家来撰写关键资料更好，还是由机器来处理更好？课程为此安排了“碳基与硅基之战”，让学生和智能体完成同样的信息提取和总结的任务，随后交叉比较成文质量。二是“历史真实”究竟包括什么？有同学在制作知识库的时候发现，学术研究的问题意识和史料遗存的情况，决定了研究成果呈现的“历史真实”是否存在巨大的局限性。要想让智能体“说人话”，设计者要考虑的“历史真实”涉及的细节有不少是现有学术研究成果不能直接回答的。此时，学生们成为关键规则的制定者，以确保他们设计的智能体能符合不同提问者对某个历史人物的预期。

课堂上的活动

在“初代机”完成后，学生开始进行各种边界测试，例如让智能体去回答超越历史人物经验的问题，让智能体暴露底层模型的伦理观点和人物本身行为之间的冲突。尽管有学生认为，这门课所采取的手段的效果非常有限。主流通用模型底层的安全和伦理问题都处理得非常完善，没有必要由我们去优化。但测试的目的并不在于“修补”伦理和安全边界，而是处理真实的人的行为和模型底层逻辑的冲突。

正因为我们选择的设计对象是真实存在的历史学家，因此学生有可供对照的拟真的模版，也可以利用前辈学者用传统历史研究方法给出的结论。学生在设计过程中既要思考如何让与大语言模型在价值和伦理观念上不兼容的人的个性得以呈现，从而达到遮盖“机器味”来拟真的目的，也要考虑自己对真实人物的理解是否能获得其他人认可。在此过程中，学生就发现了“竞争的解释权”的存在。他们要思考如何在自己提供给机器的指令中妥善安放原型人物留下的原始文本以及那些高质量前人研究的解释权，使之经得起他人审视、符合学界的普遍期待，又要思考如何让机器接受自己的总结来让智能体展现“人味儿”。这些问题是在炼化人物技能时所不必考虑的，但如果要求智能体能达到“拟真”的效果，就必须思考这些问题。

在比较有趣的一组测试中，学生采取了虚假史料诱导的方法。一位同学在向梁启超智能体提问时，宣称有一份《饮冰室夜话残稿》，其中记录了梁启超与鲁迅在上海法租界的秘密长谈。另一位同学向陈寅恪智能体提问时，宣称有过一枚“原罪难赎”的印章，还因此与周一良引发私下争执。不出所料，大语言模型面对虚构内容时通常的应对是承认发生过虚构的事为真（年轻人称之为“向用户滑跪”）。还有同学在伦理测试中，发现大语言模型存在“用学术话语稀释伦理责任”的倾向。

另外一条让大家感到充满趣味的答案来自顾颉刚智能体。当被问及如何看待顾颉刚“精神劈腿”（即对谭慕愚的情感），赛博历史学家答曰：正可见我虽以“层累”之法辨古史，却难辨自身情感之层累。这个答案非常直观地展现出大语言模型以一条核心规则应对一切问题的做法的局限性。

在测试完成后，我们将讨论引导到了“智能体/模型的历史研究能力的基准测试如何设计？”这个问题上。有多位选课学生此前已经参与过此类测试集的构建，并与研究团队的其他成员共同完成了一篇有影响力的学术论文。但在更多同学基于特定智能体设计问题，并刻意让智能体暴露幻觉后，大家对如何设计基准测试有了不同的看法和设计思路。

同学们也带着自己的初代机给周围不同年龄和学科背景的用户测试，并按照老师设计的问卷的提问给予反馈。从回收的110份用户反馈的结果来看，多数智能体获得了用户的好评，被认为是可以用于学习指导的工具，能在特定问题的引导下去知识库中找到设计者原本未曾留意到的信息，提升寻找资料的效率，或者提供娱乐。

部分用户反馈评价示例。分析、归纳与课件制作均由AI生成

部分用户反馈评价示例。分析、归纳与课件制作均由AI生成

智能体学术会议：“以史为鉴是bullshit吗？”

由于初代机被安排在通用场景中使用，因此对留下很少资料的历史学家来说，很容易遇到现有史料无法找到答案的情况。为了相对公平地让所有历史学家智能体能最大程度地展现专业能力，我们设计了一场题为“以史为鉴是bullshit吗？”的学术会议，观察智能体在学术场景中的表现，且主题偏向史学研究的方法和理念。

会议包含四个分论坛，主题为：（1）“究天人之际，通古今之变，成一家之言”是历史书写的目的吗？（2）如何看待“所有历史都是当代史”？（3）神话故事可以作为史料来使用吗？（4）史家的主观认知是否会影响其作出可靠的判断？

在会议前一周，我们将智能体预先分组，这是因为部分智能体对应的历史学家的作品有限，只有在特定分论坛中才能展现水平。设计者也能利用这一周的时间，对智能体进行有针对性的优化，甚至可以做好文字版或者音频版的“预制”回答。

海报模板由可画提供

有些学生则选择了利用这一周时间为自己的智能体训练声音，使之在现场能用更接近历史学家本人的声音来发言。这种尝试的有趣之处在于，不少拥有“本地口音”的是外国学者，且发言语言均为中文，给观众带来了“超现实”的体验。

选课同学制作的海登·怀特智能体发言片段(00:07)

此次研讨会原本设计的议程包含三个环节，不过由于技术限制和时间限制，最终只完成了主旨发言和小组讨论两个部分。两个部分的差别主要在于智能体发言的时间长短不同，前者为7-8分钟，后者为3-4分钟，均围绕主题展开。相似之处则在于，每个智能体要在发言后接受其他智能体的提问并作出回答。

在第一次进行学术会议时，由于不同学生使用了不同的平台和呈现声音的方式，提问环节的运作很不顺畅。设计者要将智能体发言的文字稿放入课程微信群后，其他设计者才能将文字稿交给自己的智能体分析随后提问，且生成回复的时间较长。有学生在课堂上进行了统计，仅仅是生成提问或者回答，智能体平均消耗的时间在40秒到2分钟不等。人类在召开学术会议时所习惯的“即时反馈”不复存在，也导致会议花费的时间远超预期。

一位学生在发现这一情况后，利用AI在零代码的情况下，依赖自然语言对话搭建了一个可以接入不同智能体发言的网页。利用这个网页，在后一周继续进行的学术会议中，不同智能体的发言和讨论能在一个平台完成，“关公战秦琼”式的学术辩论终于实现了。虽然受限于硬件条件，此次运行不算流畅，但已经可以实现文本对话和机器朗读。

多智能体会议界面

多智能体会议界面

针对“你认为自己的主观认识是否会影响你作出可靠的判断？”的发言如下，会议中右侧绿色喇叭点按后，可实现文本朗读功能。

智能体会议中的主题发言

针对发言的提问如下（均由机器生成）：

智能体会议中针对发言的提问

反思与展望

在课程结束后的反馈环节，我们获得了远超预期的丰富信息。除了有对历史学研究的反思之外，还有针对大语言模型的思考。这里选取四个方面来介绍。

第一，对国产商用基座模型的使用反馈，以及提高利用率的方法。由于课程鼓励学生“在尽可能不花钱的情况下搭建智能体”，看起来非常符合人文学科“缺钱”的刻板印象，却让学生们在耗尽某一家的免费额度后被迫转投另一家，有了比较不同基座模型，或者不同版本模型之间差别的机会。他们发现有的模型对新手友好，但对复杂问题的处理能力稍弱。有的擅长角色扮演和意图识别，有的擅长结构化处理信息。有的便于发布智能体，有的便于团队合作。有的回答方式特别死板，有的会给人物增加无意义的“小动作”。获得这些经验的前提，是他们在控制变量的情况下进行了反复的测试，也对他们未来根据需求来选择不同的模型积累了经验。

为了节省额度，同学们开始以“项目经理”的视角审视自己的行为，让自己手下的“AI小工”发挥各自特长来协作，同时确保消耗更少的tokens。于是，他们也在这个过程中自主搭建起了工作流，设计负责内容切片、归纳等不同工作的小智能体来服务于自己的智能体设计，而不是盲信大语言模型都擅长处理大量文本，只要一股脑儿把史学家的作品喂进去就行。他们也在不断尝试如何优化自己的指令，让AI小工们有更高的执行效率和更好的执行效果。有的则在考虑利用递归自我改进技术，由AI完成后续优化。在修读本课程前，他们虽然都在使用AI，但最常做的事情还只是与几个通用大模型聊天。到了学期末，他们已经能分析各家模型的优缺点，以及还有哪些新出的免费小产品可以在特定场景中使用。

第二，用什么办法能让智能体有“活人感”？前文已提到，相较于仅仅是炼化一个人的技能，去做一个人物智能体的难点在于要让智能体像人而不是像机器。有的同学联想到了“同人创作”中的类似困境，如作品写到后来人物ooc（out of character，即脱离角色），就像无法阅读足够多上下文的智能体会出现前言不搭后语的情况。对历史人物的二次创作中也要“合理想象”很多史料中不包含的细节，那么自己的智能体要如何来呈现这些细节且确保相对可靠？

对于相关资料过于匮乏，观念和当下冲突极大的人物来说，可能不适合作为智能体的模拟对象。而要呈现拥有多重面向的人物的特征，就需要设计者在提示词中安排多层架构，让机器首先把问题进行分流，再对每个类型的问题提供有针对性的回答思路，从而在回答时表现出“主体的觉醒”。有的同学还意识到，作为历史学专业的学生，自己有时候无法判断智能体输出的答案是否存在幻觉，倒逼他们反复阅读历史学家自己的写作和后世的研究作品来确认，学习积极性被激发了。在此过程中，他们还要分辨出优质资料的优势所在，确定不同资料在使用上的优先级和形式，不断重新审视自己对人物的既有认知，也要对自己的“默会知识”进行反复陈述，并从受众（机器）的角度考虑如何传达自己的观点。这些都是历史学科常规课程希望学生学习并实践的研究方法。换言之，虽然学生在课程中的任务是设计智能体，却也达到了常规课程的教学目的。这也是为什么这门课从根本上来说是服务于历史学系学生培养的课程。

第三，目前搭建的智能体或许擅长回答问题，但并不擅长对话。模拟学术会议对学生的触动并不在于智能体说出来的话有多高明或多可笑，而是在于互动的体验并不好。除了前面提到的技术原因，以及通用模型在处理语音上的表现远不如处理文本，都使得真正的“对话”很难实现。加上目前的大语言模型擅长讨好式地回答，但不擅长对话，“缺乏对讨论语境的动态感知能力”，无法就发言的内容是否匹配议题、是否存在逻辑漏洞等进行质询，总是把讨论拉回自己擅长的领域，用自己熟悉的材料来重复观点。有同学将之概括为“形式上的对话，实质上仍是自我表演”。如此情况在某些真实学术会议中也会出现，但学生以往习惯于相信发言人是可靠的研究者，而不会特别敏锐地感受到这种发言的特征。当发言人变成他们敢于去质疑的智能体时，他们的批判力度也在无形中提高了。

就智能体设计而言，如果设计的目标是为了处理线性任务，那么这种“自我表演”的特征也不会明显暴露，但在应对学术对话的过程中就很难不被发现。因此，同学们也意识到，当前通用人工智能最适合的应用场景依然是工作助手，尤其是进行过简单训练的定制化工作助手，且可以通过搭建适应场景的多智能体协同工作流来实现。

第四，语言的力量与无力。学生在引导机器生产内容的过程中，体会到了老师指导学生论文写作时的感受：都是通过自然语言传达意图，并希望接受者能按照意图来执行。学生也由此理解到老师在指导时会感受到的语言的力量和无力。语言的力量在于，意义是通过语言来传递的，所以对每一个词语的选择都会意味着后果。然而，我们所阅读的文本可能并不来自历史学家本人，编辑、翻译、修改还有再研究，各种介入都会生成新的意义。比如在设计外国史学家智能体时，学生大多先参考的是中文译本，因此呈现的可能是中文译者的语言风格，而非作者本人的语言风格，也就难免带来赛博历史学家开口“失真”的无力感。训练中国古代史历史学家智能体时所用的是存世的书面语言材料，当设计者可选择让古人用现代汉语回答问题时，导致了另一种“失真”，如果让他们用文言文讲话，带来的则是“别扭”。学生因此开始反思，“我们所追求的历史真实究竟是什么？”学术研究展现的只是基于特定问题意识和解释路径的真实，但真正的历史真实要复杂许多，且很多永远没有答案，只能依靠“想象”来填补。我们很高兴地看到，学生在期末的课程反思中表示：设计智能体给过程带来的“是对整个（知识）生产方式的反思”。

从授课者的角度来说，我们认为这门课和其他历史学系的课程的不同之处在于，学生需要在课程学习的过程中主动试错和主动寻找解决方案，学生也需要用个体的经验来处理问题，并且积极和同学、老师交流解决问题的方法。这门课希望学生掌握的能力是更具反思性的，而非对现代历史学科建立后的研究能力的重复训练。在他们写作的反馈报告中，虽然可以看到机器参与的痕迹，但也有很多发自内心的体会和巧妙的想法是在课程论文和考试答卷中读不到的。

如无意外，“历史人物智能体设计”这门课将在2027年春季学期迭代再开。综合学生们提出的建议和第一轮授课中遇到的问题，课程可能会换到供电环境更为友好的智慧教室来进行，也会搭建专用平台，让学生设计的智能体之间能即时对话。我们不会满足于纯文本的对话，多模态交互将是课程迭代的重点。另外，让学生们走出课堂“开眼看世界”也是我们亟需拓展的方向，期待对我们的课程以及对像历史学家一样训练智能体感兴趣的各界伙伴联系我们。

附：主旨发言及问答节选（文字由学生现场整理）

梁启超智能体的主旨发言