陶哲轩用Claude Code解题，两度宕机，因为token不够用|claude|code|token|引理|数学|新论文|陶哲轩

近日，菲尔兹奖得主、加州大学洛杉矶分校（UCLA）数学系教授陶哲轩（Terence Tao）在 YouTube 发布了一段时长约 26 分钟的实操视频，详细演示了如何利用 Anthropic 推出的 Claude Code 代理工具，在 Lean 定理证明器中完成一项数学证明的形式化全过程。

陶哲轩在视频开始就明确了任务目标：将集合论中的“单例定律”（Singleton Law）从非形式化的自然语言描述，转化为 Lean 系统能够编译和严格验证的代码。简而言之，该定律论证了对于任意集合 A 和元素 x，单例集合 {x}属于 A 的条件等价于某些特定的子集属性。

尽管这在数学概念上这属于较为基础的引理，但要在类型论严苛的 Lean 系统中完成形式化，却伴随着大量琐碎且对语法要求极高的代码编写工作。

这并非陶哲轩首次处理这一任务。大约九个月前，他曾在其主导的“方程理论”（Equation Theories）项目中，已经利用当时的主流工具（如 GitHub Copilot）手动完成了该证明。

这次引入 Claude Code 重做此题，陶哲轩是想直观对比新一代“代理式编码工具”与上一代代码补全工具之间的代际差异。

与 GitHub Copilot 早期仅能基于光标位置提供几行代码自动补全不同，Claude Code 是一个运行在终端的代理系统，能够理解复杂的自然语言指令，自主读取文件目录，规划步骤，并自动执行代码编辑和修改。在陶哲轩看来，这种能力的跃升或许让 AI 有望真正接管数学研究中被称为“繁文缛节”的重复性劳作。

大佬用 AI 也会翻车

有趣的是，视频中所展示的流畅流程并非一蹴而就。陶哲轩在录制中坦言，这是他第三次尝试用 Claude Code 完成该任务。在此之前，他因为不同原因已经“翻车”了两次。

在第一次尝试中，陶哲轩直接给出了一个宏观指令，要求 Claude“完成整个证明”。结果，AI 在连续运行了 45 分钟后，消耗了海量 Token 并导致电脑崩溃，最终未能产出任何有效结果。

有网友直接在评论区@Anthropic：“给陶哲轩开个无限 Token 权限吧，说不定数学 2.0 时代能提前到来！”这话听着像玩笑，却也戳中了当前 AI 工具的一个现实痛点：真干起精细活来，Token 消耗的速度是真快。

第二次尝试时，他改变了策略，要求 AI 按引理（Lemma 1, 2, 3）分步执行，这次耗时 25 分钟成功完成，但因录屏软件故障未能保存。

吸取了第一次的教训，在第三次（即本次发布的视频）实操中，陶哲轩采用了高度结构化的“脚手架”（Scaffolding）策略。他在文件顶部撰写了一份极其详尽的“配方”（Recipe），将任务拆解为初始定义、大纲搭建以及三个子引理的逐步证明，以此来约束 AI 的行动发散空间。

1. 搭建骨架（Skeletonization）

流程初期，陶哲轩指令 Claude Code 先不要急于推导，而是用 Lean 系统中的占位符“sorry”搭建起整个证明的宏观框架。这一步进行得异常顺利，AI 准确识别了非形式化证明中的逻辑断点，并将其转化为 Lean 代码结构。陶哲轩指出，让 AI 先写出带有“sorry”的骨架，随后再逐一填补，是目前最高效的人机协作模式。

2. 陷入泥潭与人工干预

然而，在具体填补 Lemma 1 的证明细节时，Claude Code 的短板开始显现。由于 Lean 的底层逻辑要求高度严谨，AI 在面对非形式化语言中的等式代换时，表现出“过度思考”的倾向。它试图频繁展开底层的数学定义，而不是机械地按照人类给出的步骤进行推演。

在视频中，AI 在后台进行了大量的回溯和自我试错，消耗了大量计算资源，推导过程变得异常冗长。在这个过程中，陶哲轩的工作站甚至意外宕机了一次。系统恢复后，面对 AI 将简单步骤复杂化的窘境，陶哲轩果断选择人工介入。他直接接管了键盘，迅速输入了一个基于 congr（同余/等式替换）指令的策略，瞬间突破了僵局。

他客观评价道：“过度依赖工具可能会让你失去对证明的直觉。当 AI 陷入死胡同时，人类直接上手往往比等待它纠错要快得多。”

3. 演化出“并行工作流”

随着进程推进到 Lemma 2 和 Lemma 3，陶哲轩展示了令人眼前一亮的工作流创新。当他确认 AI 已经掌握了骨架搭建的技巧后，他不再单纯扮演“监督者”，而是开始与 AI“双线操作”。当 Claude Code 在后台自主分析并试图填补 Lemma 3 的底层逻辑时，陶哲轩则在代码的前段手动补全 Lemma 2 中相对直观的"sorry"部分。

这种人机并行作业的模式，最后将总耗时压缩到了约半小时以内，并且最终代码毫无报错地通过了 Lean 编译器的严格审查。陶哲轩总结称，将任务切分，人类处理一目了然的逻辑，而将需要堆砌代码的繁重任务交由代理，是现阶段最具可行性的实践。

AI 从“平庸助教”到“初级合作者”

若将此次视频置于陶哲轩近年来对 AI 的系列实验史中审视，我们能清晰地看到一条技术跃迁的轨迹。

早在此轮生成式 AI 爆发之初，陶哲轩就曾积极测试各类聊天机器人，并将其比作“平庸但不完全无能的研究生”。彼时的 AI 在处理如微积分中的 epsilon-delta 极限证明时，极易出现幻觉，频繁混淆变量域或遗漏边界条件，更多是作为一种新奇的玩具存在。

到了 2025 年，随着大模型基础能力的提升，陶哲轩曾公开测试 GPT-5 级别模型在复杂学术文献检索上的表现。在那次测试中，AI 能够快速在海量未完全结构化的论文库中挖掘出特定的定理渊源，为他节省了数周的案头检索时间。然而，当时 AI 扮演的仍是“高级图书管理员”的辅助角色，而非直接介入证明的生成。

而进入 2026 年初，形势发生了质的变化。以 ChatGPT 为代表的大模型在著名的 Erdős 开放猜想库中发力，试图“独立”解决这些涵盖数论与组合学数百个未解之谜的问题。陶哲轩的 GitHub 主页也记录了利用这些系统自动化处理周边猜想的尝试，填补了人类因精力有限而忽略的边缘地带。