背景大家应该都了解,OpenAI o1-preview上周推出,达到了数理推理(reasoning)的全新水平,比如数学奥林匹克IMO美国资格赛AIME达到了前500水平,CodeForces编程竞赛社区89%排名,等等。以下是我这两天关于o1-preview的一些笔记,和大家分享。

1. 思维链

OpenAI在o1-preview的介绍文章"Learning to Reason with LLMs"中说(我译成中文):

“我们的大规模强化学习算法教会模型如何在高数据效率的训练过程中有效地使用其思维链(chain of thought)进行思考。我们发现,随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算),o1的性能不断提高。扩展这种方法的限制与LLM预训练的限制有很大的不同,我们正在继续研究它们。”

思维链(CoT)本身是行业熟悉的成熟方法了,来自2022年的"Large Language Models are Zero-Shot Reasoners"这篇文章,意思就是通过加入“让我们一步步思考”这样的提示,可以从大模型得到质量更好的数理推理结果。这个也是在有道的子曰教育模型中使用广泛的方法。

虽然"让我们一步步思考"这样一句经常和做题的小学生讲的话有点搞笑,但CoT背后的直觉很有道理,如果你观察大模型的计算过程,会理解到每生成一个token,背后大模型完成的计算量是基本固定的,那么对于数学题这样“费脑子”的问题,“慢慢回答”,多说一些话,也就自然等于“更多思考”。让模型分步回答,输出更多的token,也就是融入了更多的思考,可以理解可以得到更好的结果。这是思维链这个方法的有效性背后的基本逻辑。

从目前公开信息来看,除了思维链之外,o1主要还依赖增强学习(reinforcement learning),增强学习是让软件自主做决定以取得最佳结果的机器学习方法,它很特别的特点是不需要有人教,或者说需要的反馈非常少,只需要外部有一个评分的函数,就是判断做成没做成就可以了,而不需要外界告诉系统怎么做。增强学习RL以前主要用于机器人领域(比如双足行走),而这些年来RL和LLM的结合现在越来越多,o1是一个最新的例子。

2. 系统1和系统2思维

思维链背后的思想,来自认知学和心理学的研究,2011年的Daniel Kahneman的《思考,快与慢》(Thinking, Fast and Slow)是讨论这个问题的一本好书(此书有中文版)。基本的背景是:人的思维可以分成两个模式,“系统1”是快速、本能和情感思维,“系统2”是缓慢、仔细和逻辑性的思维。

打开网易新闻 查看精彩图片

所以从这个角度,可以认为在o1之前的大模型,总体上都是“系统1”思维为主。从系统的行为来说,就是得到一个问题后,就一边想一边说,想到哪里是哪里,并没有一个回答问题之前的深度思考过程。这也解释了为什么在教育领域,之前的大模型强于文科,而弱于理科,就是因为思维偏直觉和情感,而在需要反复琢磨的逻辑思维上比较差。

对于这个问题,之前的LLM增强能力依靠不断加大参数量,o1给出了一个另外的思路,就是在训练阶段和推理(inference)阶段都加入增强学习和思维链,通过反复计算,来加强模型的数理推理能力。另外一个变化是和以前的模型相比,推理(inference)阶段的计算占比加大,对于数理问题,这应该是一个必要的变化。

具体的算法OpenAI并没有公布,行业内不少公司之前也都在探索类似的方向,而OpenAI是第一个出成果的团队,相信一段时间后,o1的细节会更多被大家了解,国内外其它团队也会有相关成果出来。

3. 一些例子

OpenAI自己给了一系列的o1的例子,比如下面这个简单的“密文”解码:

"oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"

模型成功解出了这是两个字母ASCII码取平均值得到一个明文字母(oy -> t, fj -> h)。

然后编程例子,写了一个转置矩阵的bash脚本,而GPT-4写不出来。

X上面一些用户给出了早期的评测结果,比如MMLU-Pro从79%提升到91%:

打开网易新闻 查看精彩图片

然后三分钟解出了最近一次LeetCode周赛的全部三道题:

打开网易新闻 查看精彩图片

4. 成本

这套服务目前很贵,o1-preview100万的tokens价格是15美元,与之对比,OpenAI便宜的模型GPT-4o mini(和GPT-3.5差不多)的价格是0.15美元/百万tokens,也就是100倍的价格差距。

另外对于个人开发者来说,还有一个门槛是需要tier-5账号,就是已经花过1000美元的账号,才能访问o1-preview/o1-mini。OpenAI财技不错。

另外,计价方法也有变化,OpenAI新增了“reasoning tokens”,就是在结果中不显示,但是推理过程中用到的tokens,这个也会计入价格中。总体来说,就是目前这个模型能力特别,但价格很贵。

o1是大模型发展的一个里程碑时刻,打开了“系统2思维”大门的一条缝隙,相信这个大门一旦打开,就不会再关上,全球AI社区一定会研发出更多的快速提升模型推理能力的创新方法来,大家继续亲历历史吧。