北京时间9月13日凌晨1点,OpenAI发布了其首款具备强大推理能力的大语言模型——o1系列模型。这一系列模型包括o1-preview预览版和o1-mini迷你版。

图片来源于OpenAI官网
打开网易新闻 查看精彩图片
图片来源于OpenAI官网

o1系列模型的核心在于其创新的“思维链”(chain of thought)训练模式。这种训练方式要求模型在回答复杂问题前,先生成一个内部的思考过程,类似于人类在处理复杂问题时的一步步推理。通过这种方式,o1模型能够识别并纠正错误,将复杂问题分解成更简单的部分,并在必要时尝试不同的策略。

OpenAI的CEO Sam Altman在社交媒体上表示:“需要耐心等待的时刻结束了!”

图片来源于网络
打开网易新闻 查看精彩图片
图片来源于网络

o1-preview作为o1模型的预览版,每周限制使用30条消息,是OpenAI向付费用户和开发者推出的初步版本。而o1-mini则是o1系列中的小尺寸版,价格比o1-preview便宜80%,每周限制使用50条消息。尽管存在使用次数的限制,但这两款模型在编码任务等方面的能力均十分出色,尤其是o1-mini,在生成和调试复杂代码方面表现出色,特别适合开发人员使用。

o1模型在多个基准测试中展现了其强大的逻辑推理能力。在国际数学奥林匹克(IMO)资格考试中,o1模型解决了83%的问题,远超GPT-4的13%解决率。在OpenAI模拟的Codeforces主办的编程竞赛中,o1模型表现优于 93% 的竞争对手。此外,在物理、化学和生物等学科的基准测试(GPQA)中,o1模型的准确率甚至超越了人类博士水平的准确率。

图片来源于网络
打开网易新闻 查看精彩图片
图片来源于网络

与GPT-4相比,o1模型在逻辑推理能力上取得了显著进步。GPT-4虽然已在多个领域展现强大能力,但在处理复杂推理任务时仍有不足。o1模型通过“思维链”训练模式,显著提升了其逻辑推理能力,在多个基准测试中超越GPT-4,甚至达到或超越人类专家的水平。

然而,o1模型的使用并非没有成本。OpenAI表示,o1模型的使用成本至少是GPT-4的3倍,初始发送信息数也有限制。

对于开发者而言,访问o1模型的成本较高,API中o1-preview每100万个输入token收费15美元,是GPT-4成本的三倍;每100万个输出token收费60美元,是GPT-4成本的四倍。这种高昂的使用成本可能会限制o1模型在部分场景下的应用。

o1模型在功能上也有所局限,目前仅支持纯文本输入输出,无法浏览实时网页、上传文件和图片等。此外,OpenAI也承认o1模型在某些情况下可能产生“幻觉”问题。尽管如此,o1模型在逻辑推理方面的突破为未来AI应用提供了无限可能。OpenAI设想医疗研究人员可以使用o1注释细胞测序数据,物理学家可以生成量子光学所需的复杂数学公式,开发人员则可以构建和执行多步骤工作流程。

OpenAI计划在未来继续推出o1模型的更新版本,进一步提升其推理能力,并计划增加浏览网页、文件和图片上传等功能。此外,该公司还表示将继续开发和发布GPT系列中的模型。