OpenAI发布新模型o1，更像理科生，不会多模态但推理能力超强|openai|人工智能|推理|数学|神经网络|陈信翰

9月13日消息，去年，OpenAI通过推出GPT-4，实现了人工智能领域的一次重大突破。周四，该公司宣布了一个标志着其研究方向转变的全新模型：OpenAI o1。

OpenAI o1具备独特的逻辑“推理”能力，能够解决许多现有模型（包括OpenAI目前最强大的模型GPT-4o）无法处理的复杂问题。与传统大语言模型通常一步给出答案不同，OpenAI o1像人类一样，通过逐步推理，最终得出正确的结论。

OpenAI首席技术官米拉·穆拉蒂（Mira Murati）在接受采访时表示：“我们将其视为人工智能模型发展的新范式，特别是在处理复杂推理任务时，展现出了前所未有的优势。”

OpenAI o1的内部代号为“草莓”，并非旨在取代GPT-4，而是对其的补充。

穆拉蒂还透露，OpenAI目前正在构建下一代主模型GPT-5，其规模将远超前代。尽管公司依然认为扩大模型规模能带来新的突破，GPT-5预计将融合本次展示的推理技术。“我们有两个发展方向，一个是规模扩展，另一个是推理能力提升，我们希望最终将两者结合，”穆拉蒂说道。

大语言模型通常依赖庞大的神经网络和海量数据进行训练，展现出卓越的语言和逻辑能力，但在处理基本推理问题（如简单的数学题）时，表现不佳。

穆拉蒂指出，OpenAI o1采用了强化学习技术，通过对正确答案给出正反馈、错误答案给出负反馈，逐步提升模型的推理策略。她补充说：“这个模型不仅提升了思维的敏锐度，还微调了它用于解决问题的策略。”强化学习已经帮助计算机在游戏和复杂任务（如芯片设计）中取得了超凡表现，同时也是开发高效、友好的聊天机器人的关键技术。

OpenAI研究副总裁陈信翰（Mark Chen）展示了OpenAI o1的能力，解决了GPT-4o无法处理的多个问题，包括复杂的化学题和一个棘手的数学推理题。陈信翰表示：“新模型不再只是模仿人类思维方式，而是学会了独立思考。”

OpenAI称，新模型在多个领域（如编程、数学、物理、生物和化学）的测试中表现出色。在美国数学邀请赛（AIME）中，GPT-4o平均解答率为12%，而OpenAI o1的解答率则高达83%。

不过，OpenAI o1的速度不如GPT-4o，且其优势并非在所有情况下都明显，部分原因在于它无法搜索网络，也不具备多模态功能，无法处理图像或音频数据。

近年来，提升大语言模型的推理能力一直是研究热点，竞争对手也在积极探索。谷歌今年7月宣布了AlphaProof项目，结合了语言模型和强化学习，专注于解决复杂的数学问题。尽管AlphaProof能够通过正确答案学习数学推理，但面临的挑战在于现实问题并非总有明确答案。

OpenAI表示，其新推理系统具备更广泛的适用性。陈信翰认为：“我们在这一领域取得了突破，这也是我们的优势所在。该系统在各个领域的推理任务中表现出色。”

斯坦福大学教授诺亚·古德曼（Noah Goodman）曾发表过关于提高大语言模型推理能力的研究，他认为，通过精心设计的提示性语言模型结合手工优化数据，可能是实现推理能力提升的关键。古德曼还表示，如果能在速度和准确性之间取得平衡，将是“意义重大的进步”。

麻省理工学院助理教授Yoon Kim指出，大型语言模型的推理机制仍显得神秘，尽管它们能够逐步推理，但与人类思维或存在本质差异。这种差异在技术被广泛应用时可能会变得至关重要。他说：“这些系统可能会做出影响众多人的决策。更大的问题是，我们能否信赖它们的决策机制？”

OpenAI新技术或许还有助于确保AI模型的“良性行为”。穆拉蒂表示，新的推理模型可以通过对结果的推理，避免产生不良或有害的输出。她说：“就像教育孩子一样，一旦他们理解为什么要做某件事，他们就能更好地遵守规范、行为准则和价值观。”

华盛顿大学名誉教授、人工智能专家奥伦·埃齐奥尼（Oren Etzioni）指出：“让大语言模型具备多步骤推理、使用工具和解决复杂问题的能力至关重要，单靠规模扩展难以达成这一目标。”他补充说，即使推理能力得到提升，幻觉和事实验证问题依然存在。

陈信翰透露，该公司开发的新推理方法表明，人工智能的发展并不一定需要庞大的算力支撑。“这一变革令人振奋。我们相信它能以更低的成本实现智能输出，而这正是我们公司核心愿景的一部分。”（小小）