强大的推理能力

OpenAI草莓项目此前被称为Q*,据路透社称,OpenAI内部已经将其视为一项突破。Q*的demo能够回答目前商用模型不能解决的科学和数学问题。

OpenAI内部测试的AI在MATH数据集上得分超过90%,这是基准测试里面属于王者级别了,但无法确定这是否为草莓项目。

  • 微软 Azure OpenAI 免费试用申请:
  • https://azureopenai.cloudallonline.com/?zxwwy159

据彭博社报道,OpenAI在内部全员会议上做了次演示,声称该项目的推理能力已经接近人类水平。发言人也证实了这次会议,但拒绝透露细节。

企业如何合规、稳定使用ChatGPT以及Copilot?

出于合规角度,建议国内企业可以选择微软的Azure OpenAI服务来使用接口。

通过微软官方合作伙伴获取服务,企业用户可以合规、稳定地使用ChatGPT,满足国内发票需求,同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

作为微软的合作伙伴,全云在线可为企业开通绿色申请通道!包括最新版本GPT-4o、Dalle-3等,只要企业有需求,全云在线都能协助快速开通!

软 Azure OpenAI 免费试用申请:
https://azureopenai.cloudallonline.com/?zxwwy159

研究人员表示,推理能力是人工智能达到甚至超越人类智力水平的关键。

这样的AI就像是受过高等教育的人一样,有能力解决基本问题,还不需要任何工具。下一个阶段会有“Agents”(AI实体)和“Innovators”(创新者)出现,Agents可以在几天内自主执行任务,Innovators能够设计新技术。最终会形成全面自主性和复杂性的人工智能系统,这些阶段映射出来一个完整的(AGI)通用人工智能路线图。

人工智能研究人员认为,这种能力是目前现有人工智能模型所不具备的。

虽然大语言模型可以很快地总结文本和书写文本,但有时候存在常识性问题,对人们来说这些问题非常简单和直观,比如识别逻辑错误和“幻觉”问题。

人工智能的推理涉及模型的形成,AI可以进行提前规划,反映物理世界的运作方式,从而可靠地解决有挑战性的多步骤问题。

改进人工智能模型的推理能力是释放模型能力的关键,这些能力往大了说可以代替人类研究重大科学,往小了说可以写代码写软件。

谷歌、Meta和微软这样的公司和许多研究AI的学术实验室,都在尝试用不同的技术来增强AI模型的推理能力。然而研究人员对大语言模型是否能够将想法和长期规划纳入的预测方式存疑。

现代人工智能的先驱之一的Yann LeCun说,大语言模型无法进行像人类一样进行推理。

OpenAI希望此项目能够大幅提高AI模型的推理能力,草莓涉及专门计算处理方式,它可以在大量的数据集上预先训练AI模型。

其中一种方式就是后训练(post-training),或者在基础模型已经“训练”了大量通用数据后,调整基础模型以特定方式“磨练”性能。

“微调”和人类反馈强化学习(RLHF)都是后训练的方法,RLHF可以让人类根据模型的响应向模型提供反馈,提供正确和错误的例子做提示工程。

一位知情人士称,草莓与斯坦福大学在2022年开发的一个叫“自学推理者”("Self-Taught Reasoner”,简称“STaR”)的方法相似。

斯坦福大学教授Noah D. Goodman称STaR让AI模型能够通过迭代创建自己的训练数据来“指导”自己进入更高的智能水平,理论上可以让语言模型超越人类水平的智能,成为创造者。

这篇论文中概述了自我推理的原理,最开始使用少量样本提示作为示例,模型自行生成推理,最后通过微调产生正确答案的推理来进一步完善模型的能力。

研究人员层层深入这一过程,每次都使用改进的模型产生下一个训练集。这是一个协同过程,推理生成的改进会改善训练数据,从而进一步改善推理能力。

但是这个循环无法解决训练集的新问题,因为它回答错的问题的时候得不到直接有效的提示。

他们为此提出了推理化(rationalization):通过为回答错的问题提示正确答案来生成新的推理。此举称为反向推理(reason backward)——正确的答案使得模型轻松地生成可用的推理。然后这些推理被收集整合作为训练数据的一部分,从而提高整体准确性。

什么东西可以带着小狗?答案是B,篮子。答案必须是可以用来带小狗的东西。篮子是用来装东西的。因此,答案是篮子

上图为STaR概述和 CommonsenseQA上STaR 生成的推理。虚线表示微调(Finetune)外循环。问题和基本事实答案预计会出现在数据集中,而推理是用STaR产生。

他们又在今年5月发布了Quiet-STaR,做出了改进。

不同于STaR,Quiet-STaR直接在内部产生基本推理或想法,控制单个token推理与预测结合在一起,增强了理解和响应结果。通过强化学习进行优化,模型产生更强的推理能力以预测之后的结果,不需要特殊调整和干预。

也就是说Quiet-STaR可以让语言模型去通过内部推理进行思考。

它解决了三个主要难题:生成文本的高计算成本、引导LLM如何生成和使用内部想法以及预测将要产生的结果以外的内容。

Quiet-STaR使用了控制特殊token的新采样算法,模型在推理过程中可以自主学习和决定「开始思考」和「结束思考」。

上图概括了算法在训练过程中单个想法的过程。根据文本文题所有tokens并行生成想法(思考)。模型产生的下一个tokens预测想法走向(谈话)。REINFORCE有助于模型预测未来文本的想法走向,同时舍弃可能性较低的想法(学习)。

这是一个多重预测的训练,模型通过目前的推理来产生多个可能性预测之后的推理走向,产生更合理可靠的推理结果。

上图的x轴表示训练步骤,y轴表示零样本准确率(直接),不同颜色的线代表Quiet-STaR的使用程度。可以很直观地看到,GSM8K和CommonsenseQA最初准确率是5.9%和36.3。其中Quiet-STaR使用程度越高,准确率越高,最高分别达到10.9%和47.2%。