刚刚，开源大模型的新王诞生了：超越GPT-4o，模型还能自动纠错|gpt-4|reflection|大模型

机器之心报道

编辑：佳琪、蛋酱

快速更迭的开源大模型领域，又出现了新王：Reflection 70B。

横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。

这个新模型 Reflection 70B，来自 AI 写作初创公司 HyperWrite。

HyperWrite 公司的 CEO Matt Shumer 表示，Reflection-70B 现在是「世界上最顶级的开源 AI 模型」。

Reflection 70B 的底层模型建立在 Meta 的 Llama 3.1 70B Instruct 上，并使用原始的 Llama chat 格式，确保了与现有工具和 pipeline 的兼容性。

Reflection 70B 已在多个基准测试中经过严格测试，包括 MMLU 和 HumanEval。测试结果表明， Reflection 的表现始终优于 Meta 的 Llama 系列，并与 GPT-4o 等全球顶尖的商用模型展开了激烈竞争。

其中，它在 GSM8K 的得分甚至达到了 99.2%。要知道，GSM8k 中可能有有超过 1% 的被标为正确的答案实际上有错，也就是说，Reflection 70B 的得分几乎与满分无异。

值得注意的还有 Reflection 70B 的零样本推理能力。面对从未接触过的内容，Reflection 70B 的表现超越了 Claude 3.5、Gemini 1.5 以及 Llama 405 在五次样本测试中的得分。

Reflection 70B 特别适用于需要高精度的任务，它将推理分为不同的步骤以提高精度。该模型可通过 Hugging Face 下载，API 访问将于今天晚些时候通过 GPU 服务提供商 Hyperbolic Labs 提供。

Hugging Face：https://huggingface.co/mattshumer/Reflection-70B
试用网址：https://reflection-playground-production.up.railway.app/

假设训练有素

模型自动纠错

在通用能力之外，Reflection 70B 的亮点还包括「错误识别」和「错误纠正」。

一种名为「Reflection-Tuning」的技术，使得模型能够在最终确定回复之前，先检测自身推理的错误并纠正。

Reflection 70B 引入了几个用于推理和纠错的特殊 token，使用户能够以更结构化的方式与模型交互。在推理过程中，模型会在特殊标签内输出其推理，以便在检测到错误时进行实时纠正。

Playground 演示网站包含供用户使用的建议提示词，比如那些很经典的例子：询问 Reflection 70B 单词「Strawberry」中有多少个「r」，以及哪个数字更大（9.11 还是 9.9），这两个简单的问题曾经难倒过很多大模型。

Reflection 70B 在测试中显得有些迟缓，但最终 60 多秒后给出了正确的答案。

Reflection 70B 的发布只是 Reflection 系列的开端。与此同时，Reflection 405B 也在推出的路上了，预计下周上市。Shumer 表示，它的性能将远远超过目前的专有或闭源 LLM，例如目前全球领先的 OpenAI 的 GPT-4o。

Shumer 宣布，HyperWrite 正致力于将 Reflection 70B 模型集成到其主要的 AI 写作助手产品中。

Reflection 405B 有望超越当今市场上最顶尖的闭源模型。HyperWrite 将发布一份报告，详细介绍训练过程和基准，以及 Reflection 模型背后的创新之处。

两个人在几周内完成

归功于 Glaive 的合成数据

Shumer 表示完成 Reflection 70B 只花了三周，团队只有他和另一位 AI 创业公司的创始人 Sahil Chaudhary 两个人。

在这么短的时间内做出效果如此好的模型，Shumer 称，都要拜 Sahil 的公司 Glaive 所赐。Glaive 是一家专门为特定需求构建数据集的初创公司。Shumer 在 X 平台上反复 que 这一点：「联系了 Sahil 之后，训练数据几小时内就生成好了。」他还亲自站台安利：「如果你在训练 AI 模型，一定要试试 Glaive 提供的服务。」

Glaive 专注于解决 AI 开发中最大的瓶颈之一：高质量、任务特定数据的可用性。在去年获得了一轮 350 万美元的种子轮融资。

Sahil Chaudhary

小型、更专业化的语言模型在使用 Glaive 提供的服务后，能够更快地完成训练。已经有一些小模型使用该公司已经证明了 Glaive 的能力，例如一个 3B 参数模型在 HumanEval 等任务上的表现超过了许多参数规模更大的开源模型。

火得措手不及

GPU 不够用了

Reflection 70B 一经发布，就火了，跑去试用的人太多，模型已经反应不过来了。

本来可以在线试用 Reflection 70B，但现在和它聊天反应很慢。

但是根据手快的网友发来的测评，Reflection 70B 也确实没辜负六个基础测试集里有四个都打败了 Claude 3.5 Sonnet 的战绩。

比如，它是首个能想明白这道缠绕不清的逻辑题的大模型。

提示词：有人在某地杀了 Agatha。Agatha、管家和 Charles 住在此地，并且是那里唯一的居民。杀手恨他的目标，并且比受害者穷。Charles 不恨 Agatha 恨的任何人。Agatha 除了管家之外恨所有人。管家恨所有不如 Aunt Agatha 富有的人。管家恨所有 Agatha 恨的人。没有人恨所有人。谁杀了 Agatha？

向它提问：「柏林的魏森湖地区当地人通常在哪里聚会？当地有哪些景点？」。对于这些本地人才知道的答案，其他模型虽然也能给出一些正确的回复，但是总会冒出一些在柏林之外的地点。Reflection 70B 是第一个能正确地说出主要地点，并且没有幻觉的模型。

Reflection-70B 的编码能力也得到了认证。有网友在 ProLLM 的编码辅助任务中对 Reflection-70B 进行了基准测试。它确实是最好的开源模型之一，击败了 Llama-3.1 405B。

不过，爆火的同时，由于 Reflection 70B 的底层模型采用了 Meta 的 Llama 3.1 70B Instruct，这也引发了一些争议。

有网友认为：「Reflection 70B 只是一种元提示（Meta-Prompting）的进步，似乎不能算是一种创新。」

但也有人对此提出反对，认为「利用思维链和让大模型说出自己的工作流程」这种方法能让大模型更好地模拟人类思考的过程。

「万一 Shumer 的方法 Reflection-tuning，就是 OpenAI 的 Strawberry 的方法呢？」

团队介绍

乍一看，Reflection 70B 似乎是横空出世，HyperWrite 的知名度并不高。但其实 Shumer 已是 AI 领域的创业老将了：2020 年，他与就 Jason Kuperberg 共同创立了 Otherside AI。

从左至右分别为 Otherside AI 的联合创始人：Matt Shumer, Miles Feldstein 与 Jason Kuperberg。

Otherside AI 凭借其当家产品 HyperWrite 收获了一波流量。HyperWrite 最初是一款根据要点撰写邮件和消息的 Chrome 插件。后来，它的功能越来越强大，拓展出了起草文章、总结文本等功能。截至 2023 年 11 月，HyperWrite 拥有两百万用户。随着两位联合创始人登上了福布斯年度「30 岁以下精英」榜单，Otherside AI 也正式更名为 HyperWrite。

在最新一轮融资中， HyperWrite 获得了 280 万美元的投资。在这笔资金的加持下，HyperWrite 引入了 AI 驱动功能，升级成了可以从网页浏览器自动完成预定航班、在 LinkedIn 上筛简历的智能管家。