Anthropic联创：Scaling Law没崩，但推理成天价！有了TTT，25年AI更加速

新智元

2024-12-26 15:05 ·北京

新智元报道

编辑：编辑部 Zjh

【新智元导读】Anthropic联创发文表示，谁要是说Scaling Law撞墙了，那他绝对错了！在25年，AI靠测试时计算还会继续加速。不过，随之而来的推理成本也是天价，o3的每个任务成本高达20美元，怎么办？

Scaling Law要撞墙了？

Anthropic联创Jack Clark反驳了这一说法：绝非如此！

在他看来，目前的AI发展还远远没到极限，「所有告诉你AI进展正在放缓，或者Scaling Law正在撞墙的人，都是错误的。」

o3仍有很大的增长空间，但采用了不同的方法。

OpenAI的技术秘诀并不是让模型变得更大，而是让它们在运行时，使用强化学习和额外的计算能力。

这种「大声思考」的能力，为Scaling开辟了全新的可能性。

而Jack Clark预计，这一趋势在2025年还会加速，届时，科技公司都会开始将大模型的传统方法跟在训练和推理时使用计算的新方法相结合。

这个论断，跟OpenAI首次推出o系列模型时的说法完全吻合了。

在同一时间，MIT的研究者也发现，采用测试时训练（TTT）技术，能显著提高LLM进行逻辑推理和解决问题的能力。

论文地址：https://ekinakyurek.github.io/papers/ttt.pdf

Scaling Law撞墙，绝对错了

在他的新闻通讯《Import AI》中，Clark对关于AI发展已到达瓶颈的观点进行了反驳。

博文地址：https://jack-clark.net/

比如OpenAI的o3模型，就证明了AI极大的发展空间。

在现有强大基础模型之上，采用一种新方法——让大语言模型在推理时「边思考边执行」，即测试时计算（test-time compute）。这种方式能带来巨大的回报。

因此Clark预计，下一个合理的发展方向将是同时扩展强化学习（RL）和底层基础模型，这将带来更为显著的性能提升。

这意味着，随着现有方法（大模型scaling）与新方法（强化学习驱动的测试时计算等）的结合，2025年的AI进展相对2024年会进一步加速。

OpenAI著名研究员Jason Wei也表示，更加关键的是，从o1到o3的进步也仅仅只用了3个月，这说明了在推动人工智能领域发展方面来讲，强化学习驱动的推理扩展计算范式，会比预训练基础模型的传统扩展范式快得多。

这并非空谈，Clark列举了不少o3的亮眼成绩来证明他的观点。

首先，o3有效突破了「GPQA」科学理解基准（88%），这彰显了它在科学领域进行常识推理和解答的能力。

它在「ARC-AGI」这一任务上的表现优于亚马逊众包平台（MTurk）雇佣的人类工作者。

甚至，o3在FrontierMath上达到了25%的成绩——这是一个由菲尔兹奖得主设计的数学测试，就在几个月前，SOTA的成绩仅为2%。

并且，在Codeforces上，o3获得了2727分，排名第175。这让它成为这一极其困难基准上的最佳竞技程序员之一。

模型成本将更难预测

Clark认为，大多数人还没有意识到未来进展的速度将会有多快。

「我认为，基本上没有人预见到——从现在开始，AI进展将会有多么急剧。」

同时，他也指出，算力成本是急速进展中的一个主要挑战。

o3之所以如此优秀，其中的一个原因是，它在推理时的运行成本更高。

o3的最先进版本需要的算力比基础版多170倍，而基础版的算力需求已经超出了o1的需求，而o1本身所需的算力又超过了GPT-4。

o系列模型的性能与成本

Clark解释说，这些基于推理扩展范式的新模型使得成本预测变得更加困难。

过去，模型的成本费用是很直观的，主要取决于模型的大小和输出长度。

但在o3这类模型中，由于其资源需求会根据具体任务的不同而变化，所以也更难直观地给出模型执行任务时的花费。

o3推理成本达新高

除了FrontierMath和Codeforces上的成绩，o3在GPT Diamond Benchmar上，对于博士级的科学问题也拿到了87.7%，远高于各自领域博士专家70%的平均分。

ARC-AGI基准测试开发者、Keras之父François Chollet，将o3的性能称为「AI能力中令人惊讶且重要的阶跃函数增长」

而这背后付出的代价，就是运行o3极高的成本。

之所以会造成如此高的成本，就是源于o3和其他模型处理问题方式的不同。

传统的LLM主要依靠的是检索存储模式，但o3处理问题时，却是靠实时创建新程序，来解决不熟悉的挑战。

Chollet表示，o3系统的工作原理，似乎和谷歌DeepMind的AlphaZero国际象棋程序类似。后者会有条不紊地搜索可能的解决方案，直到找到正确方法。

这个过程也就解释了，为什么o3需要如此多的算力——只为单个任务，模型就需要处理多达3300万个token。

跟当前的AI系统相比，这种密集的token处理成本，简直是天价！

高强度推理版本的每个任务，运行费用约为20美元。

也就是说，100个测试任务的成本为2012美元，全套400个公共任务的成本则达到了6677美元（按平均每个任务花费17美元计算）。

而对于低强度推理版本，OpenAI尚未透露确切的成本，但测试显示，此模型可以处理33至1.11亿个token，每个任务需要约1.3分钟的计算时间。

o3在ARC-AGI基准测试中必须解决的视觉逻辑问题示例

等待Anthropic的下一步

所以，Anthropic下一步会给我们带来什么呢？

目前，由于Anthropic尚未发布推理模型（reasoning model）或测试时模型（test-time model），来与OpenAI的o系列或Google的Gemini Flash Thinking竞争，Clark的这一番预测，不禁让人好奇Anthropic的计划。

他们之前宣布的Opus 3.5旗舰模型至今仍没有确切消息。

开发周期长达一个月，过程充满不确定性

在11月，Anthropic CEO Dario Amodei曾证实，公司正在开发Claude Opus的新版本。

起初，Opus 3.5定于今年发布，但后来Amodei再提到它时，只是说它会在「某个时刻」到来。

不过Amodei倒是透露，公司最近更新和发布的Haiku 3.5，性能已经跟原始的Opus 3相匹敌，同时运行速度还更快，成本也更低。

其实，这也不仅仅是Anthropic面临的问题。

自GPT-4亮相以来，LLM的功能并没有取得重大飞跃，这种停滞已经成为AI行业内一种普遍的广泛趋势。

更多时候，新发布的模型只是微小的进步，跟之前有一些细微的差别。

开发更先进的LLM，为何如此复杂

在Lex Fridman的播客访问中，Amodei详细讲述了开发这些AI模型的复杂性。

他表示，仅训练阶段，就有可能会拖延数个月，还会需要大量的计算能力，用上数以万计的专用芯片，如GPU或TPU。

预训练过后，模型将经历复杂的微调的过程，一个关键部分就是RLHF。

人类专家会煞费苦心地审查模型的输出，根据不同标准对其进行评分，帮助模型学习和改进。

接下来，就是一系列内部测试和外部审计，来检查模型的安全问题，通常是与美国和英国的AI安全组织合作。

总之，Amodei总结道：虽然AI的突破在圈外人士看来，像一个巨大的科学飞跃，但其实很多进步都可以归结为枯燥和无聊的技术细节。

在此过程中，最困难的部分通常是软件开发、让模型运行得更快，而不是重大的概念进步。

而且，每个新版本模型的「智能」和「个性」，也都会发生不可预测的变化。在他看来，正确训练模型与其说是一门科学，不如说是一门艺术。

即使真正发布的Opus 3.5的性能有了提升，却也不足以证明其高昂的运营成本是合理的。

不过，虽然有人认为Anthropic没有紧跟推理模型的步伐，已经足以反映LLM扩展的巨大挑战；但不得不说，Opus 3.5也并非毫无意义。

显然，它帮助训练了全新的Sonnet 3.5，它已经成为了当今市场上最受欢迎的LLM。

参考资料：

https://the-decoder.com/ai-progress-in-2025-will-be-even-more-dramatic-says-anthropic-co-founder/

https://jack-clark.net/2024/12/23/import-ai-395-ai-and-energy-demand-distributed-training-via-demo-and-phi-4/

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴