导语
大语言模型已成为人工智能发展的重要里程碑。既有的规模法则表明,随着模型规模的扩大,LLM的性能会持续提升,但这也对训练与部署带来显著挑战。尽管业界不断尝试提升模型效率,却仍缺乏关于不同规模LLM的效率发展趋势与评价体系的统一共识。为解决性能与效率之间的张力,本文提出“能力密度”这一概念,用以衡量模型在单位参数上所体现的有效能力,从而在性能与效率两个维度上提供统一的评价框架。我们进一步给出一项经验性发现,即“密度定律”:LLM的能力密度随时间呈指数增长。基于多个主流基准的评估结果显示,开源LLM的最大能力密度大约每3.5个月翻倍。这意味着,实现同等性能所需的参数规模与推理成本均在指数下降,为高效LLM的开发策略提供了新的启示。
关键词:大语言模型(LLMs)、规模法则(Scaling Law)、能力密度(Capability Density)、密度定律(Densing Law)、效率评估(Efficiency Evaluation)
郑鸿盛丨作者
赵思怡丨审校
论文题目:Densing law of LLMs 论文链接:https://www.nature.com/articles/s42256-025-01137-0 发表时间:2025年11月6日 论文来源:Nature Machine Intelligence
能力密度的指数跃迁,
正在悄悄改变 AI 的未来
近两年,大模型的突飞猛进让人切身感受到“技术狂飙”,然而一个更耐人寻味的现象也随之浮现:模型能力不断提高,推理成本却在飞速下降;小模型越来越频繁地逼近甚至超越大模型;而“继续堆参数”似乎不再是性能提升的唯一途径。2025年11月6日发表于Nature Machine Intelligence 的论文《Densing Law of LLMs》给出了一种颠覆性的解释——大模型正在从拼“规模”转向拼“密度”。研究发现,LLM的“能力密度”(capability density)正以指数速度增长,约每3.5个月翻一倍,这意味着达到同等性能所需的参数量大幅减少,推理成本呈指数级下降,端侧智能(在手机、PC等本地设备运行大模型)将比预期更早成熟。这不是简单的性能提升,而是一场关于效率的革命。让我们从这篇可能深刻影响未来五年的论文开始,重新理解大模型的进化方向。
过去衡量模型能力,业界普遍遵循“参数越大,性能越强”的直觉,但随着大量开源模型的涌现,这一直觉逻辑开始失灵,出现7B模型逼近甚至匹敌70B模型,4B模型在部分任务上超过13B模型,手机端模型也逐渐具备ChatGPT3.5的水平,而训练数据质量与训练策略的重要性日益凸显。这些现象共同指向一个事实——参数量已无法充分解释模型能力的差异,规模不再等同于质量。因此,真正需要关注的已不再是“模型有多大”,而是“模型的效率有多高”。
什么是“能力密度”?简单来说,它衡量的是模型“每个参数的含金量”。其定义为:能力密度 = 模型的有效能力 ÷ 实际参数量。这里的“有效能力”并非模型自身的参数规模,而是一个反推值:如果某模型达到特定性能,那么一套参考模型需要多少参数才能取得相同表现,这个等效参数量记为 N̂(此处的参考模型为研究者自建的一系列不同参数规模、结构一致、训练流程一致的小参数规模模型)。于是能力密度可写为 ρ = N̂ / N,用来刻画模型训练得是否“紧实”。例如,一个3B模型若达到参考模型6B的能力,则密度 ρ = 6 / 3 = 2,代表其单位参数效率极高;反之,若一个7B模型只能达到参考模型3B的水平,则 ρ < 1,说明其参数利用率偏低。本质上,能力密度回答的就是那一句:模型的每个参数到底“值不值钱”?
密度定律:能力密度正以指数方式增长
本研究中最重要的发现之一,是大模型的能力密度随时间呈现稳定的指数增长趋势。研究者选取五十余个近年来发布的开源基础模型,覆盖多个系列(如 Llama、Mistral、Gemma、Phi、DeepSeek、MiniCPM 等),并在多个主流基准(MMLU、BBH、MATH、HumanEval、MBPP)上进行统一评估。结果显示,模型的最大能力密度大约每 3.5 个月翻一倍,这一趋势在不同任务和不同模型之间都十分一致。
图 1|近年来开源大模型的能力密度趋势。每个点代表一个模型,圆点越大参数量越大。从图中可以看到,随着时间推移,能力密度的上界呈现清晰的指数增长。
这一指数增长趋势意味着:未来达到相同性能所需的参数量将持续减少。换言之,人们惯常认为的“大模型能力强、但成本高”的认知,将在未来不断被弱化。更令人兴奋的是,这种指数增长在新模型中体现得更为突出,特别是数据质量、训练策略更为精细的小模型,往往展现出远超其规模的能力密度。
能力密度提升的一个自然结果,是实现相同性能所需的实际参数量不断减少。与此同时,推理成本也正在以类似的指数速度下降。文章对多个高性能模型的API调用价格进行了整理,并展示了一个同样令人惊讶的趋势:模型的推理价格大约每2.6个月减半。2022 年 GPT-3.5 的价格约为每百万token需要20美元,而到了 2024 年,Gemini Flash的推理价格仅为0.075美元,相当于下降了超过260倍。
图 2|近年来几个主流语言模型的推理价格变化。性能优于 GPT-3.5 的大语言模型(LLMs)的应用程序接口(API)定价。线条连接各时间点定价最低的模型,最便宜模型的API定价呈指数下降。
推理成本的下降不仅来自模型能力密度的提升,也来自底层推理技术的优化,例如 FlashAttention、PagedAttention、量化推理格式、稀疏激活架构等。随着模型本身越来越“紧实”,推理成本的下降幅度也将持续扩大。
当密度定律遇上 Moore 定律:
端侧智能将提前爆发
当能力密度的指数增长与硬件性能的指数增长叠加时,一个更加激进的趋势会出现。过去数十年里,硬件晶体管密度大约每两年翻一倍;如今,大模型的能力密度每3.5个月翻一倍。两者的乘积效果意味着:在固定价格的硬件上,能够运行的“有效模型规模”约每88天翻一倍。
这预示着什么?预示着过去需要云端大模型才能实现的能力,未来将能在手机、电脑、平板等设备上高效运行。端侧 AI 的普及速度可能远超过我们目前的想象,隐私计算、低成本部署、离线大模型应用将因此迎来爆发式发展。
图 3|大模型的高性能正向小规模模型迁移,同时端侧可运行模型的能力快速提升(图片源于网络)。红色虚线区域代表接近GPT-4V水平的模型带宽,随着时间推移,越来越小的模型逐渐逼近这一性能区间;下方蓝色虚线趋势线展示了能够在端侧设备运行的模型能力不断上升。
高密度模型不是“压”出来的,而是“练”出来的
在参数规模快速被重新评估的背景下,一个看似合理的猜想是:既然参数越少越高效,那么剪枝、蒸馏、量化等模型压缩技术应该更容易得到高能力密度的小模型。但论文的实验结果却指向相反方向——压缩后的模型能力密度整体上并不比原模型高,甚至往往更低。其根本原因在于,压缩过程虽然减少了模型的实际参数量,却没有让模型获得足够的再训练,从而无法让这些“更轻”的参数真正承担起更高的能力负载。尤其是量化,虽然降低了内存和推理成本,但不可避免地带来一定的性能损失。因此,真正高密度的小模型,并不是“从大模型压缩而来”,而是“从一开始就为高密度而训练”的结果。
能力密度之所以能够持续提升,主要源于三方面的共同推动。首先,训练数据的规模与质量显著提高。以Llama系列为例,Llama-3 所使用的15万亿token数据不仅规模远超Llama-1的1.4万亿token,且在清洗与筛选流程上更加精细,这使模型能够在同样结构下学习到更丰富、更可靠的知识。其次,模型结构日益高效。以稀疏专家模型(MoE)为代表的新架构,使模型在推理时仅激活部分专家,从而以更低的计算量获得更强的表达能力,大幅提高“参数的利用率”。最后,训练算法不断演进。无论是将强化学习前移到预训练阶段,还是利用高质量的合成数据和“弱到强”(weak-to-strong)训练策略,这些方法都让模型能够在固定参数量下挖掘出更高的能力上限。这些因素共同作用,使得模型在“单位参数上可以学习到更多能力”,从而推动能力密度不断攀升。
当然,谨慎来说能力密度的增长不可能无限持续。信息论告诉我们,每个参数能够存储的信息量是有限的,模型参数的表达能力也有理论上界。随着模型的训练方式、数据质量和结构不断提升,能力密度的增长最终将遇到瓶颈。届时,如果要继续突破当前框架的限制,可能需要依赖全新的技术范式,例如量子计算、类脑计算或其他尚未成熟的计算架构。尽管如此,在可预见的未来几年中,能力密度仍会保持高速增长,模型变“密”的趋势不会减弱。
密度定律不仅是一个科学观察,更是一个具有产业指导意义的趋势。对于模型研发而言,它提示我们,未来的竞争不再是单纯扩大参数规模,而是追求“更高密度”的训练方法与更高质量的数据;对于企业而言,可以据此预测未来模型成本的下降趋势,从而更合理安排AI投入;对于硬件和应用产业,则意味着端侧智能将迎来快速扩张,本地运行大模型将从技术挑战变成新常态。
从“大”到“密”,AI 的进化正在加速重写
《Densing Law of LLMs》揭示的,是一种隐藏在大模型演化背后的“效率革命”。在这个新的发展阶段,模型不再依赖“堆大”,而是通过更智能的训练、更优的数据、更精细的结构获得更高的效率。能力密度的指数提升让我们看到:未来的大模型既可能更强,也可能更轻、更快、更便宜,甚至随时运行在每个人的口袋里。
我们正在见证语言模型从“规模时代”迈向“密度时代”,而这一转变,或许将深刻改变未来五年乃至整个AI产业的面貌。
大模型2.0读书会
o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。读书会已完结,现在报名可加入社群并解锁回放视频权限。
详情请见:
1.
2.
3.
4.
5.
6.
7.
热门跟贴