近期,DeepTech 密集报道了一系列 AI 在具体场景中落地的新突破。在曼哈顿,一位耶鲁毕业的律师借助 Claude,仅用两小时便完成了传统中型律所团队通宵才能交付的并购提案;一位从未写过代码的管道工程师利用 AI 工具分析诊断数据,在几分钟内锁定了复杂管道网络的故障源,而过去这通常需要高级工程师上门勘测数日;与此同时,开源 AI 智能体项目 OpenClaw 继续以“人类历史上增长最快的开源项目”之势席卷全球,帮助不同行业的从业者实现了更复杂的 Agent 功能。
这些故事的共同点显而易见:AI 正在抹平团队与个体之间的产能鸿沟,“一人公司”(One Person Company)不再是愿景,而是触手可及的现实。
然而,几乎每一条案例的评论区,都出现了同一种声音:“他们做到这些究竟烧掉了多少 token?”
是的,效率的跃升并非毫无代价。作为大语言模型处理信息的最小单位,AI 在具体场景中施展拳脚,离不开海量 token 的消耗。陶哲轩在用 AI 辅助破解数学难题时,首次尝试便因消耗过量 Token 导致本地算力崩溃;据报道,OpenAI 工程师团队一周处理的 token 量高达 2,100 亿,相当于复写 33 遍维基百科;而一些 OpenClaw 的重度用户晒出的算力账单更是惊人,月支出从数千美元到数万美元不等。
与此同时,企业界也开始重新审视 token 的稀缺性与战略价值。黄仁勋在近期 GTC 大会上提出了“token 经济学”的概念,他认为数据中心正在演变为生产 token 的“AI 工厂”,token 需要根据相应的标准进行分层定价供给。同时,token 将成为继工资、奖金、期权之后的“第四种薪酬”。在硅谷,工程师的身价评估体系也正在被呼吁重构,其中一项重要标准就是看他能高效调用多少 token。
token,这个曾经位于技术文档底部的计量单位,正在跃升为 AI 时代的新货币。它既是生产力的燃料,也是稀缺资源的象征;它既是个体实现能力跃迁的杠杆,也可能成为新的数字鸿沟。
为了更深入地解读 token 在 AI 时代的全新意义,我们邀请了上海交通大学副教授、无问芯穹联合创始人戴国浩进行了一次深度对话。他长期致力于稀疏计算与软硬件协同设计方向,研究内容包括结构化稀疏方法、动态编译策略与细粒度并行架构,从而在有限硬件条件下提升算力表现。戴国浩也是 2024 年《麻省理工科技评论》“35 岁以下科技创新 35 人”中国入选者。
我们围绕 token 从技术参数向经济变量转化的内在逻辑、底层算力效率的优化路径,也对在个人层面如何更高效地使用 token 展开了讨论。
以下是对话内容:
DeepTech:token 作为一个概念,过去几年主要出现在技术讨论中,例如推理成本、模型定价。但最近它开始出现在薪酬谈判和企业预算里。在你看来,token 从一个技术参数变成一个经济变量,这个转变的背后发生了什么?
戴国浩:我认为最根本的原因在于模型的智能化水平已经达到了“可用”的阶段。
如果以 2022 年底 ChatGPT 的发布为起点,到现在大约三年多时间。当时的模型更多还是一个对话系统,虽然具备一定的智能,可以进行自然语言交互,但很难真正嵌入到生产流程中,也无法直接转化为生产力。
而现在,一个关键变化在于模型已经具备完成实际任务的能力。也就是说,当用户获得一定的 token 配额后,不再只是与模型进行对话,而是可以通过模型完成具体工作。这种能力的转变,使得 token 不再只是一个技术层面的计量单位,而是成为可以直接对应生产结果的资源。
因此,token 从技术参数演变为经济变量,本质上是由模型能力和整体智能水平的提升所驱动的。
DeepTech:从理论上看,模型能力的提升通常会带来单位 token 成本的下降。但在现实中,我们看到不少云厂商选择上调价格。同时,随着像 OpenClaw 这类智能体应用的兴起,越来越多用户开始感受到高额 token 消耗所带来的成本压力。
你如何看待这种看似矛盾的现象?其背后是供需关系的变化,还是推理成本结构发生了改变,或是其他因素在起作用?
戴国浩:我刚才提到模型能力的提升,这实际上意味着“单个 token 的能力”在增强。
如果从经济角度来理解,可以将其放入一个更完整的价值转化链条中来看。之所以很多人将 AI 视为“第四次工业革命”,本质上是因为每一次工业革命,都是通过某种关键技术,创造出新的生产力形式。而所有生产力的核心,都是将输入价值转化为输出价值。
在传统工业体系中,例如蒸汽机或发电机,提供的是动力或电力,用于将原始物料加工为具有经济价值的产品。而在这一轮 AI 变革中,模型能力的提升,使其本身也成为一种新的价值转换机制。
如果将这一过程拆解,可以得到一个相对清晰的链条:
输入价值→①→电能→②→token→③→生产力→④→输出价值
其中①是供电体系,②是芯片和系统,③是模型和算法,④是社会评价体系
输入价值首先是转化为电能,然后电能通过芯片与计算系统转化为算力,算力进一步转化为 token,最后 token 再通过模型转化为生产力;最终,这些生产力通过社会评价体系(例如代码、文本内容等)被赋予具体的经济价值。
在这个链条中,token 是一个关键中间环节。随着模型能力的提升,“token 到生产力”的转化效率显著提高。换句话说,每一个 token 所能承载和释放的价值变得更高。
这也解释了为什么 token 会具备经济属性。可以类比为企业为员工配备工具:之所以配备计算机,是因为它能够提升生产力,而不是提供一个没有实际用途的工具。同理,当 token 能够直接驱动生产时,它自然会被纳入经济体系。
另一方面,“成本下降”更多发生在“电能到 token”的阶段,也就是算力效率的提升,例如硬件优化或系统效率提升。而“token 到生产力”的价值转化,则属于链条中的另一环节。
在模型尚不可用的阶段,由于后端价值有限,企业往往需要通过低价甚至补贴来推动使用,包括大规模铺量或持续优化成本结构。但当模型能力提升、后端价值显著提高后,整个逻辑会从“推广驱动”转向“市场化驱动”。
在这种情况下,企业需要重新平衡成本与收益,即使技术仍在持续优化、推理效率不断提升,价格上调也是市场化过程中的自然结果。因此,这种“成本下降但价格上升”的现象并不矛盾。本质上,一方面是底层技术效率在提升,另一方面是过去推广阶段所存在的成本缺口逐步被填补,最终形成一个可持续的商业闭环。
DeepTech:你的研究方向之一是稀疏注意力(sparse attention)等机制,这类方法会直接影响 token 的计算成本。如果沿着这一思路继续推演,未来模型是否有可能具备“自适应计算能力”,即自动判断哪些 token 需要精细计算,哪些可以简化甚至跳过?这种机制在多大程度上会影响推理成本?
戴国浩:从具体技术来看,这种趋势已经在发生,而且不仅限于稀疏注意力。
例如,稀疏专家(Mixture-of-Experts)、层级稀疏(layer skipping)、以及模型结构层面的多级配置(如投机解码、大小模型协同),本质上都可以归为“稀疏化”或“结构化”的探索。像 DeepSeek 等团队,已经在稀疏注意力等方向上进行了实践;同时,大规模模型(百亿甚至千亿参数级别)中,稀疏专家结构也已较为常见。此外,一些系统开始引入小模型与大模型协同,通过推测解码(speculative decoding)提升整体吞吐效率。
这些方法的共同点在于:通过结构设计,而非单纯增加参数规模,来提升计算效率与性能表现。
从更宏观的角度看,智能系统的发展,本质上是在不断逼近“最优结构”。在早期,由于对模型结构理解有限,采用稠密矩阵(dense architecture)是一种更直接、通用的表达方式,通过扩大数据和参数规模来获得性能提升。但随着理解的加深,结构性特征会逐渐显现。例如残差连接(residual connection)、卷积结构(convolution)等,都是在这一过程中被发现并固化下来的有效结构。
理论上,任何结构都可以用更大的稠密矩阵来近似表达,但在实际中,这样的模型往往难以收敛,同时计算效率极低,因此并不可行。
回到 token 这一中间环节,未来一个重要方向是对 token 进行更细粒度的计算分配。例如,在推理过程中,不同 token 的复杂度是不同的:一些 token 可能只需要较浅层的计算即可得到结果,但另一些则需要更深层、更复杂的计算路径。
因此,可以针对每个 token 动态分配计算资源,对其计算深度和计算量进行定制化设计。相比于“所有 token 都经过同样深度模型”的方式,这种方法能够在保证效果的同时显著降低整体计算开销。这也是为什么 token 在当前阶段不仅是计量单位,更是计算调度与资源分配的核心对象,它也将逐渐成为一种关键的生产要素。
DeepTech:如果进一步拆解 token 的成本结构,除了模型本身,还包括 KV Cache 的显存占用、带宽,以及芯片架构等因素。在这些层面中,你认为当前优化空间最大的是哪一部分?
戴国浩:可以用一个相对简化的模型来描述推理开销:
那就是时间 ≈ 计算量 ÷(算力 × 利用率)
或者从存储角度来看:
时间 ≈ 数据量 ÷(带宽 × 利用率)
在这个框架下,不同变量对应不同层面的参与者:
首先,计算量主要由模型设计决定,例如参数规模(3B、30B、300B 等);其次,算力取决于芯片能力,例如算力规模(TFLOPS 级别差异);最后,利用率则与软硬件协同优化密切相关。
此外,像 KV Cache 的显存占用、注意力计算开销等问题,本质上更多影响的是系统的带宽利用率与整体资源利用效率。芯片本身的能力则与其架构设计和制造工艺有关。
在这一建模框架下,可以看到不同优化方向的边界:
首先,单纯降低模型计算量的空间其实有限,因为模型发展的首要目标仍然是提升智能水平,这是一个基本前提。因此,在模型设计层面,压缩计算量并不是主要矛盾。相比之下,利用率的优化空间非常大。无论是算力利用率、带宽利用率,还是缓存命中率,都存在显著提升空间。
其次,芯片架构本身的设计也是一个重要方向。例如 英伟达黄仁勋 所提出的“AI Factory”理念,本质上是将芯片、系统软件以及电力供给等多个层面打通,进行整体协同优化。总体来看,未来推理成本下降,更依赖于:一个是各层级资源利用率的提升,另一个是芯片架构与系统设计的持续演进。
而这些优化的最终目标,都是为了支撑更大规模、更高智能水平的模型发展。
DeepTech:那么从当前阶段来看,性能优化的主要瓶颈更偏向算法侧,还是硬件侧?
戴国浩:我认为主要瓶颈仍然在硬件,以及硬件与算法的协同设计(co-design)。
算法的发展方向始终是探索更高水平的智能,这是不会改变的。但算法的迭代效率,很大程度上受限于硬件条件。例如,一个模型版本的迭代周期是一个月还是三个月,本质上取决于算力资源与系统效率。
因此,问题不仅在于是否存在更优的算法,还在于这些算法能否在现有硬件体系下高效实现。目前也有越来越多的团队在尝试算法与硬件的协同优化,但这一过程的效率,仍然受到硬件设计能力以及对硬件理解深度的制约。从这个角度来看,未来的关键竞争点,将越来越集中在软硬件一体化的协同设计能力上。
DeepTech:前段时间,黄仁勋在 GTC 大会上提出了一个颇具冲击力的观点:未来员工的 token 消耗量应当与薪酬成正比,可以将 token 使用量视为生产效率的一种指标。与此同时,硅谷也出现了一种被称为“tokenmaxxing”的现象:一些从业者会刻意提高 token 使用量,用不完甚至会产生焦虑。你如何看待这一观点?无论是企业还是个人,应该建立怎样的“token 观”?
戴国浩:我倾向于从辩证的角度来看。
首先,我可以理解他为什么会提出这样的观点。结合他所强调的 AI Factory,本质上是在将算力体系转化为“token 的生产系统”。在早期,当 AI 尚未形成完整的正向经济循环时,GPU 只是数据中心或算力基础设施中的一个组件,是供应链的一环。
但当 AI Factory 的概念成立之后,这套系统更像是一个“token 生产工厂”。如果进一步类比,可以将其视为一种“价值生成装置”。在一种极端设想下,如果 token 的消耗可以直接映射为经济回报,那么这套系统就具备类似“价值生成器”的属性。
另一方面,我认为这一观点也具备一定合理性。因为从工具属性来看,可以类比为早期的软件工程实践。例如在十年前,程序员的产出有时会通过代码量进行粗略衡量。代码量在某种程度上反映了工具使用的强度和产出规模。
在今天,token 消耗可以被理解为一种新的“工作投入度量”。你使用了多少 token,某种程度上意味着你调用了多少模型能力,完成了多少任务。因此,它与产出之间确实存在一定相关性。
但问题在于,这种关系并不是线性的,也不是稳定的。如果回到我们前面讨论的价值转化链条,token 只是其中的一个中间环节。“token 到生产力”的转化效率,取决于多个因素:例如使用的模型能力,模型之间的协同方式,token 的质量(例如 prompt 质量),或者是具体任务类型。
因此,我认同 token 消耗量与价值之间“存在相关性”,但更关键的是:如何使用 token。换句话说,高质量地使用 token(例如选择合适模型、设计有效结构),比单纯增加 token 消耗更重要。这可能才是未来个体需要重点关注的能力。
DeepTech:那是否有可能存在一个更合理的指标,而不是简单用 token 消耗量来衡量生产效率?
戴国浩:如果在理想情况下,“token 到生产力”的转化关系是标准化的,例如一个 token 可以稳定对应某种经济价值,那么确实可以直接用 token 消耗来衡量产出。
但现实中,这一环节并不稳定,尤其是在当前阶段。
对于一些高度标准化、确定性较强的行业(例如部分法律、会计等场景),随着工具成熟,未来可能逐步接近这种“线性映射”。在这种情况下,将 token 使用量与产出挂钩,是可以成立的。但对于更具创造性的工作,这种关系往往是非线性的。例如,有的人可能只使用较少的 token,就能产生更高价值的结果;而另一些人即使消耗更多 token,产出价值却未必更高。
在这种情况下,更合理的评价方式,应该是将token 使用量”与“最终产出价值”进行联合评估。从资源配置角度看,我们更应该鼓励的是:用更少的 token 产生更高的价值。这也可以理解为一种更正确的 token 观。
DeepTech:在最近的趋势中,我们发现了许多使用者尤其关注一个问题:在实际使用大模型时,如何更高效、更具性价比地使用 token?你作为专业的从业人员,在日常使用中,有没有一些经过验证的方法或经验,比如在 prompt 设计、任务拆解、模型选择等方面?
戴国浩:这三个方面,其实都非常关键。
可以用一个类比来理解:在传统的软件团队中,通常会有架构师和程序员的分工。程序员负责具体实现,而架构师负责整体设计,包括任务拆解、模块划分以及协作方式。
从当前大模型的能力来看,它已经可以高效完成很多“程序员层面”的执行工作,这一点并不困难。真正的挑战在于更上层的结构设计。具体来说,可以对应三个关键环节:
第一是任务拆解。需要将一个复杂问题分解为多个子任务,并明确各自的边界与目标。第二是 prompt 设计。本质上是对任务目标的精确表达,相当于对执行单元的“指令定义”。第三是模型选择与调度。即让“合适的模型做合适的事情”,例如简单任务可以交给轻量模型处理,复杂任务再调用更强的模型。这三个环节,实际上构成了一个完整的“结构设计过程”。
此外,还有一个容易被忽视的点:人类输入的 token 往往更高效。在一些推理型模型中(例如带有长链路思考过程的模型),模型在内部会生成大量中间推理步骤,这些过程本身会消耗大量 token。而人类可以在前置阶段,通过更清晰的任务定义,减少模型不必要的探索路径,从而降低整体开销。
结合这些经验,我个人的使用方式是:先尽可能在前期将 prompt 定义得清晰、具体;然后,对任务进行结构化拆解;最后,在不同复杂度任务之间,灵活选择模型(包括开源模型与高性能闭源模型的组合使用)。
从长期来看,这也意味着一个能力转变。以程序员为例,需要逐渐从单纯的“编码者(coder)”,转向“系统架构设计者(architect)”。只有在更高层面进行结构设计,才能真正提升整体效率。
DeepTech:黄仁勋在会上还提出了 token 的分层定价策略,沿着"模型智能程度 × 生成速度 × 上下文长度"三个维度来定价,形成从免费层到高速层 $150/百万 token 的供给体系。在这方面,一些国内公司已经相继响应。你认为这一框架对产业格局会产生怎样的深层影响?它是否会加速大模型市场的两极分化?
戴国浩:刚才你提到的几个关键变量,包括模型智能水平、生成速度和上下文长度,其实可以归为两类,并分别对应我们之前讨论的价值转化链条中的不同环节。
其中,生成速度和上下文长度,主要影响“算力到 token”的转化效率。这一部分与计算能力和存储能力密切相关:上下文长度更多涉及存储与带宽,生成速度主要与计算能力相关,同时也受到访存效率的影响。
模型的智能水平,则对应“token 到生产力”的转化效率。
从这个角度看,这三个变量实际上构成了整个价值链条中的关键维度。因此,将 token 按不同能力层级进行划分,本身是有内在合理性的。
进一步来说,不同行业、不同任务,对 token 的“价值密度”要求是不同的。高质量 token(例如由更强模型生成)在某些场景中能够产生更高价值,因此在定价上进行分层,是符合基本经济逻辑的。
至于具体的定价策略,我并不是这方面的专家,但从一般规律来看,一个比较普遍的现象是:价值越高的产品,其“性价比”往往反而越低。
这一点在很多行业中都存在。例如汽车、手机等领域,高端产品通常在绝对性能上更强,但单位性能的价格也更高。这样的结构并不会导致行业失衡,反而使不同需求的用户,都可以在同一价值链中找到适合自己的选择。
如果将 AI 视为一种逐渐成熟的“商品”,那么类似的分层定价体系,大概率也会自然出现。
DeepTech:但 token 作为一种相对新的“商品”,用户在理解和接受它的过程中,可能还需要时间。它不像传统行业那样已经形成稳定认知。
戴国浩:是的,一方面是认知上的适应过程,另一方面,技术本身仍处在快速发展阶段。
AI 在未来会在更多行业中释放价值,但目前仍处于一个早期拐点阶段。已经开始在部分场景中形成明确价值,但整体渗透率还不高。如果回看三年前,以对话系统为主的模型确实很难直接产生经济价值,而现在情况已经发生了明显变化。
DeepTech:当前的云计算基础设施,本质上是为人类工程师设计的,而不是为 agent(智能体)设计的。在这种情况下,这套架构是否在一定程度上限制了 token 效率的进一步释放?如果以“token factory”为目标推进,你认为从硬件、软件到调度和服务,各个层面需要进行怎样的重构?这种变化会有多激进?
戴国浩:这个问题也可以从生产体系演进的角度来理解。
如果把 token factory 类比为一种新的“工厂”,那么它和传统的电厂或水厂类似,本质上是在生产基础资源。回看工业发展历程,每一次工业革命都会引入新的基础生产要素,从蒸汽到电力,再到信息计算能力,而每一次这种变化,都会带来整个系统结构的重构。
从这个意义上看,以 token 为代表的大模型体系,正在成为一种新的基础生产要素。虽然它目前仍建立在既有的电力和信息系统之上,但随着其重要性不断提升,底层架构发生系统性变化是一个必然趋势。
外界对 token 有不同的类比,比如把它看作比特,或者类比为电力,这些说法各有其合理性。但更关键的一点在于,当 token 成为核心生产单元之后,整个系统的各个层级都会围绕它进行重新组织。最先发生变化的,往往是接口层——如果 token 成为统一的计量单位,那么系统之间的交互、任务的度量、甚至算力与电力的转换关系,都可能逐渐以 token 为核心来表达。
当然,这一判断隐含了一个前提,即当前以 Transformer 为基础、以 token 为核心处理单元的范式在一段时间内是稳定的。从目前来看,这一方向具有较高确定性,但仍然存在技术演进的不确定性。
在这个前提下,各个层面的变化其实已经在发生。以芯片为例,像 NVIDIA 的 GPU 架构,虽然仍然是通用计算架构,但在数据中心场景中,已经引入了大量针对 Transformer 的专用计算单元。本质上,这些优化都是在围绕 token 的处理效率展开。整个过程是渐进式的:从最早的通用计算,到针对矩阵运算的加速,再到专门为 Transformer 结构优化,逐步向 token 对齐。类似的趋势,也会在软件、调度乃至服务层逐步体现出来。
DeepTech:如果整个体系都逐步对齐到 token,本质上意味着默认的计算范式仍然是以 Transformer 为基础。但我们也看到一些新的架构在出现,比如 Mamba,或者扩散模型在语言建模中的尝试。你觉得如果这些技术发展到某个阶段,token 是否可能被替代,或者演化成新的计算单元?
戴国浩:这个问题可以分两个层面来看。
在中短期内,一种范式是否会被替代,关键不在于它“是否更好”,而在于它是否能在整体效率上实现数量级的提升。因为现有体系不仅仅是技术本身,还包括完整的工业基础、软件生态以及价值评估体系,这些都是高度固化的,切换成本非常高。往往需要展现出一个数量级的提升的潜力,才有可能推动技术的汰换迭代。
目前确实出现了一些新的架构,比如 Mamba,以及基于扩散过程的语言模型。这些方法在某些特定任务上可能表现更优,但从整体来看,一方面还缺乏大规模工程验证,另一方面也很难在短时间内嵌入现有体系。更重要的是,它们在实际落地时,仍然需要与现有接口对齐,最终输出依然是 token 序列。因此,从现实路径来看,这些技术更像是在现有范式内部进行优化,而不是直接替代。
如果把视角拉得更长远,确实存在一种可能性,即未来出现完全不同的计算范式,例如连续计算甚至量子计算。这类体系一旦成立,可能会从根本上改变当前以离散 token 为基础的计算方式。但同样,它必须在关键效率指标上显著优于现有体系,才有可能推动整个产业迁移。
在当前阶段,我更倾向于认为,这样的范式转变还需要较长时间。更现实的问题仍然是,在以 token 为核心的既有体系中,如何持续提升转化效率,以及如何完善整个基础设施和应用生态。这可能才是当下更关键的方向。
运营/排版:何晨龙
热门跟贴