对话戴国浩：用Token重新理解AI的成本与价值|token|戴国浩|算法|自然语言

近期，DeepTech 密集报道了一系列 AI 在具体场景中落地的新突破。在曼哈顿，一位耶鲁毕业的律师借助 Claude，仅用两小时便完成了传统中型律所团队通宵才能交付的并购提案；一位从未写过代码的管道工程师利用 AI 工具分析诊断数据，在几分钟内锁定了复杂管道网络的故障源，而过去这通常需要高级工程师上门勘测数日；与此同时，开源 AI 智能体项目 OpenClaw 继续以“人类历史上增长最快的开源项目”之势席卷全球，帮助不同行业的从业者实现了更复杂的 Agent 功能。

这些故事的共同点显而易见：AI 正在抹平团队与个体之间的产能鸿沟，“一人公司”（One Person Company）不再是愿景，而是触手可及的现实。

然而，几乎每一条案例的评论区，都出现了同一种声音：“他们做到这些究竟烧掉了多少 token？”

是的，效率的跃升并非毫无代价。作为大语言模型处理信息的最小单位，AI 在具体场景中施展拳脚，离不开海量 token 的消耗。陶哲轩在用 AI 辅助破解数学难题时，首次尝试便因消耗过量 Token 导致本地算力崩溃；据报道，OpenAI 工程师团队一周处理的 token 量高达 2,100 亿，相当于复写 33 遍维基百科；而一些 OpenClaw 的重度用户晒出的算力账单更是惊人，月支出从数千美元到数万美元不等。

与此同时，企业界也开始重新审视 token 的稀缺性与战略价值。黄仁勋在近期 GTC 大会上提出了“token 经济学”的概念，他认为数据中心正在演变为生产 token 的“AI 工厂”，token 需要根据相应的标准进行分层定价供给。同时，token 将成为继工资、奖金、期权之后的“第四种薪酬”。在硅谷，工程师的身价评估体系也正在被呼吁重构，其中一项重要标准就是看他能高效调用多少 token。

token，这个曾经位于技术文档底部的计量单位，正在跃升为 AI 时代的新货币。它既是生产力的燃料，也是稀缺资源的象征；它既是个体实现能力跃迁的杠杆，也可能成为新的数字鸿沟。

为了更深入地解读 token 在 AI 时代的全新意义，我们邀请了上海交通大学副教授、无问芯穹联合创始人戴国浩进行了一次深度对话。他长期致力于稀疏计算与软硬件协同设计方向，研究内容包括结构化稀疏方法、动态编译策略与细粒度并行架构，从而在有限硬件条件下提升算力表现。戴国浩也是 2024 年《麻省理工科技评论》“35 岁以下科技创新 35 人”中国入选者。

我们围绕 token 从技术参数向经济变量转化的内在逻辑、底层算力效率的优化路径，也对在个人层面如何更高效地使用 token 展开了讨论。

以下是对话内容：

DeepTech：token 作为一个概念，过去几年主要出现在技术讨论中，例如推理成本、模型定价。但最近它开始出现在薪酬谈判和企业预算里。在你看来，token 从一个技术参数变成一个经济变量，这个转变的背后发生了什么？

戴国浩：我认为最根本的原因在于模型的智能化水平已经达到了“可用”的阶段。

如果以 2022 年底 ChatGPT 的发布为起点，到现在大约三年多时间。当时的模型更多还是一个对话系统，虽然具备一定的智能，可以进行自然语言交互，但很难真正嵌入到生产流程中，也无法直接转化为生产力。

而现在，一个关键变化在于模型已经具备完成实际任务的能力。也就是说，当用户获得一定的 token 配额后，不再只是与模型进行对话，而是可以通过模型完成具体工作。这种能力的转变，使得 token 不再只是一个技术层面的计量单位，而是成为可以直接对应生产结果的资源。

因此，token 从技术参数演变为经济变量，本质上是由模型能力和整体智能水平的提升所驱动的。

DeepTech：从理论上看，模型能力的提升通常会带来单位 token 成本的下降。但在现实中，我们看到不少云厂商选择上调价格。同时，随着像 OpenClaw 这类智能体应用的兴起，越来越多用户开始感受到高额 token 消耗所带来的成本压力。

你如何看待这种看似矛盾的现象？其背后是供需关系的变化，还是推理成本结构发生了改变，或是其他因素在起作用？

戴国浩：我刚才提到模型能力的提升，这实际上意味着“单个 token 的能力”在增强。

如果从经济角度来理解，可以将其放入一个更完整的价值转化链条中来看。之所以很多人将 AI 视为“第四次工业革命”，本质上是因为每一次工业革命，都是通过某种关键技术，创造出新的生产力形式。而所有生产力的核心，都是将输入价值转化为输出价值。

在传统工业体系中，例如蒸汽机或发电机，提供的是动力或电力，用于将原始物料加工为具有经济价值的产品。而在这一轮 AI 变革中，模型能力的提升，使其本身也成为一种新的价值转换机制。

如果将这一过程拆解，可以得到一个相对清晰的链条：

输入价值→①→电能→②→token→③→生产力→④→输出价值

其中①是供电体系，②是芯片和系统，③是模型和算法，④是社会评价体系

输入价值首先是转化为电能，然后电能通过芯片与计算系统转化为算力，算力进一步转化为 token，最后 token 再通过模型转化为生产力；最终，这些生产力通过社会评价体系（例如代码、文本内容等）被赋予具体的经济价值。

在这个链条中，token 是一个关键中间环节。随着模型能力的提升，“token 到生产力”的转化效率显著提高。换句话说，每一个 token 所能承载和释放的价值变得更高。

这也解释了为什么 token 会具备经济属性。可以类比为企业为员工配备工具：之所以配备计算机，是因为它能够提升生产力，而不是提供一个没有实际用途的工具。同理，当 token 能够直接驱动生产时，它自然会被纳入经济体系。

另一方面，“成本下降”更多发生在“电能到 token”的阶段，也就是算力效率的提升，例如硬件优化或系统效率提升。而“token 到生产力”的价值转化，则属于链条中的另一环节。

在模型尚不可用的阶段，由于后端价值有限，企业往往需要通过低价甚至补贴来推动使用，包括大规模铺量或持续优化成本结构。但当模型能力提升、后端价值显著提高后，整个逻辑会从“推广驱动”转向“市场化驱动”。

在这种情况下，企业需要重新平衡成本与收益，即使技术仍在持续优化、推理效率不断提升，价格上调也是市场化过程中的自然结果。因此，这种“成本下降但价格上升”的现象并不矛盾。本质上，一方面是底层技术效率在提升，另一方面是过去推广阶段所存在的成本缺口逐步被填补，最终形成一个可持续的商业闭环。

DeepTech：你的研究方向之一是稀疏注意力（sparse attention）等机制，这类方法会直接影响 token 的计算成本。如果沿着这一思路继续推演，未来模型是否有可能具备“自适应计算能力”，即自动判断哪些 token 需要精细计算，哪些可以简化甚至跳过？这种机制在多大程度上会影响推理成本？

戴国浩：从具体技术来看，这种趋势已经在发生，而且不仅限于稀疏注意力。

例如，稀疏专家（Mixture-of-Experts）、层级稀疏（layer skipping）、以及模型结构层面的多级配置（如投机解码、大小模型协同），本质上都可以归为“稀疏化”或“结构化”的探索。像 DeepSeek 等团队，已经在稀疏注意力等方向上进行了实践；同时，大规模模型（百亿甚至千亿参数级别）中，稀疏专家结构也已较为常见。此外，一些系统开始引入小模型与大模型协同，通过推测解码（speculative decoding）提升整体吞吐效率。

这些方法的共同点在于：通过结构设计，而非单纯增加参数规模，来提升计算效率与性能表现。

从更宏观的角度看，智能系统的发展，本质上是在不断逼近“最优结构”。在早期，由于对模型结构理解有限，采用稠密矩阵（dense architecture）是一种更直接、通用的表达方式，通过扩大数据和参数规模来获得性能提升。但随着理解的加深，结构性特征会逐渐显现。例如残差连接（residual connection）、卷积结构（convolution）等，都是在这一过程中被发现并固化下来的有效结构。

理论上，任何结构都可以用更大的稠密矩阵来近似表达，但在实际中，这样的模型往往难以收敛，同时计算效率极低，因此并不可行。

回到 token 这一中间环节，未来一个重要方向是对 token 进行更细粒度的计算分配。例如，在推理过程中，不同 token 的复杂度是不同的：一些 token 可能只需要较浅层的计算即可得到结果，但另一些则需要更深层、更复杂的计算路径。

因此，可以针对每个 token 动态分配计算资源，对其计算深度和计算量进行定制化设计。相比于“所有 token 都经过同样深度模型”的方式，这种方法能够在保证效果的同时显著降低整体计算开销。这也是为什么 token 在当前阶段不仅是计量单位，更是计算调度与资源分配的核心对象，它也将逐渐成为一种关键的生产要素。

DeepTech：如果进一步拆解 token 的成本结构，除了模型本身，还包括 KV Cache 的显存占用、带宽，以及芯片架构等因素。在这些层面中，你认为当前优化空间最大的是哪一部分？

戴国浩：可以用一个相对简化的模型来描述推理开销：

那就是时间 ≈ 计算量 ÷（算力 × 利用率）

或者从存储角度来看：

时间 ≈ 数据量 ÷（带宽 × 利用率）

在这个框架下，不同变量对应不同层面的参与者：

首先，计算量主要由模型设计决定，例如参数规模（3B、30B、300B 等）；其次，算力取决于芯片能力，例如算力规模（TFLOPS 级别差异）；最后，利用率则与软硬件协同优化密切相关。

此外，像 KV Cache 的显存占用、注意力计算开销等问题，本质上更多影响的是系统的带宽利用率与整体资源利用效率。芯片本身的能力则与其架构设计和制造工艺有关。

在这一建模框架下，可以看到不同优化方向的边界：

首先，单纯降低模型计算量的空间其实有限，因为模型发展的首要目标仍然是提升智能水平，这是一个基本前提。因此，在模型设计层面，压缩计算量并不是主要矛盾。相比之下，利用率的优化空间非常大。无论是算力利用率、带宽利用率，还是缓存命中率，都存在显著提升空间。

其次，芯片架构本身的设计也是一个重要方向。例如英伟达黄仁勋所提出的“AI Factory”理念，本质上是将芯片、系统软件以及电力供给等多个层面打通，进行整体协同优化。总体来看，未来推理成本下降，更依赖于：一个是各层级资源利用率的提升，另一个是芯片架构与系统设计的持续演进。

而这些优化的最终目标，都是为了支撑更大规模、更高智能水平的模型发展。

DeepTech：那么从当前阶段来看，性能优化的主要瓶颈更偏向算法侧，还是硬件侧？

戴国浩：我认为主要瓶颈仍然在硬件，以及硬件与算法的协同设计（co-design）。

算法的发展方向始终是探索更高水平的智能，这是不会改变的。但算法的迭代效率，很大程度上受限于硬件条件。例如，一个模型版本的迭代周期是一个月还是三个月，本质上取决于算力资源与系统效率。

因此，问题不仅在于是否存在更优的算法，还在于这些算法能否在现有硬件体系下高效实现。目前也有越来越多的团队在尝试算法与硬件的协同优化，但这一过程的效率，仍然受到硬件设计能力以及对硬件理解深度的制约。从这个角度来看，未来的关键竞争点，将越来越集中在软硬件一体化的协同设计能力上。

DeepTech：前段时间，黄仁勋在 GTC 大会上提出了一个颇具冲击力的观点：未来员工的 token 消耗量应当与薪酬成正比，可以将 token 使用量视为生产效率的一种指标。与此同时，硅谷也出现了一种被称为“tokenmaxxing”的现象：一些从业者会刻意提高 token 使用量，用不完甚至会产生焦虑。你如何看待这一观点？无论是企业还是个人，应该建立怎样的“token 观”？

戴国浩：我倾向于从辩证的角度来看。

首先，我可以理解他为什么会提出这样的观点。结合他所强调的 AI Factory，本质上是在将算力体系转化为“token 的生产系统”。在早期，当 AI 尚未形成完整的正向经济循环时，GPU 只是数据中心或算力基础设施中的一个组件，是供应链的一环。

但当 AI Factory 的概念成立之后，这套系统更像是一个“token 生产工厂”。如果进一步类比，可以将其视为一种“价值生成装置”。在一种极端设想下，如果 token 的消耗可以直接映射为经济回报，那么这套系统就具备类似“价值生成器”的属性。

另一方面，我认为这一观点也具备一定合理性。因为从工具属性来看，可以类比为早期的软件工程实践。例如在十年前，程序员的产出有时会通过代码量进行粗略衡量。代码量在某种程度上反映了工具使用的强度和产出规模。

在今天，token 消耗可以被理解为一种新的“工作投入度量”。你使用了多少 token，某种程度上意味着你调用了多少模型能力，完成了多少任务。因此，它与产出之间确实存在一定相关性。

但问题在于，这种关系并不是线性的，也不是稳定的。如果回到我们前面讨论的价值转化链条，token 只是其中的一个中间环节。“token 到生产力”的转化效率，取决于多个因素：例如使用的模型能力，模型之间的协同方式，token 的质量（例如 prompt 质量），或者是具体任务类型。

因此，我认同 token 消耗量与价值之间“存在相关性”，但更关键的是：如何使用 token。换句话说，高质量地使用 token（例如选择合适模型、设计有效结构），比单纯增加 token 消耗更重要。这可能才是未来个体需要重点关注的能力。

DeepTech：那是否有可能存在一个更合理的指标，而不是简单用 token 消耗量来衡量生产效率？

戴国浩：如果在理想情况下，“token 到生产力”的转化关系是标准化的，例如一个 token 可以稳定对应某种经济价值，那么确实可以直接用 token 消耗来衡量产出。

但现实中，这一环节并不稳定，尤其是在当前阶段。

对于一些高度标准化、确定性较强的行业（例如部分法律、会计等场景），随着工具成熟，未来可能逐步接近这种“线性映射”。在这种情况下，将 token 使用量与产出挂钩，是可以成立的。但对于更具创造性的工作，这种关系往往是非线性的。例如，有的人可能只使用较少的 token，就能产生更高价值的结果；而另一些人即使消耗更多 token，产出价值却未必更高。

在这种情况下，更合理的评价方式，应该是将token 使用量”与“最终产出价值”进行联合评估。从资源配置角度看，我们更应该鼓励的是：用更少的 token 产生更高的价值。这也可以理解为一种更正确的 token 观。

DeepTech：在最近的趋势中，我们发现了许多使用者尤其关注一个问题：在实际使用大模型时，如何更高效、更具性价比地使用 token？你作为专业的从业人员，在日常使用中，有没有一些经过验证的方法或经验，比如在 prompt 设计、任务拆解、模型选择等方面？

戴国浩：这三个方面，其实都非常关键。

可以用一个类比来理解：在传统的软件团队中，通常会有架构师和程序员的分工。程序员负责具体实现，而架构师负责整体设计，包括任务拆解、模块划分以及协作方式。

从当前大模型的能力来看，它已经可以高效完成很多“程序员层面”的执行工作，这一点并不困难。真正的挑战在于更上层的结构设计。具体来说，可以对应三个关键环节：

第一是任务拆解。需要将一个复杂问题分解为多个子任务，并明确各自的边界与目标。第二是 prompt 设计。本质上是对任务目标的精确表达，相当于对执行单元的“指令定义”。第三是模型选择与调度。即让“合适的模型做合适的事情”，例如简单任务可以交给轻量模型处理，复杂任务再调用更强的模型。这三个环节，实际上构成了一个完整的“结构设计过程”。

此外，还有一个容易被忽视的点：人类输入的 token 往往更高效。在一些推理型模型中（例如带有长链路思考过程的模型），模型在内部会生成大量中间推理步骤，这些过程本身会消耗大量 token。而人类可以在前置阶段，通过更清晰的任务定义，减少模型不必要的探索路径，从而降低整体开销。

结合这些经验，我个人的使用方式是：先尽可能在前期将 prompt 定义得清晰、具体；然后，对任务进行结构化拆解；最后，在不同复杂度任务之间，灵活选择模型（包括开源模型与高性能闭源模型的组合使用）。

从长期来看，这也意味着一个能力转变。以程序员为例，需要逐渐从单纯的“编码者（coder）”，转向“系统架构设计者（architect）”。只有在更高层面进行结构设计，才能真正提升整体效率。

DeepTech：黄仁勋在会上还提出了 token 的分层定价策略，沿着"模型智能程度 × 生成速度 × 上下文长度"三个维度来定价，形成从免费层到高速层 $150/百万 token 的供给体系。在这方面，一些国内公司已经相继响应。你认为这一框架对产业格局会产生怎样的深层影响？它是否会加速大模型市场的两极分化？

戴国浩：刚才你提到的几个关键变量，包括模型智能水平、生成速度和上下文长度，其实可以归为两类，并分别对应我们之前讨论的价值转化链条中的不同环节。

其中，生成速度和上下文长度，主要影响“算力到 token”的转化效率。这一部分与计算能力和存储能力密切相关：上下文长度更多涉及存储与带宽，生成速度主要与计算能力相关，同时也受到访存效率的影响。

模型的智能水平，则对应“token 到生产力”的转化效率。

从这个角度看，这三个变量实际上构成了整个价值链条中的关键维度。因此，将 token 按不同能力层级进行划分，本身是有内在合理性的。

进一步来说，不同行业、不同任务，对 token 的“价值密度”要求是不同的。高质量 token（例如由更强模型生成）在某些场景中能够产生更高价值，因此在定价上进行分层，是符合基本经济逻辑的。

至于具体的定价策略，我并不是这方面的专家，但从一般规律来看，一个比较普遍的现象是：价值越高的产品，其“性价比”往往反而越低。

这一点在很多行业中都存在。例如汽车、手机等领域，高端产品通常在绝对性能上更强，但单位性能的价格也更高。这样的结构并不会导致行业失衡，反而使不同需求的用户，都可以在同一价值链中找到适合自己的选择。

如果将 AI 视为一种逐渐成熟的“商品”，那么类似的分层定价体系，大概率也会自然出现。

DeepTech：但 token 作为一种相对新的“商品”，用户在理解和接受它的过程中，可能还需要时间。它不像传统行业那样已经形成稳定认知。

戴国浩：是的，一方面是认知上的适应过程，另一方面，技术本身仍处在快速发展阶段。

AI 在未来会在更多行业中释放价值，但目前仍处于一个早期拐点阶段。已经开始在部分场景中形成明确价值，但整体渗透率还不高。如果回看三年前，以对话系统为主的模型确实很难直接产生经济价值，而现在情况已经发生了明显变化。

DeepTech：当前的云计算基础设施，本质上是为人类工程师设计的，而不是为 agent（智能体）设计的。在这种情况下，这套架构是否在一定程度上限制了 token 效率的进一步释放？如果以“token factory”为目标推进，你认为从硬件、软件到调度和服务，各个层面需要进行怎样的重构？这种变化会有多激进？

戴国浩：这个问题也可以从生产体系演进的角度来理解。

如果把 token factory 类比为一种新的“工厂”，那么它和传统的电厂或水厂类似，本质上是在生产基础资源。回看工业发展历程，每一次工业革命都会引入新的基础生产要素，从蒸汽到电力，再到信息计算能力，而每一次这种变化，都会带来整个系统结构的重构。

从这个意义上看，以 token 为代表的大模型体系，正在成为一种新的基础生产要素。虽然它目前仍建立在既有的电力和信息系统之上，但随着其重要性不断提升，底层架构发生系统性变化是一个必然趋势。

外界对 token 有不同的类比，比如把它看作比特，或者类比为电力，这些说法各有其合理性。但更关键的一点在于，当 token 成为核心生产单元之后，整个系统的各个层级都会围绕它进行重新组织。最先发生变化的，往往是接口层——如果 token 成为统一的计量单位，那么系统之间的交互、任务的度量、甚至算力与电力的转换关系，都可能逐渐以 token 为核心来表达。

当然，这一判断隐含了一个前提，即当前以 Transformer 为基础、以 token 为核心处理单元的范式在一段时间内是稳定的。从目前来看，这一方向具有较高确定性，但仍然存在技术演进的不确定性。

在这个前提下，各个层面的变化其实已经在发生。以芯片为例，像 NVIDIA 的 GPU 架构，虽然仍然是通用计算架构，但在数据中心场景中，已经引入了大量针对 Transformer 的专用计算单元。本质上，这些优化都是在围绕 token 的处理效率展开。整个过程是渐进式的：从最早的通用计算，到针对矩阵运算的加速，再到专门为 Transformer 结构优化，逐步向 token 对齐。类似的趋势，也会在软件、调度乃至服务层逐步体现出来。

DeepTech：如果整个体系都逐步对齐到 token，本质上意味着默认的计算范式仍然是以 Transformer 为基础。但我们也看到一些新的架构在出现，比如 Mamba，或者扩散模型在语言建模中的尝试。你觉得如果这些技术发展到某个阶段，token 是否可能被替代，或者演化成新的计算单元？

戴国浩：这个问题可以分两个层面来看。

在中短期内，一种范式是否会被替代，关键不在于它“是否更好”，而在于它是否能在整体效率上实现数量级的提升。因为现有体系不仅仅是技术本身，还包括完整的工业基础、软件生态以及价值评估体系，这些都是高度固化的，切换成本非常高。往往需要展现出一个数量级的提升的潜力，才有可能推动技术的汰换迭代。

目前确实出现了一些新的架构，比如 Mamba，以及基于扩散过程的语言模型。这些方法在某些特定任务上可能表现更优，但从整体来看，一方面还缺乏大规模工程验证，另一方面也很难在短时间内嵌入现有体系。更重要的是，它们在实际落地时，仍然需要与现有接口对齐，最终输出依然是 token 序列。因此，从现实路径来看，这些技术更像是在现有范式内部进行优化，而不是直接替代。

如果把视角拉得更长远，确实存在一种可能性，即未来出现完全不同的计算范式，例如连续计算甚至量子计算。这类体系一旦成立，可能会从根本上改变当前以离散 token 为基础的计算方式。但同样，它必须在关键效率指标上显著优于现有体系，才有可能推动整个产业迁移。

在当前阶段，我更倾向于认为，这样的范式转变还需要较长时间。更现实的问题仍然是，在以 token 为核心的既有体系中，如何持续提升转化效率，以及如何完善整个基础设施和应用生态。这可能才是当下更关键的方向。

运营/排版：何晨龙