ESSAY

Token 在中文里活了好几年,一直没有一个确定的名字

词元、令牌、代币、标记、托肯,五六个译名同时流通,谁也没有把其他几个按下去。上周我还在那儿一本正经地论证 Token 应该叫「」还是「」

3月23日,国家数据局局长刘烈宏在中国发展高层论坛上直接给了答案

Token,词元

第二天国新办发布会,又说了一遍。同一个词,同一个读数

01

这个译名本身

「词元」不新。2021年国内 NLP 学界就在推这个翻译,复旦邱锡鹏教授的教材里用的就是这个词。但一直没有真正流通起来

原因也简单,那时候大多数人不需要知道 Token 是什么

「词元」的好处很明显。「元」在中文术语体系里语感稳定,指向最小的、不可再分的基础单位。像素、字节,都是这个构词逻辑。「词」把它锚定在语言处理的范畴里,对于了解大模型基本原理的人来说,望文知义

虽然 Token 的粒度不总是「词」。一个 Token 可以是半个字、一个标点、一段字节序列,多模态场景下还可以是图像的一个 patch 或者音频的一个 frame。

但话说回来,「电话」也不只用来说话了,「计算机」做的事情早就超出了计算的范畴。术语翻译追求的是认知入口的准确性,不是定义的完备性

从这个角度看,「词元」够用

02

之前的讨论

也是前几天,清华副校长杨斌提了另一个方案,「模元」

理由是「模」同时指向大模型和多模态,比「词」的覆盖面更大。而且「模元」和「字节」构词法一脉相承,两个字,念起来顺

网上还有人在用「话费」,emmmm....个人觉得,很合理

一个译名真正被接受,在于是谁在用、多少人在用、用了多久

03

为什么是现在

比起叫什么名字,更值得看的是另一个问题:这件事为什么在 2026 年 3 月突然紧迫了?

对此,国家数据局局长刘烈宏给了一组数据

中国日均 TOKEN 调用量 1000 亿 2024 初 100 万亿 2025 底 140 万亿 2026.03 两年,一千倍

更刺激的是,有模型企业创下了 20 天 收入超越 2025 年全年总收入的纪录

Token 已经不是一个需要向非技术人群解释的生僻术语了。它是企业的成本结构,API 的定价单位,投资人盯着看的核心指标

阿里巴巴 3 月 16 日成立了 Alibaba Token Hub 事业群,吴泳铭直管。黄仁勋在 GTC 2026 上花了两个多小时讲 Token 经济学,芯片参数反而成了配角。硅谷工程师的 offer 里开始标注 Token 预算,和牙科保险并列。有人每个月消耗价值数千美元的 Token 额度,就为了让自己的日常工作尽可能跑在自动化上

一个概念,当它出现在薪资结构、企业财报、国务院新闻发布会上的时候,它就不能继续没有中文名了

不是因为翻译重要。是因为这个东西本身变得太重要了,重要到它的名字不能继续飘着

04

从 bit 到 Token

上一个时代的基础计量单位是 bit。Shannon 1948 年定义了它,然后 bit 统治了整个信息时代。硬盘容量、网络带宽、通信协议,底层都在数 bit

Token 正在接这个位置。不是替代 bit,是在它的上层建了一套新的度量体系。bit 测量数据的体积,Token 测量智能的代价

你问模型一个问题,消耗的不是存储空间,是 Token。企业评估 AI 的投入产出比,算的不是带宽成本,是每个 Token 的 ROI。国家统计 AI 产业规模,报的不是数据量,是日均 Token 调用量

计量单位变了,说明底层在换

05

上周写了两篇,一篇论证 Token 应该叫「」,一篇论证它应该叫「,两篇都写得很认真

现在,Token 有了确定的名字、确定的调用量、确定的账单,它的确不再是量子位