ESSAY
Token 在中文里活了好几年,一直没有一个确定的名字
词元、令牌、代币、标记、托肯,五六个译名同时流通,谁也没有把其他几个按下去。上周我还在那儿一本正经地论证 Token 应该叫「」还是「」
3月23日,国家数据局局长刘烈宏在中国发展高层论坛上直接给了答案
Token,词元
第二天国新办发布会,又说了一遍。同一个词,同一个读数
01
这个译名本身
「词元」不新。2021年国内 NLP 学界就在推这个翻译,复旦邱锡鹏教授的教材里用的就是这个词。但一直没有真正流通起来
原因也简单,那时候大多数人不需要知道 Token 是什么
「词元」的好处很明显。「元」在中文术语体系里语感稳定,指向最小的、不可再分的基础单位。像素、字节,都是这个构词逻辑。「词」把它锚定在语言处理的范畴里,对于了解大模型基本原理的人来说,望文知义
虽然 Token 的粒度不总是「词」。一个 Token 可以是半个字、一个标点、一段字节序列,多模态场景下还可以是图像的一个 patch 或者音频的一个 frame。
但话说回来,「电话」也不只用来说话了,「计算机」做的事情早就超出了计算的范畴。术语翻译追求的是认知入口的准确性,不是定义的完备性
从这个角度看,「词元」够用
02
之前的讨论
也是前几天,清华副校长杨斌提了另一个方案,「模元」
理由是「模」同时指向大模型和多模态,比「词」的覆盖面更大。而且「模元」和「字节」构词法一脉相承,两个字,念起来顺
网上还有人在用「话费」,emmmm....个人觉得,很合理
一个译名真正被接受,在于是谁在用、多少人在用、用了多久
03
为什么是现在
比起叫什么名字,更值得看的是另一个问题:这件事为什么在 2026 年 3 月突然紧迫了?
对此,国家数据局局长刘烈宏给了一组数据
中国日均 TOKEN 调用量 1000 亿 2024 初 100 万亿 2025 底 140 万亿 2026.03 两年,一千倍
更刺激的是,有模型企业创下了 20 天 收入超越 2025 年全年总收入的纪录
Token 已经不是一个需要向非技术人群解释的生僻术语了。它是企业的成本结构,API 的定价单位,投资人盯着看的核心指标
阿里巴巴 3 月 16 日成立了 Alibaba Token Hub 事业群,吴泳铭直管。黄仁勋在 GTC 2026 上花了两个多小时讲 Token 经济学,芯片参数反而成了配角。硅谷工程师的 offer 里开始标注 Token 预算,和牙科保险并列。有人每个月消耗价值数千美元的 Token 额度,就为了让自己的日常工作尽可能跑在自动化上
一个概念,当它出现在薪资结构、企业财报、国务院新闻发布会上的时候,它就不能继续没有中文名了
不是因为翻译重要。是因为这个东西本身变得太重要了,重要到它的名字不能继续飘着
04
从 bit 到 Token
上一个时代的基础计量单位是 bit。Shannon 1948 年定义了它,然后 bit 统治了整个信息时代。硬盘容量、网络带宽、通信协议,底层都在数 bit
Token 正在接这个位置。不是替代 bit,是在它的上层建了一套新的度量体系。bit 测量数据的体积,Token 测量智能的代价
你问模型一个问题,消耗的不是存储空间,是 Token。企业评估 AI 的投入产出比,算的不是带宽成本,是每个 Token 的 ROI。国家统计 AI 产业规模,报的不是数据量,是日均 Token 调用量
计量单位变了,说明底层在换
05
上周写了两篇,一篇论证 Token 应该叫「」,一篇论证它应该叫「,两篇都写得很认真
现在,Token 有了确定的名字、确定的调用量、确定的账单,它的确不再是量子位了
热门跟贴