最近,AI圈爆出两个极其夸张的数据:现在中国的token消费量达到了140万亿每天,相比2024年初增长了1000倍。谷歌每月的tokens消费量也达到了接近每月1000万亿。

这里面很多人有一个误解,以为产生的tokens的数量越多,消耗的算力越大,算力的需求也就越大。实际情况是,tokens和tokens之间,算力消费量和内存消费量差别非常大。

今天我不跟你扯虚的,直接搬出企业级部署大模型时的核心计算公式。咱们拿计算器算一算,你就明白:为什么Claude的Token卖得那么贵?为什么在Agent时代,单纯比较“谁用的Token多”是一件极其荒谬的事?

01 算力账:大模型的“每一个字”,都在疯狂踩油门

普通人以为,AI每蹦出一个Token(一个字),就像打字员敲一下键盘,费不了什么电。

大模型在“逐句生成阶段(Decode)”每吐出一个Token,都要把整个大脑(模型参数)完整过一遍。工业界有一个极其经典的速算公式:

单条Token理论算力消耗 ≈ 2 × 模型总参数量 *(注:底层逻辑是大模型核心结构的单次前向传播,主要是“乘法+加法”两次运算。企业为了保险,实际会取 2.2 到 2.5 倍)*

我们把现在的两大主力梯队代入算笔账:

普通大模型(2000亿参数,200B): 生成 1 个 Token,理论运算量 ≈ 2 × 2000亿 = 4000亿次运算

顶级超大模型(20000亿参数,即2万亿,2T): 生成 1 个 Token,理论运算量 ≈ 2 × 20000亿 = 40000亿次运算

看明白了吗?同样是1个Token,2万亿大模型的算力开销是2000亿模型的整整10倍! 你以为大家都在消费“1个Token”,实际上有人在骑自行车,有人在开航空母舰。

02 内存账:最恐怖的“草稿纸”陷阱

算力还只是表面,内存(显存)才是大模型真正的“吞金兽”

大模型在生成内容时,为了不忘记前面聊了啥,会把之前的输入和输出存成一种叫“KV缓存”的短期记忆。上下文越长、同时用的人越多,这张“草稿纸”就越大,甚至能超过模型本身的大小,直接导致显卡内存爆满(OOM崩溃)。

企业计算这张“草稿纸”大小的核心公式是这样的:

KV缓存总内存 = 同时处理的用户数 × 最大文本总长度 × 模型层数 × 2 × 单步处理信息总容量 × 单参数占用字节数 × (1 + 内存碎片化开销比例)

这个公式看着吓人,我们直接代入现实中的Agent并发场景(假设同时服务32个用户,上下文长度8192,采用工业界最常用的半精度2字节):

对于2000亿参数模型(假设100层,单步容量16384):
KV缓存总内存 = 32 × 8192 × 100 × 2 × 16384 × 2字节 × 1.1
计算结果 ≈ 1.88 TB!

对于20000亿参数模型(假设200层,单步容量65536):
KV缓存总内存 = 32 × 8192 × 200 × 2 × 65536 × 2字节 × 1.1
计算结果 ≈ 15.1 TB!

Shock了吗?这还只是为了“记住上下文”而临时占用的内存!加上2000亿模型本身固定的400GB权重,以及2万亿模型固定的4TB权重,同样1tokens,内存容量的消费也差了8倍以上。

03 物理账:卡在“收费站”的顶级跑车

这时候有人会说:“算力大就多买显卡呗,算得快不就行了?”

这就触及到了大模型推理最绝望的物理瓶颈——内存带宽

在逐句生成阶段,大模型90%的时间不是在计算,而是在等数据从显存里搬出来。企业必须用这个公式来验算硬件底线:

所需最低内存带宽 = (模型权重大小 + 单条Token缓存读取量) ÷ 单条Token延迟目标

我们继续拿这两个模型算(假设要求每个Token在20毫秒内生成完毕,保证用户体验不卡顿,这里仅计算权重搬运的最低带宽要求):

2000亿模型(权重400GB): 400GB ÷ 0.02秒 = 20,000 GB/s

20000亿模型(权重4000GB): 4000GB ÷ 0.02秒 = 200,000 GB/s

大模型越大,内存带宽的要求也是同级放大。怎么解决带宽不足的问题?企业只能硬着头皮搞“多卡拆分并行(张量并行)”,把一个2万亿的模型切成几十块,放在几十张甚至上百张十几万的显卡上,用极其昂贵的高速通道连起来。这,就是Claude等顶级模型Token定价极高的根本原因——它的每一个Token,背后都是真金白银的超级计算机集群。

04 戳破幻觉:大模型的Token和小模型的Token,是两个物种

现在,我们把这套硬核的算账逻辑,代入到最火的Agent(智能体)实战中。

在Agent场景下,AI不是闲聊,而是要自己查资料、写代码、反复规划完成任务。

2000亿参数模型的Token:像熟练的实习生。
它算力内存开销相对可控,企业勉强能部署。但在复杂任务中理解不够深刻,走两步就出错,只能不断“试错、重试”。为了完成一个任务,它可能要生成10万个Token,写满1.88TB的草稿纸,最后交出来的结果是一个还需要精修的半成品。

2万亿参数模型的Token:像顶级科学家。
它每一次生成Token,都要调动40000亿次运算和15TB级别的内存带宽搬运,单Token成本极其恐怖。但收益是什么?它能一眼看穿任务本质,不需要反复试错。完成同样的复杂任务,它可能只需要生成1000个Token,直接降维打击。

很多企业拿着计算器,算2000亿模型跑了5万Token,顶级大模型只跑了1万Token,然后兴高采烈地说:“看,我们省了80%的钱!”

这就好比:你让一个普通高中生写了100篇平庸的废稿(消耗了大量廉价纸张和笔),让爱因斯坦写了1篇能改变世界的论文(消耗了极其昂贵的顶级实验设备)。然后你指着爱因斯坦说:“你用的设备太贵了,还是高中生划算。”

在单纯的聊天时代,Token是衡量打字机工作量的单位。在Agent时代,Token只是AI思考过程的“副产品”。

2000亿参数模型生成的Token,和20000亿参数模型生成的Token,在底层物理开销上根本不可比。在成果交付上,有的大模型是可用,有的大模型是好用。以后评估大模型,别再盯着“消耗了多少Token”了,不同参数量的大模型根本不可比。

面对理科类编程类等有标准化答案的问题,大模型参数量多一些少一些,大模型性能差别不大,10000亿参数量的大模型和3000亿参数量的回答质量差异不明显。因为需要处理细微语义的差异,人文社科问题就非常吃大模型的参数量和精度,10万亿参数量的大模型和1万亿参数量的大模型,质量会有本质差异。

还有很多人打算用终端设备部署龙虾,然后就拥有了一个便宜的自动化员工,我想说的是,有这种梦的还是醒醒吧。就以终端能够部署的300B以下的大模型,根本很难完成高质量的任务,它替你点奶茶,做攻略这种简单任务还可以,但是要想让他做出高质量的商业产品交付,能够帮你赚钱,300B的知识量根本不够。

有的企业给了员工5万元的tokens消费额度,在数万亿参数的大模型面前,这个额度还不够使用1个月的。高质量大模型绝不是廉价的智能工具,Claude最近泄露了一个10万亿参数的强大模型,如果这种超大参数量的大模型问世,很多公司就会发现,在小参数大模型上的token投资没有实际商业价值。

所以,别盯着tokens的消费量了,没有多少实际意义。