打开网易新闻 查看精彩图片

图文原创:亲爱的数据

AI已经是一个彻底围绕Token的生意了,

或者说,Token经济学就是推理经济学,

我认为,今时今日的AI,

连这种基础设施层的东西(比如网络),

都和业务理念融为一体了,

这真是一个大趋势。

而TPN本身就是这个趋势的产物。

TPN架构的全称是:

Token Performance Network。

怎么描述我的感受呢?

一个网络架构用业务术语—

Token来命名自己,

这在以前是不可想象的。

只能说,阿里云的TPN,

是一个现象级的事件。

TPN 的命名本身就很有意思,

网络团队不再说"我的带宽是多少",

开始说"我的Token产能是多少"。

文章开头那么只能解释这么多了,

赶紧上车吧。

打开网易新闻 查看精彩图片

为什么大神Jeff Dean在GTC 2026上,

会强调这样一句话?

『Agent一旦开始长时间自主运行,

超低时延的推理就会变得关键。』

这里有个技术术语,

超低时延是Ultra-low-latency inference。

这话啥意思?

作为写了AI基础设施九年的人,

我恨不得,

把Jeff Dean大神说的每一句技术评价,

都尽可能的理解了。

打开网易新闻 查看精彩图片

你问一个问题,模型想了想,总要花点时间。

只要别太磨蹭,都能接受。

现在换成Agent,

则是另一个游戏规则。

Agent一旦长时间自己跑起来,

每一步的"思考速度"就变得生死攸关。

比如,一个任务可能跑200轮。

中间都是它自己玩,

每一轮都有延迟,

直接叠加成总时间,

反正时间总是越加越长。

如果每一轮推理需要2秒,

200轮就是400秒。

7分钟光花在"思考"上。

真是太棒了,

这时候人类老板就会说,

你能不能干?

不能干有的是智能体能干。

再看"超低时延(ultra-low-latency)"这个词。

为什么他用这个词,

不是"低延迟就行",而是"必须超低延迟"。

我赞成使劲卷AI,

以免来卷我。

看看英伟达的Bill哥(BillDally)怎么回应的,

Bill哥说,大部分延迟实际上来自通信。

Bill哥还说,"推理不是刚刚开始变得重要。

推理现在就是核心任务。

数据中心里90%的机器都花在推理上了。

反正在AI市场上,

英伟达公司高管说啥都有几份道理。

你就凑合听一听,

观察和独立判断更重要。

比如,你看,英伟达的Groq 3 LPU芯片,

是专门为其中一个阶段(Decode)设计的,

而不是AI生产的全阶段。

于是,市场上有了"为特定推理阶段定制的芯片"。

所以,这个趋势不只发生在网络层,

其实整个AI全栈都在经历同样的融合。

打开网易新闻 查看精彩图片

为什么2026年突然冒出一个TPN?

因为游戏规则变了。

2022到2025年,行业的核心焦虑是:

"模型能不能训出来"。

所以以前(HPN)的哲学是,

"不惜代价把性能拉满",

现在(TPN)的哲学是,

"在保住Token产(性)能的前提下,

把成本压下来"。

所以TPN不是HPN的升级版,

是另一个物种。

TPN是网络层的证据,

Groq LPU是芯片层的证据,

KV-Cache分层存储是存储层的证据。

整个AI Infra软件栈,

收敛成"一切为Token服务"。

这真是一场深刻的变化。

你不细看,确实会错过。

再看组织团队的KPI变化,

长久以来,

网络团队的KPI是带宽、时延、丢包率。

推理业务团队的KPI是三个新指标,

TPOT,是Token之间延迟

Goodput,有效Token吞吐

Cost perToken,每个Token成本。

在下一节会展开。

我看到,新指标把所有人的目标都统一了。

老掉牙的故事是,

两拨人目标不同,开不同的会,各干各的。

但是,有一天坐下来一起开会的时候,

发现一个问题:

网络团队说:"我们把交换机升级了,

带宽翻倍了"。

推理业务团队说:"用户还是觉得慢"。

两边看着对方,陷入沉默中。

这肯定是不行。

阿里云已经回应这种变化了,

TPN就是直接证据,

网络团队不再说"我的带宽是多少",

而是开始说:"我的Token产能是多少"。

网络的度量单位从比特变成了Token。

这不是换个名词的问题,

是新故事的逻辑全部重写了,

逻辑包括优化目标、架构设计、资源调度。

以前网络优化一条链路,

不需要知道上面跑的是什么业务。

现在网络必须知道,

这条链路搬的是KV-Cache吗?

这是在推理prefill,还是在推理decoding?

打开网易新闻 查看精彩图片

回到讨论的主线,

为什么要看新指标?

第一,TPOT(Token之间延迟),

第二,Goodput(有效Token吞吐),

第三,Cost per Token(每个Token成本)

旧阵营要迈往新阵营,就是靠指标来导向。

这些指标并不是以前完全没有,

而是重要性今非昔比。

第一个指标:TPOT,是Token之间延迟。

一个Agent跑一个任务,

烧1000个Token,

每个Token之间隔一小段时间,

这就是TPOT。

TPOT长,任务就慢;

TPOT短,任务就快。

就这么简单。

原来跑完要一小时,TPOT压缩一半,半小时干完。

怎么搞呢?

其中一个关键就是KV-Cache搬得快。

PD分离之后,这些东西不在一起了,

要通过网络从另一台机器搬过来。

搬得慢,就等着。

第二个指标Goodput,

是有效Token吞吐。

"有效"这个词确实有两层含义,不能混在一起。

第1层:基础设施层面的"有效"

这个"有效"关注的是,

"Token 吐得够不够快、够不够稳"。

跟网络强相关,网络抖动一次,

Goodput就低一分。

第2层:业务层面的"有效"

你说的是另一个维度,

生成出来的Token 是不是用户真正需要的。

『喂妖妖零吗?

这个AI动不动给我1000个字的废话。

我要取消订阅』。

对于Agent来说,100个Agent 里面,

有15个跑得慢,

但要100个Agent全部跑完才能下一步,

这也拖慢了业务,

Goodput 对网络的要求不是『平均快』,

是『每一次都快』。

第三个指标Cost per Token,

就是每个Token成本。

和钱有关好理解,

就是直播间里的主播说的,把价格打下来。

就一句话:同样的电费、同样的卡,

能多吐几个Token,

每个Token就便宜几分钱。

GPU上电就烧钱,

不管它在算Token还是在等数据,

电表都在转。

所以Cost per Token的关键,

不是GPU贵不贵,

是GPU闲不闲。

单位产能高,成本就越低。

同样的时间下,总产能上不去,

单位产能不可能高。

打开网易新闻 查看精彩图片

三个指标的属性是啥?

1.TPOT(Token之间延迟)

是体验指标,度量用户感受。

2.Goodput(有效Token吞吐)是效率指标,

体验达标前提下的最大承载量。

3.Cost per Token是经济指标,商业可行性。

终极优化目标:

在Cost per Token最低的前提下,

最大化有效Token的吞吐(Goodput)。

旧思路是:

假设网络性能强了,用户体验就好了。

新思路是:

先定义用户需要什么体感,

反推网络需要做到什么。

比如,文本的TPOT小于50ms,

语音的TPOT小于10ms。

旧思路下网络团队可以自己猛猛优化。

新思路下必须跟推理业务坐在一起。

即便是以前老指标都上了新台阶,

并不代表推理业务部门,

也就是推理集群使用者的用户体验,

我们现在要和他们一起共同制定指标。

网络很牛逼,使用者无体感。

思路彻底转向关注于『体感』,

先做到体感优,再此基础上降低成本。

结论很清楚了,这是一个Token为中心的世界。

网络的技术考量都融进去了。

打开网易新闻 查看精彩图片

按这个趋势,

AI基础设施团队应该长这样:

不再有孤岛似的,

"网络团队""存储团队""计算团队"。

取而代之的是"Token生产团队"

你看,顺着我的逻辑,

是不是觉得阿里这次组织架构调整,

是如此的顺理成章。

这是一个在AI浪潮下激流勇进的团队。

26年3月16日,
阿里巴巴正式成立ATH事业群,
目标:创造Token(通义模型训练),
输送Token(MaaS模型推理),
应用Token(千问+悟空+创新),
AI的基础设施是阿里云与平头哥。

打开网易新闻 查看精彩图片