2025年末的AI圈,早就不流行比谁的模型参数多了。

全球都在往智能体规模化落地的赛道里冲,这根本不是什么“竞速赛”,而是实打实的“生死淘汰赛”。能不能把成本降下来,直接决定一家AI企业能不能盈利,甚至能不能活到明年。

浪潮信息首席AI战略官刘军最近的一句话,直接点破了行业的痛点:就算已经把推理成本压到1元/每百万Token,这个价格依然偏高,撑不起AI的大规模普及。

这话听着有点“吹毛求疵”,但看完行业里的真实数据才知道,AI降本这场仗,咱们才刚撕开一道口子,真正的硬骨头还在后面。

打开网易新闻 查看精彩图片

你有没有发现,现在AI行业的处境,跟十几年前的互联网特别像?

早年拨号上网,流量按KB计费,打开一个网页都要等半天,谁能想到现在几十G的流量随便用,价格便宜到近乎免费?

每一次通信成本的大幅下降,都直接催生出视频流媒体、移动支付这些全新的行业生态。

现在的AI,也走到了这个关键的临界点。但麻烦的是,AI的需求增长速度,远比成本下降速度要快得多,简直是“需求在飞,成本在走”。

打开网易新闻 查看精彩图片

每百万Token的成本只要下降1美元,每月就能省下1亿美元的开支。Token成本就是AI企业的核心竞争力,更是决定生死的入场券,这话一点都不夸张。

但目前行业的成本现状,真的不容乐观。

说白了,现在做AI大多是“烧钱换流量”,盈利难如登天,而降本,就是唯一能破局的活路。

我跟你讲,AI降本难,根本不是因为硬件太贵,真正的病根在于“架构错配”——用着训练模型的架构去做推理,就像用跑车拉砖,看着高端,实则效率低到离谱。

现阶段,Token成本里80%以上都来自算力支出,但这些花大价钱买来的算力,大部分都被浪费了,相当于“花100块钱办10块钱的事”,纯纯的资源浪费。

首先是算力利用率“倒挂”得厉害。因为Token是“逐字生成”的,每生成一个Token,都要加载整个模型的参数,相当于每次都要把一本厚书全翻一遍,就为了看其中一个字。

打开网易新闻 查看精彩图片

结果就是,昂贵的GPU大部分时间都在等着数据搬运,真正在工作的时间少得可怜,实际利用率只有5%-10%。

这就像你花高薪雇了个专业厨师,结果每天只让他煮泡面,纯属大材小用,成本能不高吗?

这不仅会占满GPU昂贵的显存,还会因为频繁读取数据,导致功耗飙升。

为了解决这个问题,企业只能被迫使用价格高昂的HBM显存,进一步推高了硬件成本。这种“存算分离”的模式,不仅慢,还费电,成了降本路上的一大绊脚石。

更坑人的是网络通信成本。当模型规模大到单台服务器装不下时,就需要多台服务器协同工作,跨节点通信就成了新的瓶颈。

打开网易新闻 查看精彩图片

传统的网络延迟极高,通信消耗的时间,能占到总推理时间的30%以上。

为了保证响应速度,企业只能靠堆砌更多的服务器和网络设备来弥补,这就陷入了“越堆越贵,越贵越难盈利”的死循环,整体投入成本直线上升。

从另一个角度看,这也是行业转型的必经之路。以前大家做AI,都忙着堆算力、比参数,觉得“参数越大,模型越牛”,现在终于醒悟过来,单位算力能产出多少价值,才是真正的核心竞争力。

就像何恺明团队提出的JiT架构,砍掉冗余组件回归极简,本质上就是通过架构优化提升效率,这也是AI降本的核心思路。

面对这些痛点,浪潮信息推出的元脑HC1000超扩展AI服务器,算是打了一场漂亮的突围战——直接把推理成本击穿到1元/每百万Token,这在行业里还是头一遭。

打开网易新闻 查看精彩图片

这个成本突破,不是靠“硬件降价”这种小打小闹,而是从根上重构了系统架构。以前做AI服务器,都追求“大而全”,什么功能都往里面加,就像一个塞满了杂物的工具箱,用的时候找半天。

而浪潮这次的思路,是“极简主义”——围绕降本这个核心目标,把推理流程拆成一个个细小的工序,像工厂流水线一样分工。

让不同的计算模块在不同的芯片上各司其职,把每一块芯片的性能都榨干,让“每一分钱的硬件成本,都能产出对应的价值”。

打开网易新闻 查看精彩图片

AI行业的“烧钱狂欢”早该结束了,2026年就是AI企业的盈利生死线。1元/百万Token不是降本的终点,而是新一轮竞赛的起点。架构革新、效率提升才是真正的核心竞争力,谁能先把成本压到“厘时代”,谁就能掌握智能体时代的话语权。靠堆砌资源赚快钱的日子一去不返,唯有深耕技术优化,把每一分算力都用在刀刃上,才能在AI赛道里活下来、赚得到钱,真正让AI走进千家万户。