浪潮信息刚搞出个大动作,把AI推理成本直接干到了1元/每百万token。
这事儿放在现在的AI圈,可不是小新闻。
毕竟现在智能体落地拼的就是生死竞速,降本早就不是选择题,而是能不能活下去的关键。
想理解这1块钱的分量,看看互联网发展史就懂了。
从拨号上网按KB收费,到现在5G流量随便用,每一次通信成本大降,都催生出一堆新应用,比如视频平台、移动支付。
现在AI圈也到了这个临界点。本来想觉得AI技术够强就行,后来发现根本不是这么回事。
技术进步让大家敢用AI做更复杂的事,比如能规划、会反思的智能体。
可这些复杂任务需要的token数量,是呈爆炸式增长的。
这就出现了个有意思的现象,越用越费token,反而让企业成本压力更大。
字节和谷歌的数据最能说明问题。
字节的豆包大模型,现在一天要用50万亿token,比去年同期涨了10倍还多,和刚推出时比更是翻了几百倍。
谷歌更夸张,一个月要处理1300万亿token,是一年前的100多倍。
浪潮的刘军说token成本就是竞争力,这话真没毛病,毕竟直接决定了智能体能不能赚钱。
为啥之前token成本降不下来?核心问题还是出在计算架构上。
现在AI圈早过了盲目堆算力的阶段,拼的是单位算力能产出多少价值。
但目前token成本里,八成以上都花在算力上,而且很多算力都被浪费了。
最明显的就是算力利用率的倒挂。
训练模型的时候,算力能用到一半以上,可到了推理阶段,尤其是实时问答这种场景,因为要一个token一个token生成,昂贵的GPU大部分时间都在等数据,实际能用的算力连十分之一都不到。
这就像买了辆跑车,却天天堵在小区里挪不动,纯属浪费。
还有个大麻烦是存储墙。
智能体处理的内容越长,需要缓存的数据就越多,这些数据不仅占地方,还特别费电。
而且这些数据和计算模块分开存放,不仅慢,还得用贵得离谱的专用存储,成本自然降不下来。
跨设备通信也是个坑,传统网络延迟太高,通信花的时间能占总时间的三成,企业只能靠多堆设备来补速度,钱就这么烧出去了。
如此看来,想降本真不能靠把一台机器做的更全,而是要把推理流程拆细,让每个硬件模块都发挥最大作用。
这也是浪潮搞新架构的核心思路。
知道了问题所在,破局就有了方向。
浪潮推出的元脑HC1000超扩展AI服务器,就是靠重构架构实现的成本突破。
要知道,之前主流大模型的百万token成本,海外的要十几美元,国内的也得十几块,这让很多企业想用钱都不敢。
这款服务器的核心是全对称的极速架构,每个计算模块配了16颗AI芯片,通信直接对接,不用绕路。
这样一来,不仅通信延迟低,还能实现无阻塞通信。
而且它支持超大规模扩展,推理性能能提升不少,单卡的算力利用率能翻好几倍。
另外,通过智能调度,缓存数据传输对计算的影响也降低了很多。
当然,1元/百万token还不是终点。
刘军也说了,面对未来更庞大的token消耗量,还得继续推动架构革新。
现在整个AI产业的风向,已经从追求规模转向追求效率。
比如开发专用的AI芯片,让算法和硬件更匹配,这些都是未来降本的关键。
毫无疑问,浪潮这次的突破,打通了智能体落地最后一公里的成本障碍。
接下来,随着架构不断优化,AI成本还会继续下降。
等到token成本实现数量级跨越,AI才能真正变成像水电煤一样的基础资源,走进更多行业和场景。
到那时候,智能体的规模化落地才算真正到来。
热门跟贴