当豆包大模型的日调用量悄无声息地跨过50万亿tokens大关时,很多人还没意识到,这串数字背后是一场静默的“电力”革命。算力,这个AI世界的“电能”,其生产与消耗的方式正在被彻底重构。
在不久前的雪球嘉年华上,云天励飞董事长兼CEO陈宁的分享,点破了这场变革的核心:我们正从打造“发电厂”(训练)的时代,快步跑入经营“电网”(推理)的时代[citation]。他认为,2025年这个所谓“AI应用爆发元年”,真正的里程碑是智能体(Agent)从展示柜走向生产线,而这直接引爆了百倍于以往的推理算力需求。
推理:一个“精打细算”的新赛场
过去的AI竞赛,充满了英雄主义式的比拼——堆参数、拼制程、刷榜单,目标是在实验室里锻造出最强大的“大脑”。这就像不计成本地研发一辆极限速度最快的F1赛车。英伟达凭借CUDA生态,成为了这个赛道上无可争议的“引擎供应商”。
但智能体时代的需求变了。当AI要像“数字员工”一样,为成千上万人同时处理写邮件、做分析、调数据这些日常任务时,关键就不再是单次回答能多炫酷,而是能否持续、稳定、便宜地提供服务。这更像是运营一个庞大的网约车车队,客户不在乎你的车极速有多高,只关心每公里成本是否足够低、叫车响应是否足够快。
“训练追求极致性能,而推理要商业化,必须讲求市场经济,追求极高的性价比。”陈宁的这句话,道破了算力产业重心迁移的商业本质。也正是这个转折,为中国芯片产业撕开了一道难得的口子。
中国的“爱迪生”时刻?
在训练赛道上追赶,我们不得不面对先进制程受限和CUDA生态高墙的现实,差距是客观存在的。然而,推理赛道呈现的是另一番景象。全球都刚起步,游戏规则从“拼绝对性能”转向了“拼系统工程优化能力”——如何在真实的成本、功耗约束下,把算力效率榨取到极致。
这恰恰是中国产业所擅长的领域。我们擅长在给定的框架内,通过架构创新、工程优化和完整的供应链协作,做出最具性价比的产品。事实上,市场已经给出了信号:谷歌明确“训推分离”,博通为科技巨头定制推理芯片,都预示着一个独立而庞大的推理芯片市场正在崛起。
机会窗口或许已经打开。一些国内企业不再盲目跟随“堆算力”的旧叙事,而是开始围绕推理的真实负载设计芯片。例如,中国电信研究院与北京大学合作,通过算法和架构的协同创新,成功将某些大模型的硬件部署成本降低了超过80%。这正是一种典型的、在推理赛道上“精打细算”的突围思路。
降本之战:从“一分钱”的目标到千倍的压力
成本,是横在AI规模化面前最现实的一座山。陈宁提出了一个清晰的目标:要在较短时间内,把“百万token”的推理综合成本打到“一分钱”级别。这听起来像个技术宣言,但其背后是严峻的产业压力。
我们可以简单算一笔账:如果豆包大模型日均50万亿token的处理量不再增长,其所需的资本和运营开支已是天文数字;而若规模继续攀升,明年的计算量可能触及百万亿级。届时,对电力、散热等基础设施的需求,可能会出现令人咋舌的“千倍级”跃迁。不把单位成本降下来,AI的应用爆发根本无从谈起。
这场降本攻坚战中,单纯的硬件“军备竞赛”效果有限。真正的突破点在于 “架构革命” 。陈宁介绍了云天励飞提出的GPNPU架构思路,其核心不是模仿,而是取舍——在兼容主流开发生态的同时,针对推理任务中“预填充”和“解码”等不同阶段对算力、带宽的差异化需求,进行软硬件一体的深度优化。目标是在计算、存储和带宽之间找到最佳配比,从系统层面降低用户的总体拥有成本。
尾声:一场关于“现实感”的竞赛
说到底,AI产业正在经历一场从“技术理想”走向“商业现实”的深刻转变。国家层面的蓝图已经绘就,到2027年,AI智能体在重点领域的渗透率要超过70%。实现这个目标,靠的不是实验室里的benchmark(性能基准测试)冠军,而是能在工厂、办公室、家庭里稳定工作,且账单不会让人窒息的“实干家”。
推理芯片的赛道,比的正是这种赋予AI以“现实感”的能力。在这里,中国公司第一次与全球竞争者站在了相近的起跑线上。这场竞赛的终局,或许不是诞生一个替代英伟达的单一巨头,而是成长起一批能在政务、金融、工业等“粮食产区”深耕,提供稳定、可靠、划算算力服务的新力量。
当智能体开始真正接管我们的一部分工作,或许我们不会记得驱动它的芯片型号,但整个社会运转效率的提升和成本的降低,会成为这场“算力范式迁移”最有力的注脚。
热门跟贴