百万Tokens推理成本降低100倍以上、DeepVerse技术路线图重磅公开、未来三年大算力战略清晰锚定——这幅AI算力进化的宏图正徐徐展开。
当AI大模型从训练走向应用,推理芯片的时代正在悄然来临。2月3日,云天励飞董事长兼 CEO 陈宁在“大算力芯片战略前瞻会”诠释了一个清晰的信号:All in AI大算力推理芯片,打造“中国版TPU”。
这家2014年成立于深圳的AI公司,在过去十年里走过了从小模型到大模型、从感知智能到通用智能的完整历程。
1
机遇
“从2025年开始,接下来5~10年将是AI推理芯片的高光时刻。”陈宁解释,单一大模型的算力需求正在以惊人的速度增长。
2024年下半年,豆包大模型的每日TOKEN数量为0.12万亿;而到了2025年9月,这一数字已突破30万亿;三个月后,再次攀升至50万亿。
陈宁强调:“这些激增的TOKEN数量就是未来第四次工业革命的电和水,是真正的核心生产力”。而如此海量的TOKEN需要的不是训练,而是推理。
一个典型的例子,英伟达刚刚花了200亿美元收购了一家ASIC推理芯片公司Grok,在短短四个月内,Grok的市值从70亿美元飙升至200亿美元,增长速度已经超越了英伟达。究其原因,陈宁认为:“因为在过去三年,推理芯片的增长已经潜移默化地超越了训练芯片的增长。”
2
布局
云天励飞的技术壁垒主要集中于两方面:独特的GPNPU芯片推理架构和基于国产工艺的全面能力。
GPNPU并非单一概念,而是一个高度浓缩的名词,包含了四个关键技术亮点:
首先是具有GPGPU级别的通用编程能力,实现CUDA兼容,让客户能够在GPU上训练的模型“一行代码”部署到云天励飞芯片上。
其次是NPU带来的推理效率提升,基于团队20年的NPU技术积累。由专用的指令集去实现单位硅芯片面积上更高效的计算密度,这也正是云天励飞团队所擅长。
第三个亮点是3D memory结构的引入,能够实现10倍于当前训练芯片HBM的超大带宽。
最后是“算力积木”架构,通过Chiplet技术将多个Die封装在单一芯片内,满足万亿级乃至十万亿级MOE架构大模型的推理需求。
由此得出:“GPNPU 是中国版TPU的最优解。”今年,云天励飞也将全面推出GPNPU的架构,并且打造更加丰富的生态。
3
差异
“训练芯片和推理芯片对于算力的需求完全不同。”陈宁解释了两者的根本区别。
训练芯片需要复杂的精度(16比特、64比特),对成本并不敏感;而推理芯片则更关注成本、效率和市场经济学,通常采用量化、剪枝技术,将复杂度从32比特降至16比特、8比特甚至更低。
“推理我们关注极致的性价比,要把百万TOKEN的成本每年降低100倍,到2030年我们要实现百亿TOKEN一分钱人民币。”陈宁立下目标。
这种对性价比的极致追求,也是云天励飞选择国产工艺的原因之一。早在2020年,他们就战略性决定将工艺转向国内,全面拥抱国产工艺。云天励飞CTO李爱军非常自豪:“五年的时间,我们从芯片的设计到先进的制程、封装,整个芯片的全流程都实现了全国产。”
4
战略
会上,云天励飞提出了明确的三年规划:将不遗余力投入大算力芯片DeepVerse的研发,围绕推理成本、时延与吞吐的核心矛盾持续迭代,并按产品节奏梯度覆盖市场需求。
陈宁展现出极强的信心:“在训练芯片领域,我们努力的目标是持续追赶,保持差距不被拉大。但是在推理芯片领域,中国完全有机会依托丰富的应用场景、电网和基础设施能力进行超车。”
5
生态
云天励飞的战略不仅仅停留在芯片层面。陈宁在演讲中详细介绍了该公司的“1+4”组织架构调整:聚焦AI大算力推理芯片的同时,打造了四个事业部。
这些事业部构成了云天励飞“把推理芯片不仅做出来,更要做好、卖出去”的完整生态。具体而言,政企事业部是公司的基石,在各个行业沉淀了大量knowhow;智算事业部面向互联网大厂;此外,他们还孵化了面向儿童的AI原生硬件智能体“噜咔”。“这四个事业部让云天励飞成为中国最懂AI的推理芯片领军企业。”
6
中国正站在第四次工业革命的门口。陈宁在演讲结束时描绘了一幅历史画卷:“中国四大发明曾经领先全球一两千年。今天在能源、开源模型、应用、基础设施上,中国可以说在全球领先,唯独AI芯片还未实现领先。”
AI推理芯片,正成为各国能否抢占第四次工业革命先机的关键。我们相信,随着云天励飞在国产大算力推理芯片上的全面布局,中国在这场AI芯片竞赛中已经找到了自己的跑道。
本文内容资料源自公告及媒体公开报道,不构成任何投资建议,如有任何问题,敬请读者与我们联系info@gsi24.com。
欢迎分享、点赞、在看,让更多人看到中国“芯”突破!
热门跟贴