雷峰网消息,1月27日,国产GPU厂商曦望(Sunrise)正式发布新一代推理芯片“启望S3”,并同步推出面向大模型推理的“寰望 SC3”超节点方案及推理云计划。

打开网易新闻 查看精彩图片

这一系列动作直指行业痛点。

此前AI芯片厂商普遍陷入“拼峰值性能”的竞争怪圈,但不少行业人士指出,以超节点为例,产品存在明显“规模甜点”效应:一旦超过性能阈值,提升幅度便会边际递减,盲目追求超大算力规模反而会造成GPU闲置率攀升、单位Token成本高企的问题。

推理场景下,用户需要的是“成本可控、性能适配、稳定可靠” 的算力。如何走出差异化的路线?

“我们抛弃了传统的训推一体GPU为训练准备的冗余设计,不追求峰值TFLOPS性能,而是把真实业务场景中的单个Token成本、能耗,以及SLA的稳定性,作为所有设计决策的根本出发点。”曦望董事长徐冰在发布会现场阐述到。

为了达到这个标准,启望S3作为面向大模型推理深度定制的GPGPU芯片,如何围绕真实推理负载完成对算力结构、存储体系与互联方式的系统级重构?

从“性能峰值”到“单位成本”,推理正在重新定义GPU设计目标

推理算力的爆发式增长,已成为行业当下最核心的关注焦点。对此,曦望在发布会上,给出两组数据:

到2026年,推理算力在整体AI算力中的占比将达到66%,这并非遥远的趋势预判,而是正在发生的行业结构性变化,推理已从AI产业链的“配角”跃升为“主力”;

当前推理成本在AI应用总支出中的占比已高达70%,直接决定着AI企业的盈利空间与商业化成败。只有将推理成本从现有量级大幅压低,实现阶梯式下降,AI才能真正摆脱高成本束缚。

“当推理成为主要算力消耗场景后,GPU的商业价值不再取决于参数指标,而是单位Token的真实成本。”曦望联席CEO王勇表示。

这一判断,决定了启望S3的设计方向。

打开网易新闻 查看精彩图片

在算力层面,S3支持从FP16到FP4的多精度灵活切换,使模型在保证效果的前提下,最大化提升低精度推理效率。这种设计更贴合当前MoE和长上下文模型在推理阶段的实际需求。

在存储层面,S3采用LPDDR6显存方案,成为国内首款采用该方案的芯片。相比HBM路线,LPDDR6更强调容量与能效比。官方数据显示,S3的显存容量较上一代产品提升4倍,有效缓解了大模型推理中普遍存在的显存驻留与访存瓶颈。

在DeepSeek V3 / R1满血版等主流大模型推理场景中,S3单位Token推理成本较上一代产品下降约90%。曦望方面称,这一指标已具备工程可复现性,而非单点实验室数据。

打开网易新闻 查看精彩图片

此外,曦望同步发布了面向大模型推理的寰望SC3超节点解决方案,该方案支持单域256卡一级互联,可高效支撑PD分离架构与大EP规模化部署,显著提升推理阶段的系统利用率与稳定性,适配长上下文、多并发、多专家并行等复杂推理场景。

在交付形态上,寰望SC3采用全液冷设计,具备极致PUE表现,并支持模块化交付与快速部署。在同等推理能力量级下,该方案可将整体系统交付成本从行业常见的亿元级,降低至千万元级,实现一个数量级的下降。

打开网易新闻 查看精彩图片

在软件层面,曦望构建了与CUDA兼容的基础软件体系,覆盖驱动、运行时API、开发工具链、算子库和通信库,降低推理应用的迁移门槛。目前,该体系已适配ModelScope平台 90% 以上主流大模型形态,包括DeepSeek、通义千问等。

打开网易新闻 查看精彩图片

推理算力如何更好用?云平台打通落地的“最后一公里”

S3回答了推理性价比的命题,但对于大部分用户而言,其对算力需求的产品形态应为云上算力资源,而非裸金属资源。

让推理算力更好用,不应止步于造出芯片。为此,曦望与商汤科技、第四范式等生态伙伴探索的推理云平台。

打开网易新闻 查看精彩图片

通过GPU池化与弹性调度,曦望将底层算力整合为统一的推理算力池,并以MaaS作为核心入口,使企业无需关注底层硬件配置与集群运维,即可按需调用大模型推理能力。

这一体系也成为“百万Token 一分钱”推理成本的重要技术基础。

“推理时代的核心不是把芯片卖出去,而是能否持续、稳定地把算力转化为可交付的生产力。谁能持续降低推理成本,谁就掌握了AI产业的成本曲线。”曦望董事长徐冰表示。

据披露,曦望2025年推理GPU芯片交付量已突破1万片,标志着其推理GPU路线完成从工程验证到规模化交付的关键跨越。

中国工程院院士、浙江大学信息学部主任吴汉明也指出,推理算力价值的实现离不开协同,需要芯片设计、系统集成、软件开发到产业应用的全链条协作。

在国产GPU行业从“拼参数”走向“拼单位经济成本”的拐点上,曦望选择以推理为切口,尝试重构 GPU 的产品形态与算力交付方式。All-in推理的实践,正在成为观察中国推理算力商业化进程的重要样本。