2026年4月的最后一天还没过完,科大讯飞研究院院长刘聪在业绩说明会上抛出的一句话就在AI圈子里炸开了锅。他说的大意是:讯飞星火仍然是中国主流大模型中唯一基于全国产算力训练的通用大模型。
全网都在讨论这款1.6万亿参数的巨型模型,讯飞偏偏选这个档口抛出"我们在国产算力上比谁都快"的表态,这既是技术自信,更是战略定位上的一次主动划线。先说清楚一件事,很多人可能搞混了:DeepSeek V4和讯飞比的根本不是同一个维度。
DeepSeek V4技术报告中明确写道,团队在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度EP方案。
训练大模型好比从头教一个孩子认识世界,需要反复运算、频繁更新参数、处理海量数据之间的关联关系,对算力底层的精度对齐、算子覆盖率和万卡级别的互联稳定性都有极端苛刻的要求。
推理则是把学好的知识拿出来用,对时延和吞吐量敏感,但工程复杂度远低于训练。如今行业里绝大多数厂商走的都是"英伟达做训练、国产芯片做推理"的折中路线,原因很简单——英伟达CUDA经过二十年积累,拥有一套极为成熟的生态。
科大讯飞在2023年10月就和华为联合推出了"飞星一号"万卡算力平台,从那以后每一版星火大模型都坚持在国产算力上做训练,包括星火4.0 Turbo、星火X1、X1.5和今年春节前的星火X2。这条路走了两年半,中间的痛苦程度超出外界想象。
讯飞董事长刘庆峰曾公开承认,当行业头部企业拥有十几万张高性能算力卡时,科大讯飞仅靠2万余张国产算力卡攻坚,算力资源相差达十几倍。硬件差距摆在那里,数字不会骗人。
昇腾910B这款前一代主力芯片,显存容量约64GB,带宽约1.6TB/s,与英伟达H200相比在显存容量和带宽上存在明显短板。讯飞的工程团队在训练过程中碰到的困难,远不止跑得慢这么简单。
算子库的缺失导致某些运算路径根本走不通,精度对齐问题让训练结果和预期之间出现漂移,910B的通信机制又让强化学习阶段的采样推理效率大打折扣。这些坑,每一个都需要数周甚至数月去填。
刘庆峰在这次业绩说明会上直言,每当国际上出了新的主流算法,在英伟达卡上可以直接上手跑,但迁移到国产卡上还得额外花三到六个月做适配。
举个已经发生过的例子:讯飞通过算法优化和算子库创新,将深度推理模型训练效率从30%提升至84%,MoE模型训练效率从30%提升至93%。这两个数字背后是无数次集群崩溃、无数个通宵调试堆出来的工程积累。
讯飞付出了什么代价?财务报表给出了答案。
2025年,科大讯飞智慧教育业务营收89.67亿元,同比增长24.04%,全年总营收271.05亿元,同比增长16.12%。看起来增长不错,但同一年公司研发投入超过53亿元,占营收比重接近五分之一,这在A股科技板块里属于非常激进的水平。
为了给这场"持久战"储备弹药,科大讯飞2026年3月拿到了证监会的40亿元定增注册批复,其中24亿明确指向算力平台建设。一家年利润不到10亿的公司,拿出24亿来租国产算力卡,这不是生意人的精明算计,而是一种近乎执拗的路线选择。
而就在讯飞默默填坑的这两年半里,外部环境发生了剧烈变化。近年来美国对华高端AI芯片的出口管制持续收紧,从最初的A100、H100禁售,延伸至特供版H20的许可限制,到今年4月,美国高端芯片实质对华禁售。
这种步步紧逼的态势,使得国产算力从一个"值得探索的方向"变成了"必须走通的命脉"。从这个角度再看讯飞的坚持,意义就超出了一家企业的商业逻辑。
刘聪在业绩说明会上明确表示,公司在央国企落地应用上提供算力、工具链、定制化落地一体化服务,满足政企合规化、私有化部署需求。这种打法精准瞄准了开源模型和DeepSeek难以覆盖的价值区间。
值得注意的是,讯飞不再是国产算力训练赛道上的孤勇者。
就在DeepSeek V4发布同日,美团LongCat-2.0-Preview也开放测试,据知情人士透露,其训练推理全程依托国产算力集群完成,训练阶段动用了5万至6万张国产算力卡,是迄今为止国产算力上完成的规模最大的大模型训练任务。
一家以外卖起家的互联网公司,居然能在国产芯片上跑通万亿参数MoE模型,这个信号的含金量不亚于DeepSeek V4本身。这两家的同日亮相绝非巧合。
围绕DeepSeek V4的讨论,很快从"模型能力如何"转向"它运行在什么硬件和软件生态上"。这说明中国大模型竞争已经进入更底层的阶段:不仅要做出强模型,还要证明模型可以在国产算力体系中训练、部署和规模化调用。
这是我判断整件事走向时最看重的一个趋势转变。真正可能改变格局的变量,在于华为昇腾芯片的代际升级。
2026年3月华为中国合作伙伴大会上,搭载昇腾950PR处理器的Atlas 350加速卡正式上市销售。和前一代910系列相比,这块卡在几个关键指标上实现了跨越式提升。
据华为昇腾计算业务总裁张迪煊介绍,Atlas 350的单卡算力达到了英伟达H20的2.87倍,HBM容量达到112GB,是H20的1.16倍,内存访问颗粒度从512字节减少到128字节,小算子访存效率提升4倍。
更关键的是950PR原生支持FP4和FP8低精度数据格式,这恰恰是DeepSeek V4在模型架构上大量依赖的精度类型。
DeepSeek V4技术报告披露,其MoE专家权重和稀疏注意力索引器都采用FP4精度,而FP4正好是昇腾950PR的原生支持精度。硬件和算法在精度路线上的不谋而合,预示着下半年双方的深度协同会更顺畅。
讯飞方面也已经表态,正在针对950芯片做深度对接,有望在今年"1024开发者节"上发布对标国际先进水平的旗舰模型。
还有一个不该被忽视的时间线:面向训练场景优化的950DT计划在2026年第四季度推出,同期还有8192卡规模的Atlas 950 SuperPoD超节点。如果这两者按时交付,国产算力在训练端和英伟达体系之间的差距将被大幅压缩。
到那个时候,"训练用英伟达、推理用国产芯片"的折中路线还有没有存在的必要,会是整个行业需要重新回答的问题。我的看法是这样的:讯飞说的"比DeepSeek更快",不是在比谁的模型跑分更高、API更便宜。
DeepSeek V4-Pro限时优惠后缓存输入价格打到了0.025元/百万Tokens,这个极致性价比是讯飞的星火系列目前拍马都追不上的。在纯模型能力维度,DeepSeek V4确实站在了国内开源模型的塔尖。
但讯飞比的是另一条赛道——谁率先跑通了从芯片到框架、从训练到推理的全国产链路,而且不是实验室验证,是商业化交付级别的跑通。这就好比两支舰队在同一片海域航行。
DeepSeek V4是那艘火力最猛、航速最快的主力舰,它可以靠港加油(英伟达训练),也开始测试用自家燃料(昇腾推理)。而讯飞星火从一开始就只用自家油库,虽然航速暂时慢一些,但它证明了一件事:这条航线,不依赖外部补给也能跑完全程。
在当今大国博弈的棋局上,这个证明的战略分量,可能比任何一份跑分榜单都要重。2026年一季度,科大讯飞营收52.74亿元,同比增长13.23%;其中B端及C端业务增速达26.27%,境外收入激增167%,合同金额同比增长28.16%。
这组数字说明,市场正在为"自主可控"这四个字付费。刘庆峰甚至提出了一个更大胆的远景:未来五年,AI+量子计算有望出现颠覆性突破。
科大讯飞已经和清华大学量子计算团队成立了合资公司,在更远的时间尺度上押注算力范式的革命。这种布局,无论是否能兑现,至少说明讯飞的思考不局限于眼前这几万张卡的争夺。
比DeepSeek更快?如果把"快"定义为模型迭代的速度和社区影响力,答案显然是否定的。
但如果把"快"理解为在一条没有前人走过的路上率先抵达了某个可以站稳脚跟的位置,讯飞确实比同行都早出发了两年多。中信证券研报预计,2026年国产算力芯片出货量至少实现翻倍增长。
知名调研机构Bernstein Research甚至预测,2026年以华为昇腾为首的国产AI芯片市占率有望首次超过50%。这些数据指向一个不可逆的趋势:国产算力不是Plan B,而是正在成为主赛道。
谁在这条赛道上积累得更深、踩的坑更多、填的坑更早,谁就离那个"不可替代"的位置更近。从这个意义上说,"比DeepSeek更快"这句话,讯飞确实有资格说。
热门跟贴