2024年4月29日,路透社报道:自DeepSeek V4模型发布后,多家东大大陆网络与云端企业正加速向某厂下单,带动新一波抢购潮。
英伟达H200虽然已经批准对华销售,东大企业也有大量意向订单,但西大立法机关的强烈反对,东大监管的力度依然不减,角力导致卡死,至今没有实际出货。
因此,字节跳动、腾讯与阿里巴巴等大型企业,近期均已主动接触某厂洽谈新一批芯片订单。其它从事云端运算与GPU租赁服务的业者,也纷纷加入抢购行列,市场需求快速升温——As--cend 950系列芯片需求迅速攀升,2026年预计出货75万颗。
随着主要云端平台迅速导入DeepSeek V4模型,例如阿里云与腾讯云同步上线相关服务,大幅扩大AI应用规模,也进一步推高底层芯片需求。DeepSeek甚至推出限时75%价格优惠,刺激开发者使用。业界预计,即使有75万颗,950PR也难以满足市场需求。2026年下半年950PR大规模量产后,才有可能缓解。
950PR芯片,已经明显优于英伟达先前在大陆获准销售的H20晶片,但仍略逊于H200。 而DEEPSEEK V4型号包括两个版本:V4-Pro,参数1.6万亿,V4-Flash有2840亿参数,均支持一百万令牌上下文窗口。
950PR是目前东大唯一支持大模型压缩技术的东大国产芯片,可在降低成本的同时提升运算效率。
兵器迷注:
大模型压缩技术,是指在尽可能保持精度的前提下,通过技术手段压缩模型、加速推理计算,从而降低AI模型的大小和推理延迟。主要的大模型压缩技术,分为量化、剪枝、知识蒸馏、低秩分解四大路径。
量化:即降低权重与激活值精度减少模型体积与计算量。
剪枝:通过去除冗余参数减少计算量。
知识蒸馏:利用教师模型指导学生模型(学生)训练,传递软标签、特征或注意力分布。(Anthropic Claude Mini将模型缩至1/10大小仍保留85%以上性能)
低秩分解:将大矩阵分解为低秩子矩阵,减少参数与计算。
更为重要的是,As--cend 950打造的SuperNode架构,全面支持V4模型运算需求,完成了整体产品线适配;反过来,DeepSeek V4专门针对某厂芯片进行了全线优化。
不仅如此,更为难得的是:2026年4月24日,DeepSeek正式上线V4预览版并宣布开源时,国内三大AI芯片商,同日宣布对该大模型版本给予适配——
寒武纪完成DeepSeek-V4“Day 0”适配
海光DCU完成DeepSeek-V4“Day 0”适配
摩尔线程S5000 + 智源FlagOS:基于原生FP8引擎,Day-0适配DeepSeek-V4
这种国产算力与大模型生态协同进阶,软件-硬件协同优化的双向奔赴,象征东大AI产业正在基础底座上逐步降低对西大半导体依赖。
难怪黄仁勋在Dwarkesh podcast 上说:“如果有一天,DeepSeek 首度在华为芯片上发布,那将是对我们西大而言一个可怕的结果”。
西大对东大的出口管制正产生反效果——加速东大AI产业的内部整合。在近年来的东大AI发展中,已经开始呈现芯片、框架、算子库、通信库、编译器、集群调度和模型算法协同迭代的曙光。
这种“被迫”的深度融合,可能”催生出一个完全去A化的、垂直整合的AI技术栈,形成两个AI生态系统”——黄仁勋最担心的其实是这个。
AI大模型与国产芯片的共同体生态,是东大建立本土独立技术体系的一个缩影——软硬件双向奔赴,新生态静待花开。由此管中窥豹,我们可以看到:东大推动科技自主的战略方向之路,正在逐渐拓展、和延伸...
热门跟贴