4月24日,值得书写的一天。

DeepSeek V4发布,同日OpenAI发布GPT-5.5。两大模型隔空对决。

深圳梦注意到,一条微博热搜瞬间引爆全网——#。

这个预言就是:根据 DeepSeek-V4 技术报告点名华为昇腾,其并细粒度专家并行(EP)方案同时在英伟达 GPU 和华为昇腾 NPU 上完成验证,相比非融合基线在通用推理场景中实现。另据 DeepSeek 公众号披露,受限于高端算力,目前 DeepSeek-V4-Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后,其价格会大幅下调

当天,华为昇腾直播解读 DeepSeek-V4 技术,并披露昇腾 950 性能表现。

值得一提的是,OpenAI 首席执行官萨姆 · 奥特曼在社交平台上分享了英伟达 CEO 黄仁勋发给他的一封电邮,后者附上了他给英伟达全体员工的一封电邮,要求他们使用 OpenAI 的 Codex 编程工具。黄仁勋在邮件中写道:" 亲爱的英伟达员工们,基于 GPT-5.5 的 OpenAI Codex 现已正式发布,面向所有英伟达员工开放!我们 10000 名员工——涵盖工程、产品、法务、市场营销、财务、销售、人力资源、运营和开发者项目等各个部门——都已提前体验,并已用它创造了许多令人惊叹的成果…… Codex 不仅适用于软件团队,每个人都应该使用 Codex 智能体。它们是我们的队友,是让我们超越以往的超能力。更好、更智能、更快。OpenAl 和英伟达团队在 Endeavor 中搭建了一个 Codex 实验室,旨在极大地促进你们的入门学习。未来几周将举办一系列线上研讨会。让我们一起迈向光速时代。欢迎来到人工智能时代。"

深圳梦还注意到,4月24日,深圳技术大学一则推文称:4月24日上午,深圳技术大学在C3行政楼101报告厅举行“文化润心大讲堂”,特邀著名经济学家、泽平宏观创始人任泽平,为学校师生开讲“中国宏观展望:新周期”主题报告。他特别提到“AI不是风口,是海啸”等核心观点,并明确了企业出海、拥抱AI、挖掘新需求的应对路径。

是的,在深圳,“AI不是风口,是海啸”,让我们迈向光速时代!

AI海啸来了:DeepSeek V4发布,中国AI的"iPhone时刻"

这可能是我们这代人最重要的机遇。4月24日,DeepSeek V4发布,同日OpenAI发布GPT-5.5。两大模型隔空对决,但这一次,中国的牌不一样了。

01 黄仁勋说对了

4月15日,英伟达CEO黄仁勋在一档播客节目中突然拔高音量,说了一句分量很重的话:

"如果DeepSeek先在华为平台上发布,那对我们国家来说将是灾难性的。"

9天后的4月24日,华为昇腾CANN官方开启直播:DeepSeek V4昇腾首发。

一条微博热搜瞬间引爆全网——#。

而这场风暴的中心,有一个被很多人忽略的坐标:深圳

华为总部所在的深圳坂田基地,正是DeepSeek V4与昇腾芯片深度适配的技术策源地。2025年9月,昇腾超节点暨CANN生态合作大会就是在深圳龙岗华为坂田基地举办,汇聚了政府部门、龙头企业、科研院所,共同推动国产算力生态建设。4月24日当天,华为昇腾CANN官方直播也正是在深圳完成"DeepSeek V4昇腾首发"。

黄仁勋真正关注的不是中国做出好模型,而是顶级开源模型不再以英伟达CUDA生态为唯一优化起点。过去二十年,CUDA是全球AI开发的"默认操作系统"——写代码、跑模型、做训练,都绕不开英伟达。而现在,情况正在发生变化。

有趣的是,就在DeepSeek V4发布前后,OpenAI首席执行官萨姆·奥特曼在社交平台上分享了一封黄仁勋发给英伟达全体员工的内部邮件——黄仁勋在邮件中要求所有员工使用OpenAI的Codex编程工具来辅助日常开发。

一边在播客中警告"DeepSeek先在华为平台上发布将是灾难性的",一边在公司内部全力推动员工使用OpenAI的AI编程工具。黄仁勋比任何人都清楚:AI不仅仅是模型竞赛,更是生态和工具链的全面渗透。

DeepSeek首次在官方技术报告中,把华为昇腾NPU(神经网络处理器)和英伟达GPU(图形处理器)写进了同一份硬件验证清单——

"我们在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度EP(专家并行)方案。"

打开网易新闻 查看精彩图片

▲昇腾 950 性能表现(图源:昇腾 CANN 直播截图)

这标志着万亿参数级别的模型首次在正式文档中完成了对国产AI芯片的"官方认定"。全球开发者第一次看到:存在一条不依赖英伟达、同样可运行万亿参数顶级大模型的完整路径。

2025财年,英伟达全年营收1305亿美元,同比增长114%,数据中心收入达1152亿美元,依然是全球AI算力的绝对领导者。但在中国市场,英伟达GPU份额已从巅峰时期的95%降至约55%,国产AI芯片出货量占比已达41%。两条技术路线并行发展的格局正在成型。

02 开源的核弹:性能碾压、价格屠夫

4月24日,AI圈迎来真正的"神仙打架"。

OpenAI发布GPT-5.5,代号"土豆"(Spud),自GPT-4.5以来首次从零重训,API输入价5美元、输出价30美元每百万Token——价格直接翻倍。

同一天,DeepSeek发布V4预览版,同步开源,MIT协议,两个版本任你选:

DeepSeek V4-ProDeepSeek V4-FlashGPT-5.5总参数

1.6万亿

未公开

激活参数

490亿

130亿

上下文长度

100万Token

100万Token

100万Token

输入价格(元/百万Token)

1元

0.2元

约36元

输出价格(元/百万Token)

24元

2元

约216元

DeepSeek V4-Flash的输出价,是GPT-5.5的近百分之一。Pro版约为十分之一。

这不是差一点,这是降维打击。

更关键的是,性能并没有打折。在核心能力上,DeepSeek V4-Pro在多个基准测试中比肩甚至超越顶级闭源模型:

打开网易新闻 查看精彩图片

  • MMLU通用知识:92.8分(GPT-5为92.5分)

  • MMLU-Pro复杂推理:88.5分(GPT-5为87.5分)

  • HumanEval代码生成:93.8%(GPT-5为93.4%)

  • MATH竞赛数学:85.2分(GPT-5为84.7分)

  • SWE-bench真实编程:81.5%(Claude Opus 4.7为80.9%)

  • Codeforces编程竞赛:3206 Elo,相当于人类选手第23名,开源最高

在Agent能力方面,V4-Pro内部评测体验优于Claude Sonnet 4.5,交付质量接近Opus 4.6非思考模式。在第三方vals.ai榜单上,DeepSeek V4排名开源第一、全球第九

国产模型性能追平、成本碾压。这意味着什么?意味着AI开发者的成本门槛即将暴跌,国产AI应用即将迎来大爆发。

2025年,腾讯元宝接入DeepSeek后月活增长265%,豆包应用月活破1亿。而V4-Flash 0.2元/百万Token的价格,相当于让每一个中小开发者都能以接近零的成本构建自己的AI产品。

深圳是全国最早全面拥抱DeepSeek的城市。早在2025年2月,深圳就基于政务云环境面向全市各区各部门正式提供DeepSeek模型应用服务——超过160家深圳企业接入DeepSeek,28家市属国企举办DeepSeek专题研讨会,深圳海事局更是以昇腾910 AI服务器为核心落地了算力底座。从政务系统到水务环保,从金融证券到港口物流,深圳用最实际的动作证明:国产大模型不是概念,而是每天都在运转的基础设施。

长文本方面,DeepSeek V4全系标配100万Token上下文——相当于把整个《三体》三部曲一次性喂给AI。前代128K上下文已是一代人的记忆,如今直接提升近10倍,且通过创新的DSA稀疏注意力机制,在百万Token场景下,V4-Pro的单token推理FLOPs仅为前代的27%,KV缓存占用仅为10%。

百万Token,不再是昂贵的高配,而是标准配置。

普惠时代,真的来了。

03 国产算力的"iPhone时刻"

如果价格和性能只是"量变",那么DeepSeek V4与华为昇腾的深度适配,就是真正的"质变"。

4月24日上午,DeepSeek发布V4预览版。下午,华为官方宣布:昇腾超节点全系列产品全面支持DeepSeek V4。

这不是一次普通的商业合作。这是国产大模型与国产算力的标志性组合,标志着中国AI两条最粗的腿终于绑在了一起。

华为这次拿出的底牌令人震撼。昇腾Atlas 350加速卡搭载昇腾950PR处理器:

  • 单卡算力达到英伟达H20的2.87倍

  • HBM容量比H20多出16%(达112GB)

  • 多模态生成速度比H20快60%

  • 国内唯一支持FP4低精度推理

要知道,H20是英伟达专门为中国市场定制的合规版本,算力约为H100的三成。而昇腾950PR的性能接近它的3倍,成本却仅为三分之一。

在8K输入场景下实测:昇腾950超节点运行DeepSeek V4-Pro,TPOT延迟仅20ms,单卡吞吐达4700TPS;运行V4-Flash,延迟仅10ms。

华为说这"重新定义了长文本推理的性能天花板"。

DeepSeek官方在备注中写了一句意味深长的话:"受限于高端算力,目前V4-Pro的服务吞吐仍有限。预计下半年昇腾950超节点批量上市后,Pro版本价格会大幅下调。"

打开网易新闻 查看精彩图片

▲ DeepSeek-V4 技术报告

这意味着什么?意味着下半年国产算力大规模铺开后,顶级大模型的价格可能还有数倍的下降空间。

04 CUDA之外的选择:国产GPU集体起跑

DeepSeek V4与国产算力的深度融合,也让深圳这座"AI先锋城市"走到了聚光灯下。

2024年3月,深圳"20+8"产业集群2.0版发布,人工智能首次从软件与信息服务集群中独立升格,成为7个"战略重点类"产业集群之一——与半导体、新能源并列,举全市之力超常规支持。2025年3月,深圳发布《加快打造人工智能先锋城市行动计划(2025-2026年)》,提出到2026年实时可用智能算力超过80EFlops,规划建设十大AI产业集聚区,推出"训力券""语料券""模型券"降低企业成本。

数据显示,2025年深圳人工智能核心产业营收约2200亿,集聚典型企业超,2600家,正加速构建全球领先的AI产业生态。产业集聚,头部企业引领全栈创新在深圳AI产业的“雁首”,华为、腾讯、荣耀等企业持续释放技术动能。

2026年3月,深圳印发《加快推进人工智能服务器产业链高质量发展行动计划(2026-2028年)》,推动AI服务器全产业链——核心芯片、存储、液冷、高速光模块——在深圳创新集聚。

深圳在算力上也在全面迎战:3月26日,深圳市投建的11000P 智能算力集群正式点亮,加上去年先期点亮的3000P,目前该集群已全面建成14000P智能算力。这是全国首个使用全国产先进芯片构建的万卡级全栈自主可控智算集群。

此次点亮的智能算力集群是全国首个万卡昇腾910C超节点智算集群,其投运标志着深圳构建自主可控算力底座上取得突破性进展。该项目全部采用国产先进芯片,依托全栈自主可控技术,打造具备国际竞争力的“昇腾+CANN”自主软硬件生态,有效引导人工智能底层技术创新,推进关键技术国产化进程。

值得一提的是,深圳正在打造全栈自主的基础算力底座。训练芯片方面,华为构建从芯片、集群、软件栈、开发框架到行业应用的全栈自主可控AI计算生态,全面对标替代英伟达计算生态,昇腾910系列芯片性能比肩国外主流产品,成为国产AI芯片的主力军。在端侧AI芯片及推理芯片方面,云天励飞、云豹智能、鲲云科技、墨芯科技等公司相关芯片,已在细分场景实现商业化落地。

回到4月24日。除了华为昇腾,寒武纪、摩尔线程、天数智芯等国产芯片厂商同步宣布Day 0适配

这不是一家企业在战斗,是整条国产算力产业链在同一天起跑。

2025年,国产AI芯片迎来"丰收之年"。寒武纪首度全年盈利,营收65亿元,同比增长453%;天数智芯营收10.34亿元,同比增长91.6%;摩尔线程营收15.06亿元,同比增长243%;沐曦股份营收16.44亿元,同比增长121%。

国产AI芯片出货量占比已达41%,英伟达份额从95%跌至55%。山西证券研报预测,国产化替代率即将突破50%的关键转折点

更深层的变化在生态层面。2025年8月,华为宣布CANN(昇腾计算架构)全面开源,对标英伟达的CUDA。目前昇腾生态已吸引超3000家合作伙伴、400万开发者。阿里通义、字节豆包等头部大模型已完成从CUDA到CANN的全栈适配。

英伟达CUDA生态经过二十多年积累,拥有成熟的工具链和庞大的开发者社区,依然是全球AI开发的主流选择。而国产算力生态正在快速追赶——从"能用"到"好用"到"主动选择",完成了三级跳。两条技术栈并行发展,为全球开发者提供了更多选择。

05 新架构:花小钱,办大事

DeepSeek V4之所以能在性能和成本上同时碾压,核心秘密在于架构创新。

一是MoE混合专家架构——"聪明调度"。

DeepSeek V4-Pro总参数高达1.6万亿,但每次任务仅激活约490亿参数——只"唤醒"3%的专家来解决问题。V4-Flash更极致:2840亿总参数,只激活130亿。

打个比方:如果你的公司有16000名员工,但每次项目只需要调490名最对口的专业人员来干,效率和成本可想而知。

二是混合注意力机制——"兼顾全局与细节"。

V4首创融合两种注意力机制:CSA(压缩稀疏注意力)和HCA(重度压缩注意力)。处理长篇内容时,它既能精准定位关键细节,又能快速掌握宏观大意,算力需求较前代大幅降低。

三是FP4+FP8混合精度——极致压缩。

V4的MoE专家权重采用FP4精度,恰好是华为昇腾950PR芯片的原生支持精度。这意味着在国产芯片上运行V4,效率反而可能更高。

再加上Muon优化器替代AdamW实现更快收敛、mHC流形约束超连接增强传统残差连接、单token推理FLOPs降至前代的27%……

"花小钱,办大事",DeepSeek用中国智慧定义了AI效率的新标准。

06 这一代人的机遇

回到开头那个问题:为什么说这是我们这代人最重要的机遇?

因为AI正在从"比谁更聪明"进入"比谁更便宜、更快、更普惠"的新阶段。

黄仁勋说:"AI的终极目标,是将廉价的电子转化为高价值的Token。"2026年全球AI产业进入"商业兑现期",推理算力占比首次超过70%。这意味着AI不再是实验室里的玩具,而是深入每一个行业、每一个岗位、每一个日常场景的生产力工具。

OpenAI内部超85%员工每周使用GPT-5.5驱动的Codex。英伟达预计AI推理规模很快将达到训练负载的十亿倍。

而当推理成本降到DeepSeek V4-Flash的0.2元/百万Token时,每一个普通人都能拥有一个几乎免费的超级AI助手。

2025年中国算力市场规模预计达8351亿元,增长30%。上海、湖北、四川等多地智算中心明确要求国产芯片占比超50%。中国移动哈尔滨智算中心已实现100%国产化。

而深圳,正在成为这场AI普惠浪潮的"超级加速器"。

2026年深圳市政府工作报告明确提出:加快建设全球人工智能先锋城市,人工智能产业集群增加值增长10%以上,加强全栈自主可控AI软硬件生态建设。深圳开放智算中心位于河套深港科技创新合作区,规划打造10万卡级别超强算力集群;鹏城云脑Ⅲ作为国家级AI算力平台,正建设E级智能算力核心节点。

更关键的是,深圳拥有华为(昇腾芯片)、腾讯(云端算力)、大疆(具身智能)、比亚迪(智能驾驶)等一批具备全球竞争力的科技巨头,以及2800余家AI企业构成的完整产业链。当DeepSeek V4这样的开源"地基"遇上深圳这样的产业"高楼",从模型到算力、从芯片到应用的全栈国产化闭环,正在这里加速形成。

这不是技术竞赛的故事,而是一个万亿级产业从底层到应用全面重构的故事。

07 尾声:两条技术栈,两种未来,AI海啸已经来了

DeepSeek V4的发布,表面上看是一场模型更新,实质上是AI产业格局的一次深刻变化。

GPT-5.5以5美元/百万Token输入、30美元/百万Token输出的高端定价,走的是"美国技术栈"——闭源、高价、英伟达绑定、企业级市场。

DeepSeek V4以0.2元/百万Token输入、2元/百万Token输出的极致定价,走的是"中国技术栈"——开源、普惠、昇腾适配、全民可用。

黄仁勋说,世界分裂为两个技术生态是"灾难性的"。站在产业角度看,他的担忧有其合理性——全球AI生态的分裂会增加开发成本、降低效率。但站在中国角度看,自主可控的技术栈是产业安全的必然选择。

2025年7月,黄仁勋在北京接受采访时说过另一句话:"DeepSeek和通义千问都是世界顶尖的开源大模型。"他还说:"中国在开源方面做得很出色,不仅助力形成中国的人工智能生态,还推动了全球其他地区人工智能生态的构建。"

英伟达CEO预言成真,相信不仅不能成为”灾难“,更应该是对全球的重要贡献。

4月24日这天,DeepSeek V4和GPT-5.5同日上线,被称为AI圈的"双王炸"。两者的定价策略、生态路径、技术路线,已经勾勒出两条截然不同的未来图景。

深圳梦还注意到,4月24日,深圳技术大学一则推文称:4月24日上午,深圳技术大学在C3行政楼101报告厅举行“文化润心大讲堂”,特邀著名经济学家、泽平宏观创始人任泽平,为学校师生开讲“中国宏观展望:新周期”主题报告中,特别提到“AI不是风口,是海啸”等核心观点,简要分析了中国经济向高质量转型、以AI和新能源为核心的第四次科技革命等关键特征,并明确了企业出海、拥抱AI、挖掘新需求的应对路径。

是的,AI海啸已经来了。

不是看谁能造出最聪明的模型,而是看谁能把最聪明的模型送到最多人手里。

这一次,中国的回答是:开源、普惠、自主。

深圳的回案是:自主、可控、低成本国产算力供给。

本文数据来源:DeepSeek官方API文档、DeepSeek V4技术报告(58页)、华为昇腾官方公告、OpenAI官方公告、《2025深圳人工智能产业发展白皮书》、深圳市政府工作报告、深圳特区报、腾讯科技、36氪、21世纪经济报道等。

部分基准测试数据来自第三方平台vals.ai和arena.ai,最终以各厂商官方数据为准。

来源:深圳梦(微信号ID:SZeverything)

我们的使命是:星辰大海,只与梦想者同行!

拥有深圳梦,请关注(微信号ID:SZeverything)