DeepSeek-V4上线了。但这次,资本市场给的不是掌声,是实打实的真金白银。
4月24日,DeepSeek新一代大模型V4预览版正式上线并开源。就在消息公布的当天,A股国产AI芯片板块直线拉升——杰华特大涨16%、华丰科技大涨12%、海光信息涨超8%、寒武纪涨超3%。这不是一次普通的模型迭代。V4最大的看点,不是参数更高、能力更强的新模型,而是它首次在官方技术报告里,把国产芯片(华为昇腾)的验证清单和英伟达GPU写在了同一页上。与此同时,华为宣布昇腾超节点全系列产品全面支持DeepSeek-V4系列模型,模型发布与算力适配同步推进。八家国产AI芯片厂商——华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、昆仑芯、平头哥真武、天数智芯——几乎在24小时内完成了“Day 0适配”。
过去十几年,几乎所有主流AI模型的研发和部署都绕不出英伟达CUDA生态的包围圈。今天,这条看似坚不可摧的锁链,终于被撬开了一道实实在在的口子。
一个值得关注的信号是,几乎同一时间,英伟达市值时隔近6个月重新站上5万亿美元大关,英特尔CEO陈立武宣布AI需求正驱动行业逼近万亿级潜在市场。这不是“一个涨、另一个就得跌”的零和博弈——全球AI算力市场正在经历一场规模空前的扩容,在这个万亿级增量池里,国产算力正在从“备胎”变成“主力”。
当国产算力与全球大市场同时站在一个更宽的跑道上,创始人的机会在哪?威胁又在哪?今天,我从三个维度拆开看看。
“去CUDA化”的首个万亿级模型,让国产算力真正有了“跑过大模型”的底气
DeepSeek-V4到底突破在哪?两个东西对创始人来说最值得关注。
第一个突破:
全栈开源+超长上下文,AI应用的边界被硬生生拓宽了一大截。
DeepSeek-V4按参数量分为两个版本:Pro(1.6万亿总参数,激活490亿)和Flash(约2840亿总参数,激活130亿),在官方网页端和APP端分别对应“专家模式”和“快速模式”。新模型将上下文处理长度由此前的128K显著扩展至100万Token(百万级),实现近10倍的容量提升。100万Token意味着在长文本、复杂推理和Agent自动化任务等场景,很多过去根本做不了的AI应用可以直接落地了。DeepSeek-V4-Pro在Agentic Coding评测中已达到当前开源模型最佳水平,内部评测显示其交付质量已接近Claude Opus 4.6的非思考模式。对创始人来说,这意味着AI可以“干更复杂的活”了。
第二个突破:
CANN生态打响了“跑得过万亿模型”的第一枪。
在算力侧,昇腾950超节点已针对DeepSeek-V4实现了低时延与高吞吐的关键突破。昇腾950PR FP4算力达1.56 PFLOPS,是英伟达对华特供版H20的2.87倍,推理速度较初期版本提升约35倍。在成本上,昇腾950PR单卡价格约7万元,仅为英伟达H200的1/3左右。昇腾950PR的采购价格约为英伟达同等性能芯片的1/3到1/4,低精度推理场景下展现出超越通用GPU的效率。
更重要的是,智源研究院牵头研发的FlagOS已针对V4-Flash版本完成覆盖8款以上AI芯片的适配。在通用推理任务中,相比传统非融合基线方案,性能提升达1.5到1.73倍;在延迟敏感型场景中,如强化学习推演与高并发智能体服务,最高可实现1.96倍加速。DeepSeek-V4已从底层代码完成了从CUDA到CANN生态的迁移。这是“自主算力堆跑大模型”系统性工程能力的一次整体进阶,对未来任何希望接入国产算力的AI企业,都是一条实实在在的“通路”。
同时必须正视迁移过程中的工程风险:CANN在第三方库支持、调试工具链上仍不及CUDA,关键算子迁移中可能仍需要人工介入。对于个人开发者和小团队的迁移门槛依然存在,迁移成本不能简单等同于算力硬件采购。建议企业至少预留2-3个月的并行验证周期。
“去CUDA化”的成本账:这不是“非此即彼”,而是“多了一条路”
很多创始人听到“迁移到国产芯片”的第一反应是:又要从头写代码,太麻烦了。但从整个算力生命周期来看,这个账值得重新算一遍。
华为CANN框架已实现超95% CUDA代码兼容,迁移成本从“按月计”压缩到“按小时计”。假设一个典型AI应用公司月推理成本100万元,切换到昇腾950PR后,依托其性价比优势,年算力费用可节省约30%以上。算力消耗最大的业务模块优先完成迁移验证后,再逐步扩大国产算力覆盖比例,是一条逐步释放成本红利的可行路径。这不是“非此即彼”,而是“多了一条省钱的路”。
但必须正视的事实是:CANN在第三方库支持、调试工具链上仍不及CUDA的成熟度;兼容95%不等于剩余5%的关键算子能自动跑通不报错。对于个人开发者和小团队的迁移门槛依然存在。黄仁勋本人的话值得反复读:他在4月的播客访谈中警告,过度限制无法阻止中国进步,反而会逼中国建立完整的自主生态。当昇腾超节点产能逐步释放,国产模型API的定价将更便宜。
创始人的“迁移账”:怎么算才不吃亏?
“国产算力+国产大模型”这个新组合真的会让你“跑得更省钱”吗?算好三笔账就够了。
第一笔:推理成本账。DeepSeek明确表示,预计下半年昇腾950超节点批量上市后,V4-Pro的价格将大幅下调。昇腾950服务器的出货量也即将迎来爆发,意味着你需要支付的算力单价在不远的将来会越来越低。
第二笔:供应链安全账。在美国出口管制步步收紧的大背景下,如果你完全依赖英伟达,算力供应链的脆弱性正在放大。国产大模型与国产芯片的深度绑定,不仅是在建一个更可控的算力供应链,更是在提前卡位算力资源的价格博弈。越早完成国产算力的评估与可行性验证,未来几年面临的“算力紧约束”可能越小。
第三笔:未来API定价账。当昇腾超节点产能逐步释放,国产模型API的定价将更便宜。对于在商业模式中重度依赖API调用的企业,算力单价下行意味着产品的利润上限还将继续向上走一大截。但前提是:你得现在就开始着手评估,而不是等到涨价落地再被迫进行仓促迁移。
算力不再是廉价的公共资源。它的全面涨价,是整个AI行业从“先占地盘”转向“精打细算”的分水岭。这场算力资源的价格重构,正在倒逼所有参与者重新做一道题:你的核心竞争力,到底在哪?
说到底,不是算力变贵了,而是那些靠算力便宜才能活下来的企业,该醒醒了。
核心数据来源:DeepSeek官方发布、36氪、凤凰网、IT之家、21世纪经济报道、经济观察报、第一财经等多方媒体公开报道,关键数据均已交叉验证。
免责声明:本文仅为个人分析,不构成任何投资建议。
热门跟贴