打开网易新闻 查看精彩图片

消息来源:《金融时报》 | 编译整理

距上次重大发布逾一年之后,总部位于杭州的人工智能实验室DeepSeek计划于下周推出其最新大型语言模型,再度检验中国挑战美国AI霸主地位的雄心。

打开网易新闻 查看精彩图片

据两位知情人士透露,DeepSeek此次计划发布的新模型名为V4,具备图像、视频与文本生成功能,是一款”多模态”模型。 

适配国产芯片,规避美国出口管制

知情人士称,DeepSeek已与中国AI芯片厂商华为和寒武纪合作,针对其最新产品对V4进行优化。 此举被视为中国科技界更广泛努力的一部分——有意降低对英伟达市场主导地位芯片的依赖,后者目前受到美国出口管制的限制。

DeepSeek为V4优化国产芯片的举措,预计将提振国内半导体需求,并加速在AI”推理”环节——即由训练模型生成响应——从英伟达、AMD向国产替代芯片的转型。 

值得注意的是,据另一位知情人士透露,DeepSeek并未与英伟达就其产品优化展开合作。目前英伟达仍主导训练芯片市场,尤其在计算密集度极高的模型预训练阶段优势显著。 

DeepSeek此次新模型发布时间特意选在全国人大”两会”召开前夕——两会将于3月4日开幕。这场高规格政治盛会或将进一步巩固DeepSeek作为”国家AI旗手”的地位。 

这也将是DeepSeek自2025年1月推出R1推理模型以来首次重大版本发布。 此前,DeepSeek仅发布了小幅迭代更新,这使国内竞争对手阿里巴巴和Moonshot得以趁势抢占低成本、开源中文模型的市场需求。 

在信息披露方面,据一位直接知情人士透露,DeepSeek计划随V4发布一份简短技术说明,并于约一个月后发布更为详尽的完整报告。 

这与去年R1发布时的做法有所不同。去年发布的R1随附了详细技术报告,披露了DeepSeek更高效利用英伟达芯片进行训练和推理的工程方法,获得业界广泛赞誉。 

Anthropic指控DeepSeek”蒸馏攻击”

就在V4发布消息传出的同一周,Anthropic公开指控DeepSeek及另外两家中国AI实验室对其模型实施了”蒸馏攻击”——即利用更先进模型的输出结果训练较小模型,从而在无需相同算力的情况下复制其性能表现。 

背景:DeepSeek R1曾引发”斯普特尼克时刻”

当时,DeepSeek宣称仅凭所用算力的极少一部分,便构建出了可与硅谷顶尖模型媲美的系统,此举令美国科技股遭受重创,部分专家将其描述为象征中国AI快速崛起的”斯普特尼克时刻”。 

此次V4发布,将是DeepSeek能否在技术与政治的双重舞台上再度制造震动的又一次检验。