周五,中国人工智能公司DeepSeek发布了其备受期待的新一代旗舰模型V4的预览版。值得注意的是,得益于全新的设计,该模型能够更高效地处理大量文本,因此可以处理比上一代更长的提示信息。与DeepSeek之前的模型一样,V4是开源的,这意味着任何人都可以下载、使用和修改它。
V4 是 DeepSeek自2025 年 1 月发布推理模型R1 以来最重要的版本。R1 在有限的计算资源下训练而成,其强大的性能和效率震惊了全球人工智能行业,使 DeepSeek 几乎一夜之间从一支名不见经传的研究团队跃升为中国最知名的 AI 公司。它也带动了其他中国 AI 公司 发布开源模型的浪潮。
此后 DeepSeek 一直保持相对低调——但本月初,它在其模型的在线版本中添加了“专家”和“闪光”模式,这实际上是在预告 V4 的发布,引发了人们的猜测,认为这些更新与即将发布的更大版本有关。
虽然该公司已成为中国人工智能雄心的有力象征,但其重返尖端前沿模型领域之前,经历了数月的审查——包括重大人员离职、先前模型发布延迟以及来自美国和中国政府日益严格的审查。
那么,V4 会像 R1 那样撼动人工智能领域吗?几乎肯定不会,但以下三个重要原因说明这次发布意义重大。
1.它为开源模式开辟了新天地。
与之前的R1一样,DeepSeek声称V4的性能可以媲美市面上最好的模型,而价格却低得多。这对开发者和使用这项技术的公司来说无疑是个好消息,因为这意味着他们可以自主地使用前沿的AI功能,而无需担心成本飙升。
新模型有两个版本,均可在 DeepSeek 的网站和应用程序中获取,开发者还可以通过 API 访问这两个版本。V4-Pro 是专为编码和复杂智能体任务而设计的大型模型,而 V4-Flash 则是运行速度更快、成本更低的精简版。两个版本都提供推理模式,模型可以仔细解析用户的提示,并在解决问题的过程中逐步展示解题过程。
中国顶级人工智能模型如何克服美国制裁
对于 V4-Pro,DeepSeek 的收费标准为每百万输入令牌 1.74 美元,每百万输出令牌 3.48 美元,远低于 OpenAI 和 Anthropic 的同类产品。V4-Flash 的价格更低,每百万输入令牌约 0.14 美元,每百万输出令牌约 0.28 美元,是目前市面上最便宜的顶级型号之一。因此,它对于构建应用程序来说极具吸引力。
就性能而言,V4 相较于 R1 有了巨大的提升,这或许并不令人意外——而且它似乎足以媲美几乎所有最新的主流 AI 模型。根据该公司公布的结果,在主要基准测试中,DeepSeek V4-Pro 的表现与领先的闭源模型不相上下,与 Anthropic 的 Claude-Opus-4.6、OpenAI 的 GPT-5.4 和 Google 的 Gemini-3.1 等模型的性能相当。与其他开源模型(例如阿里巴巴的 Qwen-3.5 或 Z.ai 的 GLM-5.1)相比,DeepSeek V4 在编程、数学和 STEM 问题上均表现优异,使其成为迄今为止最强大的开源模型之一。
DeepSeek 还表示,V4-Pro 目前在智能编码任务基准测试中位列最强开源模型之列,并在其他衡量执行多步骤问题能力的测试中表现出色。该公司公布的基准测试结果显示,其写作能力和世界知识储备也处于领先地位。
在与该型号一同发布的技术报告中,DeepSeek 分享了对 85 位经验丰富的开发人员进行的内部调查结果:超过 90% 的受访者将 V4-Pro 列为他们进行编码任务的首选型号之一。
DeepSeek 表示,它已专门针对 Claude Code、OpenClaw 和 CodeBuddy 等流行的代理框架对 V4 进行了优化。
2. 它实现了内存效率的新方法。
V4 的关键创新之一是其更大的上下文窗口——即模型一次可以处理的文本量。两个版本都能处理 100 万个词元,足以容纳《指环王》三卷和《霍比特人》的总和。该公司表示,这一上下文窗口大小现已成为所有 DeepSeek 服务的默认设置,并且与 Gemini 和 Claude 等尖端模型的版本相当。
但重要的是,我们不仅要了解 DeepSeek 实现了这一飞跃,还要了解它是如何实现的。V4 版本对公司之前的模型进行了重大架构改进——尤其是在注意力机制方面。注意力机制是人工智能模型的一项重要特性,它能帮助模型理解提示文本中各个部分之间的关系。随着提示文本长度的增加,这种比较的成本也随之大幅上升,使得注意力机制成为长上下文模型的主要瓶颈之一。
DeepSeek可能已经找到了一种提高人工智能记忆能力的新方法
DeepSeek 的创新之处在于,它让模型更有选择性地关注特定内容。V4 版本不再将所有早期文本视为同等重要,而是压缩旧信息,专注于当前最有可能重要的部分,同时保留附近的完整文本,以免遗漏重要细节。
DeepSeek 表示,这显著降低了使用长上下文的成本。在包含 100 万个令牌的上下文中,V4-Pro 的计算能力仅为上一代产品 V3.2 的 27%,内存使用量也降至 10%。V4-Flash 的降幅更大,计算能力和内存使用量分别仅为 10% 和 7%。在实际应用中,这可以降低构建需要处理海量数据的工具的成本,例如能够读取整个代码库的 AI 编码助手,或者能够分析大量文档且不会忘记先前内容的科研代理。
DeepSeek 对长上下文窗口的兴趣并非始于 V4。在过去一年半的时间里,该公司悄然发表了一系列论文,探讨人工智能模型如何“记住”信息,并尝试使用压缩和数学技术来扩展人工智能模型实际能够处理的信息量。
3.这标志着迈出了远离英伟达的艰难道路的第一步。
V4 是 DeepSeek 首款针对中国国产芯片(例如华为 Ascend)进行优化的型号——此举使得此次发布会在某种程度上考验了中国本土人工智能产业能否开始摆脱对美国芯片巨头英伟达的依赖。
这在很大程度上在意料之中,因为《The Information》本月早些时候 报道称,DeepSeek并未向英伟达和AMD等美国芯片制造商提供V4的提前访问权限,尽管提前提供访问权限通常是为了让芯片制造商在新模型发布前优化其支持。据报道,该公司仅向中国芯片制造商提供了提前访问权限。
华为周五表示,其基于昇腾950系列的昇腾超级节点产品将支持DeepSeek V4。这意味着希望运行自行修改版DeepSeek V4的公司和个人用户将能够轻松使用华为芯片。
人工智能现状:中国即将赢得这场竞赛吗?
路透社此前报道称,中国政府官员建议DeepSeek在其训练过程中集成华为芯片。这种压力符合中国产业政策的总体趋势:战略性行业往往被推动,有时甚至是被强制要求,以符合国家自力更生的目标。但在人工智能领域,这种紧迫性尤为突出。自2022年以来,美国出口管制措施切断了中国企业获取英伟达最强大芯片的渠道,之后又限制了对降级版中国市场芯片的获取。北京的回应是加快推进国产人工智能技术栈的建设,涵盖芯片、软件框架和数据中心等各个方面。
据报道,中国政府一直在推动数据中心和公共计算项目更多地使用国产芯片,包括禁止使用外国制造的芯片、实行采购配额制,以及要求将英伟达芯片与华为和寒武纪等中国公司的替代芯片搭配使用。
然而,替换英伟达芯片并非简单地更换芯片就能完成的。英伟达的优势不仅在于其芯片本身,更在于开发者多年来围绕这些芯片构建的软件生态系统。转向华为昇腾芯片意味着需要调整模型代码、重建工具,并证明基于这些芯片构建的系统足够稳定,能够满足高强度使用需求。
需要明确的是,DeepSeek似乎并未完全摆脱对英伟达芯片的依赖。该公司的技术报告显示,它使用国产芯片来运行模型进行推理,也就是在用户要求模型完成任务时。但清华大学计算机科学教授刘志远告诉《麻省理工科技评论》,DeepSeek似乎只针对国产芯片调整了V4模型的部分训练流程。报告并未说明一些关键的长上下文特征是否针对国产芯片进行了适配,因此刘志远认为V4模型可能仍然主要在英伟达芯片上进行训练。由于这些问题涉及政治敏感性,多位匿名消息人士告诉《麻省理工科技评论》,国产芯片的性能仍然不如英伟达芯片,但更适合用于推理而非训练。
DeepSeek还将V4未来的成本与此次硬件升级挂钩。该公司表示,华为昇腾950超级节点在今年下半年开始大规模出货后,V4-Pro的价格可能会大幅下降。
如果成功,V4 可能是中国正在成功构建并行人工智能基础设施的早期迹象。