白宫指控“盗版”，Claude暗示“抄袭”：Deepseek动了谁的奶酪？

寒律

2026-04-27 17:19 ·贵州

白宫指控“盗版”，Claude暗示“抄袭”：Deepseek动了谁的奶酪？

小贾的科普日常

Deepseek最新版本的开源大模型V4 Pro终于发布。

时隔一年，结果没有让人失望，Deepseek依然是全球最好的开源大模型，这一次更将开源模型推到了万亿参数时代。

距离上一代V3震惊业界已经过去484天，在AI行业，这段时间足够互联网大厂完成三轮模型迭代。

资本市场热炒的概念也从聊天机器人、视频生成演进到智能体AI。

过去一年，国产大模型呈现爆发性增长，智谱的GLM5、Kimi发布的2.5和2.6版本（当前最好的代码开源模型）相继亮相。

字节、阿里、腾讯等大厂在春节期间短短一个月烧掉50亿推广费。

这些模型并非不好，只是在用户心中，Deepseek有着不同的意义。

过去一年，几乎所有人都在问Deepseek去哪了。

期间出现不少传言：被大厂围猎、人才流失、撑不住了；没钱买卡、发不起新模型；被华为耽误，为适配华为不得不延迟发布。

有些说法甚至让用户都产生了相信。

如今V4发布，这些流言不攻自破。

从Deepseek发布的技术报告来看，这份报告长达58页。

研究与工程的作者名单中有近300人，和V3时期的197人相比，团队规模反而扩大。

关于延迟的原因，技术报告里写得很清楚：这次训练数据从V3时期的约15万亿token直接翻倍到33万亿token。

这次延迟发布并非因为适配华为，而是训练本身遇到了需要攻克的稳定性问题。

一年后，Deepseek终于发布，依然是全球最好的开源大模型，且将开源模型直接推到万亿参数时代，支持100万token的上下文。

第一感受是终于没有失望，第二感受是其重要性被严重低估。

先看几个关键点，V4Pro的参数达到1.6万亿，已进入真正意义上的前沿模型俱乐部，同时能处理100万token的超长上下文。

很多人低估了这一点，认为百万上下文的意义只是便宜、不用分段处理、省API费用，这种想法过于浅显。

百万上下文的真正意义是模型从聊天工具变成真正的干活工具。

过去处理这种长度文本是OpenAI等专属的高端功能，收费昂贵，现在Deepseek将其变成开源标配。

价格仅为Cloud OpenAIGPT-4.7的1/20，代表全球大部分人都能用得起这项功能。

Deepseek并非为名利或刷榜跑分，而是真正推动人类进步。

他们算力本就少，还免费给海量用户使用，给算力带来巨大压力，这也是V4延迟发布的部分原因。

他们发布的报告极为详尽，每个细节、技巧都一一公开，甚至坦诚承认与美国最前沿大模型仍有3~6个月差距。

3~6个月意味着什么？DeepseekV4的预训练计算量约为10²⁵FLOPs，看似天文数字。

但OpenAI据公开信息有约10万张GB200（英伟达最新Blackwell构架芯片），假设全部用于训练且利用率15%，跑完V4训练量只需37小时，一天半时间。

OpenAI理论上一周内可做出V4级别的预训练，而GPT-5.5仅领先其3~6个月，这体现了中国研究人员的创新能力。

面对巨大算力差距仍能追赶前沿，更重要的是Deepseek价格极低。

V4Flash版本输出定价低至2元人民币/百万token，对比GPT-5.5的30美元，差两个数量级。

这就是Deepseek在用户心中是全球最重要AI实验室的原因——技术民主化比技术本身更重要。

必须让技术普惠人类，技术才有用。

另一点更关键，该模型专门为华为昇腾芯片设计。

同一天华为确认，其超级节点集群已支持V4推理。

V4深度适配华为昇腾950PR推理芯片和昇腾A3超节点，实测数据显示，在昇腾905PR上单卡推理性能达到英伟达特供版H20的2.87倍。

推理速度较初期适配版本提升35倍。

这意味着它是从底层架构开始就不围绕英伟达生态构建的前沿模型，底层代码从英伟达CUDA生态迁移到华为CANN框架。

国产大模型的架构和部署不再完全依赖英伟达，开辟了非西方芯片加自主技术栈的路线，意义重大。

据华为昇腾团队消息，950DT芯片即将交付，将给Deepseek团队带来两个关键能力：训练规模更大、模型更充分；推理速度进一步提升。

很期待下半年的版本更新。

说完Deepseek的意义，再看舆论场，毫无意外，V4发布当天舆论战打响，大量抹黑和贬低声音同时出现。

上次V3横空出世，宣传机器措手不及，这次他们不会再犯同样错误。

美国白宫4月23日发表声明，指责中国系统性盗版美国AI技术。

Claude也跳出来暗示Deepseek的成功是因为蒸馏了西方模型。

今天说说蒸馏问题，所谓蒸馏技术，是把大模型压缩到小模型时使用的技术，大模型通常叫教师模型，小模型叫学生模型。

真正的蒸馏不是学生看老师答案模仿，而是看老师打分过程学习。

比如千问、Deepseek都有自己的蒸馏模型，用的不是教师模型的最终文本输出，而是token级别的概率分布。

教师模型对每个可能的下一个token都有内部打分，学生模型要学到完整打分分布，而非简单最终答案，这需要模型是白盒而非黑盒。

但现在前沿的闭源模型都是黑盒，Claude、GPT的API不对外输出内部打分，调用API只能拿到最终生成文本，拿不到latents。

因此Deepseek若真要蒸馏Claude或OpenAI，最多只能拿到成品文本，相当于老师不教做题过程只让背答案，对自身毫无提升。

另一种纯文本蒸馏需拿到整个推理过程的全部文本，但这些推理过程不对外开放，大家看到的思考文本只是简略描述，远不如直接从概率分布蒸馏有效。

没有概率分布和推理过程的纯文本模仿，最多复制教师风格（措辞方式、回答格式等），无法复制智慧和能力。

不可能通过抄作业成为数学竞赛冠军，而他们指控Deepseek蒸馏的方法是通过API复制文本，这很荒谬。

指责Deepseek盗版毫无依据，其模型开放权重，所有人可检查是否蒸馏其他模型，可复现训练过程。

那些指责Deepseek盗版的，都是最封闭的AI公司，比如Claude，一边指责中国模型蒸馏技术，一边以安全为由严格封闭管控模型。

他们几乎盗取互联网上所有人的数据训练模型，却封闭起来收高价。

美国私人公司指责别人蒸馏时，真正捍卫的不是知识产权，而是垄断地位。

他们害怕的不是技术被偷，而是技术不再稀缺，害怕万亿参数开源模型让全世界看到，没有他们AI照样能发展。

他们最恐惧的是Deepseek的模式——把AI当作普惠基础设施的模式，这就是Deepseek的重要性。

回头看对Deepseek的抹黑，会发现这些话语的真正目的不是维护公平，而是维护旧秩序。

由西方芯片、框架、技术栈、闭源模型构成的垄断秩序，Deepseek证明这种秩序不是唯一答案。

聊热点

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴