白宫指控“盗版”,Claude暗示“抄袭”:Deepseek动了谁的奶酪?
小贾的科普日常
Deepseek最新版本的开源大模型V4 Pro终于发布。
时隔一年,结果没有让人失望,Deepseek依然是全球最好的开源大模型,这一次更将开源模型推到了万亿参数时代。
距离上一代V3震惊业界已经过去484天,在AI行业,这段时间足够互联网大厂完成三轮模型迭代。
资本市场热炒的概念也从聊天机器人、视频生成演进到智能体AI。
过去一年,国产大模型呈现爆发性增长,智谱的GLM5、Kimi发布的2.5和2.6版本(当前最好的代码开源模型)相继亮相。
字节、阿里、腾讯等大厂在春节期间短短一个月烧掉50亿推广费。
这些模型并非不好,只是在用户心中,Deepseek有着不同的意义。
过去一年,几乎所有人都在问Deepseek去哪了。
期间出现不少传言:被大厂围猎、人才流失、撑不住了;没钱买卡、发不起新模型;被华为耽误,为适配华为不得不延迟发布。
有些说法甚至让用户都产生了相信。
如今V4发布,这些流言不攻自破。
从Deepseek发布的技术报告来看,这份报告长达58页。
研究与工程的作者名单中有近300人,和V3时期的197人相比,团队规模反而扩大。
关于延迟的原因,技术报告里写得很清楚:这次训练数据从V3时期的约15万亿token直接翻倍到33万亿token。
这次延迟发布并非因为适配华为,而是训练本身遇到了需要攻克的稳定性问题。
一年后,Deepseek终于发布,依然是全球最好的开源大模型,且将开源模型直接推到万亿参数时代,支持100万token的上下文。
第一感受是终于没有失望,第二感受是其重要性被严重低估。
先看几个关键点,V4Pro的参数达到1.6万亿,已进入真正意义上的前沿模型俱乐部,同时能处理100万token的超长上下文。
很多人低估了这一点,认为百万上下文的意义只是便宜、不用分段处理、省API费用,这种想法过于浅显。
百万上下文的真正意义是模型从聊天工具变成真正的干活工具。
过去处理这种长度文本是OpenAI等专属的高端功能,收费昂贵,现在Deepseek将其变成开源标配。
价格仅为Cloud OpenAIGPT-4.7的1/20,代表全球大部分人都能用得起这项功能。
Deepseek并非为名利或刷榜跑分,而是真正推动人类进步。
他们算力本就少,还免费给海量用户使用,给算力带来巨大压力,这也是V4延迟发布的部分原因。
他们发布的报告极为详尽,每个细节、技巧都一一公开,甚至坦诚承认与美国最前沿大模型仍有3~6个月差距。
3~6个月意味着什么?DeepseekV4的预训练计算量约为10²⁵FLOPs,看似天文数字。
但OpenAI据公开信息有约10万张GB200(英伟达最新Blackwell构架芯片),假设全部用于训练且利用率15%,跑完V4训练量只需37小时,一天半时间。
OpenAI理论上一周内可做出V4级别的预训练,而GPT-5.5仅领先其3~6个月,这体现了中国研究人员的创新能力。
面对巨大算力差距仍能追赶前沿,更重要的是Deepseek价格极低。
V4Flash版本输出定价低至2元人民币/百万token,对比GPT-5.5的30美元,差两个数量级。
这就是Deepseek在用户心中是全球最重要AI实验室的原因——技术民主化比技术本身更重要。
必须让技术普惠人类,技术才有用。
另一点更关键,该模型专门为华为昇腾芯片设计。
同一天华为确认,其超级节点集群已支持V4推理。
V4深度适配华为昇腾950PR推理芯片和昇腾A3超节点,实测数据显示,在昇腾905PR上单卡推理性能达到英伟达特供版H20的2.87倍。
推理速度较初期适配版本提升35倍。
这意味着它是从底层架构开始就不围绕英伟达生态构建的前沿模型,底层代码从英伟达CUDA生态迁移到华为CANN框架。
国产大模型的架构和部署不再完全依赖英伟达,开辟了非西方芯片加自主技术栈的路线,意义重大。
据华为昇腾团队消息,950DT芯片即将交付,将给Deepseek团队带来两个关键能力:训练规模更大、模型更充分;推理速度进一步提升。
很期待下半年的版本更新。
说完Deepseek的意义,再看舆论场,毫无意外,V4发布当天舆论战打响,大量抹黑和贬低声音同时出现。
上次V3横空出世,宣传机器措手不及,这次他们不会再犯同样错误。
美国白宫4月23日发表声明,指责中国系统性盗版美国AI技术。
Claude也跳出来暗示Deepseek的成功是因为蒸馏了西方模型。
今天说说蒸馏问题,所谓蒸馏技术,是把大模型压缩到小模型时使用的技术,大模型通常叫教师模型,小模型叫学生模型。
真正的蒸馏不是学生看老师答案模仿,而是看老师打分过程学习。
比如千问、Deepseek都有自己的蒸馏模型,用的不是教师模型的最终文本输出,而是token级别的概率分布。
教师模型对每个可能的下一个token都有内部打分,学生模型要学到完整打分分布,而非简单最终答案,这需要模型是白盒而非黑盒。
但现在前沿的闭源模型都是黑盒,Claude、GPT的API不对外输出内部打分,调用API只能拿到最终生成文本,拿不到latents。
因此Deepseek若真要蒸馏Claude或OpenAI,最多只能拿到成品文本,相当于老师不教做题过程只让背答案,对自身毫无提升。
另一种纯文本蒸馏需拿到整个推理过程的全部文本,但这些推理过程不对外开放,大家看到的思考文本只是简略描述,远不如直接从概率分布蒸馏有效。
没有概率分布和推理过程的纯文本模仿,最多复制教师风格(措辞方式、回答格式等),无法复制智慧和能力。
不可能通过抄作业成为数学竞赛冠军,而他们指控Deepseek蒸馏的方法是通过API复制文本,这很荒谬。
指责Deepseek盗版毫无依据,其模型开放权重,所有人可检查是否蒸馏其他模型,可复现训练过程。
那些指责Deepseek盗版的,都是最封闭的AI公司,比如Claude,一边指责中国模型蒸馏技术,一边以安全为由严格封闭管控模型。
他们几乎盗取互联网上所有人的数据训练模型,却封闭起来收高价。
美国私人公司指责别人蒸馏时,真正捍卫的不是知识产权,而是垄断地位。
他们害怕的不是技术被偷,而是技术不再稀缺,害怕万亿参数开源模型让全世界看到,没有他们AI照样能发展。
他们最恐惧的是Deepseek的模式——把AI当作普惠基础设施的模式,这就是Deepseek的重要性。
回头看对Deepseek的抹黑,会发现这些话语的真正目的不是维护公平,而是维护旧秩序。
由西方芯片、框架、技术栈、闭源模型构成的垄断秩序,Deepseek证明这种秩序不是唯一答案。
聊热点
热门跟贴