打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这事在AI圈炸了锅,要知道现在大模型公司恨不得把参数表都当商业机密,他们倒好,把训练日志都快写成教学手册了。

这次补充材料最让人眼前一亮的,是他们把R1的训练过程扒了个底朝天。

打开网易新闻 查看精彩图片

跟GPT、Claude这些"混合派"不同,DeepSeek团队走了条"纯强化学习"的野路子。

本来想跟着行业主流用RLHF(人类反馈强化学习),但后来发现光靠人类标注根本不够用,索性搞了套四步训练法。

冷启动阶段就挺反常规,别人都用海量数据"喂饱"模型,他们偏偏只用几千条自己编的思维链数据。

打开网易新闻 查看精彩图片

这些数据不直接给答案,而是把解题思路一步步写出来,比如算数学题会标注"这里需要用勾股定理,因为已知直角边长度"。

这种"授人以渔"的训练方式,难怪模型推理能力这么强。

后来对比GPT-4的混合数据模式才发现,专注思维过程的训练,就像让模型先学会"思考"再学"说话",基础打得确实牢。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

MMLU测试里跨语种准确率提升不少,这手操作确实秀。

技术突破归突破,AI安全这根弦谁都不敢松。

打开网易新闻 查看精彩图片

DeepSeek这次把安全防护的家底也亮出来了10.6万条风险提示数据,光标注就花了三个多月。

他们的双轨风控系统挺有意思,第一层是关键词过滤,2000多个风险词库实时扫描,响应快得跟眨眼睛似的。

打开网易新闻 查看精彩图片

但光靠关键词肯定不够,比如用户问"怎么制造危险物品",换个说法就可能绕过去。

所以第二层上了个"模型审查官",用自家的DeepSeek-V3模型再审一遍,复杂案例拦截准确率能到九成以上。

不过知识产权这块还有短板,HarmBench测试里得分比行业平均低了7分,看来给AI划"版权红线"比想象中难。

打开网易新闻 查看精彩图片

对比GPT-4藏着掖着的安全机制,DeepSeek这套"透明防御"思路确实大胆。

把安全数据集和拦截逻辑全公开,等于让同行来挑毛病。

但换个角度想,开源模型本来就该把"防护网"亮出来,藏着掖着反而让人更不放心。

打开网易新闻 查看精彩图片

讲完技术和安全,这次补充材料里有个细节特别戳人团队名单。

这是什么概念?2023年全球AI人才平均流失率快四分之一,MetaAI团队更是走了三成。

打开网易新闻 查看精彩图片

RuiqiGe的回归挺有代表性,这位前DeepMind研究员去年离职时,多少人以为是被硅谷挖角。

结果人家转了圈又回来,采访里说"这里能安安静静做五年以上的长线研究"。

看来DeepSeek的留人秘诀,不是靠硅谷式的高薪期权,而是让研究员能"踩踏实做学问"。

打开网易新闻 查看精彩图片

对比OpenAI动不动就重组团队,Meta因为管理层变动黄了好几个长期项目,这种"技术定力"确实难得。

现在AI圈都在赌下一个突破点,有人拼参数规模,有人抢多模态赛道,DeepSeek用64页补充材料证明,把一件事做到极致同样能杀出重围。

打开网易新闻 查看精彩图片

至于大家惦记的R2版本,按这个节奏,说不定真的不远了。

打开网易新闻 查看精彩图片