DeepSeek V4发布,并没有复刻去年的狂欢,实际上跟半年前发布的Claude Sonnet 4.5相比,两者能力大致在同一档,差距远大于半年,因为Sonnet 4.5在半年前也只能算第二梯队。但是在社交媒体的稿子里,常常看到中国的各家大模型跑分数据一个比一个漂亮,"只差半年"、"基本拉平"的论调不绝于耳。

中美AI差距的事实情况,到底是什么样的?

打开网易新闻 查看精彩图片

4月22日,在《走进亚洲》(Into Asia)的播客中,北京大学人工智能方向的助理教授张驰,讲述了他眼中的真相。张驰现任北京大学助理教授,刚从字节跳动的大模型核心团队(Seed LLM)离职不久。

作为真正在大厂一线摸爬滚打过的研发人员,他对当前国产AI的判断相当扎心:

"我不同意'中国模型正在赶上'这个观点。我相信我们还差得远,而且这个差距,可能正在变大。"

虚假的繁荣:大家都在"应试刷榜",实战却拉胯

虚假的繁荣:大家都在"应试刷榜",实战却拉胯

在外界看来,各家大厂的模型在各种Benchmark(基准测试)上神仙打架,分数屡创新高。但在内部,这只是一场大型的大模型应试教育。

张驰在采访中透露,在字节跳动内部(他推测其他大厂也类似),工作氛围其实相对"佛系"(中午有两小时的午休时间,实际每天工作9小时左右),但大家都面临着一种隐性的KPI压力——刷榜(Bench-maxing)。

领导们高度关注模型在特定榜单上的分数。如果你负责的模块分数没有追平美国前沿模型,你的绩效就会很难看。

结果就是:纸面数据极其华丽,但一旦落到真实世界的复杂应用中,体验让人抓狂。

算力与基建的鸿沟:别人三个月,我们可能要半年

算力与基建的鸿沟:别人三个月,我们可能要半年

硬件被卡脖子,这是个老生常谈的问题,但它带来的连锁反应比我们想象的更深。

目前,国内大厂用来训练最核心大模型的,很大一部分仍是禁令前囤积的英伟达芯片,或者合规的特供版H20。好在DeepSeek V4开始,全面使用华为昇腾显卡,有望后续完善国产训练生态。

但算力的差距,已经直接体现在了"迭代速度"上。

张驰提到了一个业内传闻:谷歌现在可能只需要3个月,就能跑完一整轮大语言模型的预训练加后训练。而对国内大厂来说,受限于算力规模和基础设施,这个周期可能长达半年。

更隐秘的差距在基础设施(Infra)。张驰曾在谷歌实习,他感慨那里的底层基建做得太好了,研究员只需要在丝滑的图形界面上写代码,根本不用操心底层架构。而在国内大厂,训练动不动就卡死、报错,这些摩擦成本都在无形中拖慢了追赶的脚步。

"用户都在用美国模型,我们哪来的数据改良?"

"用户都在用美国模型,我们哪来的数据改良?"

如果说算力是中国AI头顶悬着的第一把剑,那么在张驰看来,第二把剑,也是目前最无解的一把,是"数据飞轮"的断裂。

他在采访中提出了一个非常尖锐的洞察:美国头部模型建立了极难逾越的正向循环。 GPT和Claude拥有全球海量的用户。这些用户在实际工作中使用模型,并对结果进行点赞或踩。这些高质量的反馈,构成了最宝贵的真实场景训练数据。

反观国内,由于基础能力存在客观差距,导致最需要AI辅助的那些高价值用户——比如程序员、硬核研究者,正在集体"叛逃"。

"我现在主要用Claude Code和Cursor编程,"张驰直言不讳地说,"我甚至觉得不需要招那么多博士生来帮我干活了,我完全可以把Claude Code和Cursor当作我的学生,我可以辅导它们,给它们指令让它们做我想做的事。但我心里又很矛盾,如果我这代人不培养新人,等我老了,谁来接着做研究?"

这种中国顶尖AI科学家的日常使用选择,反应的就是当下冰冷的现实:当最应该为国产模型贡献反馈数据的顶尖中国开发者,都在使用美国模型提效时,中国大模型公司去哪里获取能够优化编程和推理能力的高质量交互数据?

走捷径的代价:"蒸馏"出来的智能,没有灵魂

走捷径的代价:"蒸馏"出来的智能,没有灵魂

如果没有时间去打磨基础设施,又面临着迫在眉睫的追赶KPI,国内大厂是怎么做的?

答案是两个字:蒸馏(Distillation)。

如果你想训练一个高智商的模型,最硬核的做法是雇佣极其专业的行业专家,一笔一划地写出高质量的推导数据,这既费钱又费时。

但还有一条捷径:直接去问 GPT、Claude 或者Gemini。 拿到正确答案和推理过程后,直接复制过来,喂给自己的模型。这在AI圈被称为"蒸馏",就是抄尖子生的作业。

张驰坦言,我们在"蒸馏"技术上可能已经是世界顶尖,但这也许无法在长远上转化为真正的优势。抄作业能让你快速从不及格变成及格,甚至考到80分,但你永远无法通过抄作业成为真正的学神。

因为你缺乏属于自己的、深厚的数据管道(Data Pipeline)。当国外的模型开始自我进化时,"捷径"反而成了束缚我们原创能力的枷锁。

仅存的底气:硬件与"具身智能"的梦

仅存的底气:硬件与"具身智能"的梦

尽管对纯语言大模型追赶前景表现出强烈的悲观,张驰依然指出了中国AI生态中为数不多的结构性优势。

在他看来,优势在于制造业。他提到了近期引爆舆论的宇树科技(Unitree),认为中国在硬件躯体、电机运动控制方面具备全球竞争力。对于目前火热的"具身智能",张驰的观点是,如果你的语言模型只是用来执行比较简单的任务(比如抓取物体),那么现有中国大模型的能力是"够用"的。

但他也泼了一盆冷水:目前绝大多数机器人厂商仍停留在"运动控制"阶段,没有真正把智能塞进机器人大脑。而一旦涉及到需要复杂推理和泛化操作的"灵巧操作",我们很可能再次碰到大语言模型目前的那块天花板。

未来怎样?

未来怎样?

芯片受限、数据管线薄弱、基础设施落后、用户反馈循环缺失、过度依赖蒸馏,这些问题叠加在一起,不是靠一次技术突破就能解决的。好在DeepSeek V4全面适配了国产显卡,虽然整体能力落后了些,但生态完善后还是有希望追赶上而且不依赖蒸馏的。

原播客链接:https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab