北大教授：中国AI比美国还差得远，而且差距正在拉大|人工智能|大模型|张驰|机器人|编程|飞轮

DeepSeek V4发布，并没有复刻去年的狂欢，实际上跟半年前发布的Claude Sonnet 4.5相比，两者能力大致在同一档，差距远大于半年，因为Sonnet 4.5在半年前也只能算第二梯队。但是在社交媒体的稿子里，常常看到中国的各家大模型跑分数据一个比一个漂亮，"只差半年"、"基本拉平"的论调不绝于耳。

中美AI差距的事实情况，到底是什么样的？

4月22日，在《走进亚洲》（Into Asia）的播客中，北京大学人工智能方向的助理教授张驰，讲述了他眼中的真相。张驰现任北京大学助理教授，刚从字节跳动的大模型核心团队（Seed LLM）离职不久。

作为真正在大厂一线摸爬滚打过的研发人员，他对当前国产AI的判断相当扎心：

"我不同意'中国模型正在赶上'这个观点。我相信我们还差得远，而且这个差距，可能正在变大。"

虚假的繁荣：大家都在"应试刷榜"，实战却拉胯

在外界看来，各家大厂的模型在各种Benchmark（基准测试）上神仙打架，分数屡创新高。但在内部，这只是一场大型的大模型应试教育。

张驰在采访中透露，在字节跳动内部（他推测其他大厂也类似），工作氛围其实相对"佛系"（中午有两小时的午休时间，实际每天工作9小时左右），但大家都面临着一种隐性的KPI压力——刷榜（Bench-maxing）。

领导们高度关注模型在特定榜单上的分数。如果你负责的模块分数没有追平美国前沿模型，你的绩效就会很难看。

结果就是：纸面数据极其华丽，但一旦落到真实世界的复杂应用中，体验让人抓狂。

算力与基建的鸿沟：别人三个月，我们可能要半年

硬件被卡脖子，这是个老生常谈的问题，但它带来的连锁反应比我们想象的更深。

目前，国内大厂用来训练最核心大模型的，很大一部分仍是禁令前囤积的英伟达芯片，或者合规的特供版H20。好在DeepSeek V4开始，全面使用华为昇腾显卡，有望后续完善国产训练生态。

但算力的差距，已经直接体现在了"迭代速度"上。

张驰提到了一个业内传闻：谷歌现在可能只需要3个月，就能跑完一整轮大语言模型的预训练加后训练。而对国内大厂来说，受限于算力规模和基础设施，这个周期可能长达半年。

更隐秘的差距在基础设施（Infra）。张驰曾在谷歌实习，他感慨那里的底层基建做得太好了，研究员只需要在丝滑的图形界面上写代码，根本不用操心底层架构。而在国内大厂，训练动不动就卡死、报错，这些摩擦成本都在无形中拖慢了追赶的脚步。

"用户都在用美国模型，我们哪来的数据改良？"

如果说算力是中国AI头顶悬着的第一把剑，那么在张驰看来，第二把剑，也是目前最无解的一把，是"数据飞轮"的断裂。

他在采访中提出了一个非常尖锐的洞察：美国头部模型建立了极难逾越的正向循环。 GPT和Claude拥有全球海量的用户。这些用户在实际工作中使用模型，并对结果进行点赞或踩。这些高质量的反馈，构成了最宝贵的真实场景训练数据。

反观国内，由于基础能力存在客观差距，导致最需要AI辅助的那些高价值用户——比如程序员、硬核研究者，正在集体"叛逃"。

"我现在主要用Claude Code和Cursor编程，"张驰直言不讳地说，"我甚至觉得不需要招那么多博士生来帮我干活了，我完全可以把Claude Code和Cursor当作我的学生，我可以辅导它们，给它们指令让它们做我想做的事。但我心里又很矛盾，如果我这代人不培养新人，等我老了，谁来接着做研究？"

这种中国顶尖AI科学家的日常使用选择，反应的就是当下冰冷的现实：当最应该为国产模型贡献反馈数据的顶尖中国开发者，都在使用美国模型提效时，中国大模型公司去哪里获取能够优化编程和推理能力的高质量交互数据？