OpenAI、Anthropic、谷歌这三家平时打得头破血流的对手,最近干了件罕见的事:坐下来签了个协议,专门对付一种叫"模型蒸馏"的技术操作。
说人话就是——他们要把自家大模型的"课后答案"彻底锁起来,不让别人偷看。
这对中国大模型行业来说,相当于高考前夜突然宣布:所有小抄作废,闭卷考试。
先解释下什么是模型蒸馏。想象一个场景:班上有个学霸(GPT-4/Claude/Gemini),每次考试接近满分,背后是家里砸了上千亿请家教、刷遍全球题库。而蒸馏就是——学渣们不自己啃书,而是围着学霸问几千道题,把解题思路、答题套路全记下来,回去死记硬背。成本不到真学霸的十分之一,考试成绩却能逼近80分。
过去两年,这招在国内AI圈几乎是公开的秘密。高端算力被卡脖子,国产芯片还在爬坡,从头训练一个大模型要烧几十亿、等一两年。蒸馏呢?调API、跑数据、三个月出产品,资本故事讲得飞起。
但现在,三位学霸联手装了监控:技术水印识别答案来源、异常请求直接拉黑、跨平台共享黑名单。抄作业的通道,正在被物理切断。
行业立刻分成两派。
智谱AI:从头到尾自己写答案
智谱是国内少数没碰过蒸馏的"老实学生"。他们从GLM架构开始就是原创设计,和OpenAI的Decoder-only路线完全不同,相当于数学考试不用常见的代数法,而是自研了一套几何解法。GLM-4全系列基于国产算力和中文语料,美国这次封锁对他们来说,约等于竞争对手的参考书被没收了——反而利好。
MiniMax:自己做了点,也抄了点
MiniMax有真本事:自研MoE架构、Linear Attention技术,团队背景扎实。但早期为了抢C端市场,确实通过海外API"辅助采集"过数据。这次被重点盯防,API限流、账号封禁,原本计划的多模态新版本被迫砍功能,紧急转向全自研。
阶跃星辰:专精小众赛道,根本没去抄
这家主打轻量级模型,聚焦端侧部署和AI Agent,自研稀疏混合专家架构。路线选得巧——不做通用大模型去和巨头硬碰硬,而是深耕数学推理、代码生成等垂直场景,全程国产算力+合规数据,蒸馏禁令下来,业务几乎不受影响。
真正慌的是第三类:那些从头到尾靠蒸馏活着的"换皮公司"。没有自己的模型架构,没有数据积累,没有算力团队,产品就是海外模型的汉化版,包装成"国产自研"骗融资。以前浑水摸鱼,现在水干了。
两个典型案例被Anthropic报告点名:
DeepSeek:精准"偷师"推理能力
被指控通过15万次定向交互,专门套取海外模型的思维链、多步推理逻辑,甚至直接复制安全对齐方案。早期能力跃升确实快,但代价是技术根基空心化。现在API通道锁死,被迫转向国产算力全量训练,成本暴涨数倍,迭代节奏断崖式下跌。
MiniMax:工业化级别的"数据采集"
千万次交互、代理IP分散、账号批量轮换——这套操作已经不能叫"借鉴",而是系统性的能力复刻。产品早期在工具调用、任务拆解上的"神似",坐实了行业猜测。禁令下来,蒸馏链路断裂,不得不从"半捷径"彻底转向硬骨头自研。
短期看,一批公司会死。没有核心技术支撑,包装再漂亮也是空中楼阁,捷径一断,原形毕露。
中期看,行业重新洗牌。资本从追捧"速成"转向押注"真功夫",智谱、阶跃星辰这类企业反而拿到红利。国产算力、中文语料、自主框架的建设会被倒逼加速。
长期看,中美AI生态进一步割裂。这不是技术纠纷,是战略竞争。中国大模型必须放弃"蹭海外技术溢出"的幻想,全链路自主可控成为唯一选项。
这件事的本质,是给行业上了一堂残酷的常识课:大模型没有"弯道超车",只有"重金铺路"。千亿级投入、数年技术沉淀、海量数据打磨——这些成本不会因为你找到了API接口就消失,只会以另一种形式,在封锁到来时一次性追讨。
DeepSeek和MiniMax的困境,智谱和阶跃星辰的从容,已经写好了两种结局。捷径能赢一时,自研才能赢一世。
一位智谱内部人士近期对外透露,他们最新一代模型的训练日志里,最早的数据时间戳可以追溯到2020年——比ChatGPT引爆全球早了两年。那两年,行业还没人相信中国团队能做底层架构,他们已经在国产服务器上跑通了第一版GLM。
热门跟贴