1854年,伦敦。法拉第在地下室撒下铁屑,看见磁场显形为优美的弧线;同一座城市,汤姆逊写下偏微分方程,把直觉翻译成数学。两种理解世界的方式竞争又互哺,最终催生麦克斯韦方程组。
170年后,相似的剧本在中国AI领域重演。2026年4月20日,Kimi K2.6发布;四天后,DeepSeek V4开源。两个万亿参数级模型包揽全球开源榜单前两名——这是两家公司在16个月里第N次技术路线迎头相撞。
X上有人玩梗:如果它们合并,OpenAI和Anthropic的CEO会是什么反应?这个脑洞不突兀。中国互联网史上,优酷土豆、滴滴快的、美团点评,同一赛道的前两名总在资本意志下从相杀走向相爱。DeepSeek与Kimi会走进这条河流吗?
技术互嵌:它们早已是"一家人"
讨论合并假设,前提是技术路线的高度互嵌。这种互嵌深入骨髓,体现在三个层面。
架构层面,MLA注意力机制是典型案例。DeepSeek在V3中首创这一技术,通过低秩压缩大幅削减KV缓存占用,解决长文本推理"内存即成本"的困境。2025年7月,Kimi发布万亿参数开源模型K2,直接采用MLA并将其扩展至万亿规模,证明这条路线规模化可行。
2026年4月,剧本反转。DeepSeek V4的关键升级是用二阶优化器Muon替换沿用十年的Adam。Muon的有效性,正是Kimi在K2训练中首次于万亿参数规模验证,并由Kimi团队系统性公开技术经验。
能力层面,分工清晰且互补。DeepSeek V4把单token推理算力压至V3.2的27%,KV缓存压缩至十分之一,百万token上下文从技术演示变为普惠基础设施。Kimi K2.6则聚焦长程任务执行与智能体集群,支持300个子智能体并行协作、4000次工具调用、13小时不间断编码。
OpenRouter数据显示,K2.6发布后跃居调用榜首,DeepSeek紧随其后,两家同时进入全球前五。多模态方面,K2.6是全球开源前五中唯一支持图片与视频理解的模型;DeepSeek在高阶推理、数学与代码评测中持续领先。
硬件生态层面,选择高度一致。DeepSeek V4明确下半年将支持华为昇腾950,技术栈不再只依赖英伟达CUDA。Kimi采用对国产芯片更友好的INT4量化技术,新发布的预填充即服务技术同时支持国产芯片和英伟达芯片,降低对CUDA生态的依赖。
合并后,国产模型与国产算力的对接效率将显著提升。
两种计算精神:殊途同归
技术互嵌是现象,根因在人。两位创始人的底层思维如出一辙,都信奉第一性原理。
梁文锋的底色是量化工程师。浙大毕业,无留学背景,靠算法交易完成资本积累,再投入通用人工智能研究。这条路教会他:把问题拆解到底层,重新计算每个环节是否冗余,用最少资源达成同样结果。
他选择开源的理由源于同一逻辑——「在颠覆性的技术面前,闭源形成的护城河是短暂的。」语气平淡,逻辑锋利。
杨植麟的底色是可计算学派笃信者。清华本科,卡内基梅隆大学博士,求学期间以Transformer-XL等工作建立学术声望。他用六个字定义大模型本质:「压缩产生智能。」
在他看来,找到更优压缩方式,用更少token表达同等信息密度,就能在算力受限下持续逼近更高智能。他以等差数列作比:一万个数字,最理想的压缩只存储规律和首尾两项,其余皆可还原。他要找的,就是大模型里的那条"等差规律"。
一个用工程逼近极限,一个用逻辑逼近本质。这正是技术互嵌发生的根由。
产业事实正在浮现:它们共同构建了一套标准开源技术栈——混合专家架构、MLA注意力、Muon优化器、多模态能力、智能体框架、国产芯片适配。开源模型实际调用量快速提升,说明这套技术栈正在成为中国大模型的事实标准。
合并的下限,是诞生一个平视OpenAI与Anthropic的全栈技术底座;上限,则是两种计算精神碰撞,推升开源世界的进化速率。
商业瓶颈:算力、收入、全球化
技术互嵌够深,但合并价值若只兑现于技术层,只算完成一半。两家公司面临的商业瓶颈高度一致:算力不足,收入体量偏小,全球化叙事分散。
算力层面,DeepSeek在V4定价说明中坦言:「受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后价格会大幅下调。」
Kimi内部则流传一个说法:「制约业务发展的只有算力,现在至少还有10倍的需求没有被满足。」
合并后,芯片采购、机房建设、国产适配的投入不再重复,对英伟达、华为等供应商的议价能力提升。统一技术栈意味着国产芯片只需适配一套标准,生态碎片化成本大幅压缩。
收入层面,Kimi K2.5发布后20天内收入超过2025年全年,海外收入已超越国内,付费用户月环比增速超过170%。K2.6发布时,API输入价格从每百万token 4元提至6.5元,涨幅58%,这是K2系列上线以来首次涨价。
DeepSeek以"价格屠夫"著称,V4 Pro输入每百万token 12元,5月结束前限时打2.5折,仅3元。极致低价快速俘获开发者,也压缩了盈利空间。
若采用统一价格体系,可避免左右手互搏,在全球市场形成更清晰的品牌认知。
全球化叙事层面,两家公司各自为战,分散了海外开发者注意力。合并后,单一品牌承载"中国开源"的技术形象,对抗OpenAI与Anthropic的闭源叙事时更有合力。
正方:为什么合并说得通
支持合并的论点,可以从技术、商业、战略三个维度展开。
技术维度,合并消除重复研发。MLA、Muon等关键技术已在两家间流动,各自独立维护一套万亿参数训练集群,是对稀缺算力的浪费。统一后,研发资源集中于下一代架构,迭代速度可能超越闭源对手。
商业维度,合并解决定价困境。Kimi涨价验证需求刚性,DeepSeek低价验证规模效应,两种策略本可共存于同一产品矩阵——基础版走量,专业版盈利。分裂状态下,价格战消耗双方利润;统一后,价格歧视策略可精准执行。
战略维度,合并回应地缘政治压力。美国芯片出口管制持续收紧,两家各自游说、各自适配国产芯片,效率低下。统一实体更易获得政策支持,成为"国产替代"的标杆案例。
更深一层,合并符合开源运动的内在逻辑。开源的本质是消除重复劳动,让全球开发者基于共同底座创新。两家技术栈已高度趋同,品牌分裂反而制造不必要的切换成本。
反方:为什么合并不现实
反对合并的论点同样坚实,核心在于:技术互补不等于组织兼容,商业瓶颈不等于合并解药。
组织层面,两家公司文化差异显著。DeepSeek源于量化对冲基金,决策链条短,强调工程效率;月之暗面是标准硅谷式创业公司,融资节奏快,产品迭代激进。梁文锋与杨植麟虽思维同构,但管理风格、团队构成、股权结构截然不同,整合成本可能吞噬协同收益。
商业层面,定价困境未必因合并而解。Kimi涨价成功,恰恰证明其用户愿意为长文本、多模态、智能体能力付费;DeepSeek低价策略,锚定的是价格敏感的基础模型市场。强行统一价格,可能同时得罪两边用户——Kimi用户嫌降价稀释品质感,DeepSeek用户嫌涨价背叛开源精神。
竞争层面,合并可能削弱创新动力。两家技术互嵌的深层机制,正是"迎头相撞"带来的压力。K2采用MLA,是因为DeepSeek证明了其有效性;V4采用Muon,是因为Kimi验证了万亿规模可行性。若成一家,内部技术路线竞争消失,外部又缺乏同等量级的开源对手,进化速率反而放缓。
资本层面,合并时机不成熟。优酷土豆合并时,视频赛道格局已定,盈利遥遥无期,资本推动合并以止损;滴滴快的合并时,补贴战消耗惊人,投资人施压促成交易。DeepSeek与Kimi均处于上升期,Kimi刚完成新一轮融资,DeepSeek背靠幻方量化资金充裕,双方均无迫切出售动机。
我的判断:合并不发生,但"软合并"已在进行
技术互嵌如此之深,商业瓶颈如此一致,为何判断合并不发生?
关键变量在于:开源技术栈的"软合并"已经实现,硬合并的组织成本反而成为冗余。
观察2025至2026年的技术流动:MLA从DeepSeek流向Kimi,Muon从Kimi流向DeepSeek,国产芯片适配方案双向共享。这种流动无需股权交易、无需团队整合,通过论文、开源代码、技术博客即可完成。开源社区的协作效率,正在替代传统并购的价值创造逻辑。
更深一层,两家公司的差异化定位已成用户心智资产。DeepSeek等于"极致性价比",Kimi等于"长文本与智能体",这种认知分化在全球市场各有受众。强行合并为单一品牌,反而稀释辨识度。
真正需要合并的,不是两家公司,而是它们共同构建的开源标准与国产算力生态。当华为昇腾、寒武纪等芯片只需适配一套技术栈,当全球开发者基于统一接口开发应用,"中国开源"作为整体品牌的竞争力已然形成——无需股权层面的捆绑。
回到X上的那个梗图。OpenAI与Anthropic的CEO会是什么反应?最可能的答案是:警惕,但不必恐慌。
警惕,因为中国开源模型的技术迭代速度确实在加快;不必恐慌,因为开源世界的竞争从来不是零和——它们真正的对手不是彼此,而是如何让通用智能从实验室猜想,走向数学精确描述,再走向工程化。
170年前,法拉第的力线与汤姆逊的方程最终汇入麦克斯韦方程组。今天,DeepSeek的工程直觉与Kimi的逻辑压缩,或许正在以分布式协作的方式,走向某种更高阶的收敛。
合并与否,已非关键问题。重要的是,这套技术栈是否持续进化,是否真正降低智能的获取成本,是否让百万token上下文、万亿参数模型、多模态理解从特权变为基础设施。
对开发者而言,与其等待巨头合并,不如现在就开始:基于V4或K2.6构建应用,测试长文本能力的边界,探索智能体集群的协作模式。开源模型的价值,终究要在具体场景中兑现。
热门跟贴