Talk

DeepSeek V4 发布后的几天,硅谷那边一直在发酵,也带来了几个更尖锐的问题讨论:模型效率芯片格局IPO 时点开源对闭源的挤压

而今天,业内的一些朋友也来到 B 站,带来了高质量的前沿讨论,也让我们看到了更多不同的行业视角:

  • 硅谷:来自硅谷 101 的视频博客,请到芯片架构师肖志斌和前 OpenAI 研究员 Jenny Xiao,https://www.bilibili.com/video/BV1Kq9SBSE7N/

    打开网易新闻 查看精彩图片

  • 国内:来自华为昇腾技术专场直播,今晚八点开始:http://bilibili.com/video/BV1Kq9SBSE7N

    打开网易新闻 查看精彩图片

接下来,让我们先看看来自硅谷的判断判断:

→ 没有效率,AGI 只能是个 demo

→ DeepSeek 像一把抵在硅谷模型公司背后的枪

→ 硅谷 AI 公司钱太多,反而没动力做效率

→ Anthropic 凭专注反超 OpenAI 到 1 万亿

→ 芯片不再是一卡打天下,训练 / 推理 / 长上下文 / agentic workload 各自分化

参与直播的两个朋友,分别是肖老师和 Jenny

肖志斌ZFLOW AI 创始人兼 CEO,前华美半导体协会主席,资深芯片架构师

Jenny Xiao前 OpenAI 研究员,Leonis Capital 合伙人,专注 AI 投资

V4 凭什么这么便宜

肖志斌做芯片架构起家,是 ZFLOW AI 的创始人兼 CEO。他在读完 V4 论文后,给出了一个反应:整体方向在意料之内,工程完成度意外

V4 论文里着重强调三件事:CSA 加 HCA 的混合注意力,mHC 流形约束超连接,Muon 优化器

CSA 是压缩稀疏注意力,把多个 token 的 KV cache 压成一条 compressed entry,再通过稀疏 attention 选出最相关的部分做检索。HCA 是重度压缩注意力,把当前 token 之前的上下文做深度压缩,再做一次 dense attention。然后再通过 Sliding window 是兜住最近 token 的强相关性,把长上下文 attention 的成本从平方关系压下去,这样来降低推理成本

对于 mHC,则是解决的是另一件事,深层模型层与层之间的信息流转。过去走的是单条 residual link。HC 是去年学术界的方案,把单条通路做成多条高速通路。V4 在多条通路上加了流形约束,保数值稳定,让深层模型训练不发散

Muon 优化器最早是 Kimi 提出来的训练方法。V4 没有完全替换 Adam,部分模块用 Muon,部分模块还留 Adam,靠两个优化器叠加把训练收敛速度往上推

三件事,有个共同方向:Token Efficiency

V4 论文里给硬件厂商也提了建议。GPU 之间的带宽并不是越高越好,超过某个阈值后,更多的芯片面积会被通信占走,留给计算的就少了。这里有一个精确配比

而在整场 1 个多小时的对话中,Jenny 也在后面用不同角度反复呼应

没有效率,AGI 只能是个 demo。有了效率,AGI 才能成为真正的产品和基础设施

Chatbot 是一次性问答,token 消耗有限。Agent 时代不一样,长任务、多工具调用、反思和规划,token 消耗是 chatbot 的 10 到 100 倍

每个 token 都贵的话,模型就不能长时间思考,也不能大规模服务用户。AGI 在这个层面上构建于 token efficiency 之上

此外,肖老师还给到了另一个判断:“大模型架构本身的重要性可能被高估了,更重要的是数据”。而 V4 所钻研的,正是让模型架构的去匹配硬件架构,让数据流转更高效

DeepSeek 给硅谷画死亡线

Jenny Xiao 之前在 OpenAI 做研究员,现在是 Leonis Capital 合伙人。她去年早些时候提出过一个概念叫 kill line,即:开源模型给闭源基础模型公司画的死亡线

AI 领域的商业模式高度二元:核心业务被开源公司超越的那一刻,业务价值基本归零

拿 Anthropic 举例:如果有一天,Claude 不再是编程最好的模型,那么谁还会用 Claude Code 呢?

回翻一下记录,会发现 DeepSeek V4 与 GPT-5.5 同一天发布

但如果看价格,GPT-5.5 比 GPT-5.4 贵了两倍,长文本版本每百万 token 180 美元,但 V4 则便宜的多(而且还有折上折)。无论乐意与否,闭源模型公司都被卷入进了一场生存战

有意思的是,这波讨论里最值得听的声音,不约而同出现在了B站

“DeepSeek 像一把抵在硅谷模型公司背后的枪。这些公司如果跑得不够快,DeepSeek 会追上来,把它们的业务彻底摧毁”

-- Jenny

顺着这个话题,从工程角度,肖老师补充道:

不能说 V4 全面超越。DeepSeek 的整体模型质量,在有些方面有优势,在有些方面跟硅谷模型还有差距。但 V4 真正带来的是效率问题。所有模型厂商必须回答,如何提高你的 token 效率

早在 V3 之前,DeepSeek 在海外就已经很有名了,之前去 OpenAI DevDay 的时候,还专门讨论过这个

会前闲聊时,OAI 的朋友还夸了下 DeepSeek: DeepSeek is really solid(原话) 金色传说大聪明,公众号:赛博禅心

在 V3/R1 之后,当时硅谷有一个 DeepSeek moment,毕竟之前可没几个人相信中国能训出前沿模型,并一致有两种声音并存:一种是了不起的工程突破,另一种是 benchmark 灌水

在这次 V4 发布之后,第二种声音明显少了,更多是 congratulatory attitude,这种结构转变带来的反思,估摸着会让硅谷自我审视一段时间

Anthropic 凭什么反超 OpenAI

这段时间 Anthropic 持续大火,在投资市场上的估值反超 OpenAI 到 1 万亿美元,Jenny 把原因归到三件事:Claude Code、企业信任、专注

第一件事,Claude Code

Anthropic 之前的模型已经足够好,但 Claude Code 才是真正驱动收入的那个产品

第二件事,企业信任

Jenny 基金的网络里有大量企业客户,反复说同一句话:选 Anthropic 的原因是它有安全承诺。加上 Anthropic 起诉五角大楼这件事,企业接受了 Anthropic 传达的信息

第三件事,专注

Anthropic 像房间里更成熟的那一方,OpenAI 在人事上经历了一年的动荡,企业客户因此选 Anthropic

对于 Jenny 自己,她的 Leonis Capital 基金公司也在用 Anthropic 而不是 ChatGPT,原因是在工作相关任务上 Anthropic 的模型表现更好

OpenAI 这一年同时在打硬件部门、自研芯片、购物 app 几条线,核心 ChatGPT 体验反而没做好。Jenny 团队去年夏天写过一份一万字深度,得到了这么一个结论:OpenAI 试图做「一个所有人的所有东西」的平台

这种分散,导致 OpenAI 失去了相对于 Anthropic 的技术领先。副线项目从去年底开始被一批批砍掉,Sora 也在其中。Anthropic 一直保持专注,安全、企业、编程

Anthropic 估值反超的背后还有一个原因:Anthropic 的收入高度集中在企业。对美国投资人来说,就是企业收入优先于消费收入。OpenAI 现在也在反攻企业,Jenny 听到一批公司收到 OpenAI Frontier 的推销,但收入结构还没改过来

除此之外的就是是编程,这是 Jenny 反复回到的问题。她的判断是:编程是通向 AGI 最重要的一步,谁拿下编程,谁可能成为 AGI 时代的主导玩家

一旦你能写代码,你就能做大量通用任务。企业里更新 CRM、转发邮件、总结会议,本质都是通过代码搭起来的

OpenClaw 创始人 Peter Steinberger 写过一篇文章,标题是「Claude Code 就是我的电脑」。Peter 在创立 OpenClaw 之前,已经在用 Claude Code 控制自己的整台电脑

编程作为 AGI 第一站,还有几个具体的优势:可衡量、数据量充足、工程师是新技术最早的采用者

Meta 上个月发布了 Muse Spark,市场普遍说这是 Meta 卷土重来的信号。Jenny 拆完模型给的结论相反,Muse Spark 相对其他开源模型没有差异,相对 OpenAI 和 Anthropic 的二线模型也没有差异

Meta 还在跑一项有争议的内部计划,把员工的工作过程作为训练数据。Jenny 说讽刺的是,这可能是 Meta 建立数据护城河的少数路径之一,主要在编程和 agentic 任务上

而对于 xAI 这边,Jenny 用一个词来形容:混乱。马斯克脾气改变频繁,团队在不同产品决策之间分散注意力

她还投了一位被马斯克解雇的早期 xAI 员工,原因是这位员工顶撞了老板。Grok 的实时数据查询仍然有用,其他场景她基本不用

钱多反而拖累硅谷

硅谷 AI 公司在陷入了一个很奇怪的境地:钱越多,做效率的动力越弱

“硅谷 AI 公司钱太多,导致没有动力去思考效率,反而给了 DeepSeek 优势”

-- Jenny

Jenny 基金内部做过一张图,OpenAI 与 Anthropic 资本效率的对比,同等收入下 Anthropic 的资本效率显著高于 OpenAI

当然,其原因可以追溯到公司哲学。Anthropic 从第一天就保持克制,不在 GPU 和基础设施上过度承诺,怕收入跟不上被采购拖死;而 OpenAI 一直走快路,move fast,break things,从第一天就放开了买,于是乎 OpenAI 最近几轮融资的姿态,也到有种「出于无奈」

他们在向沙特财团求钱,向私募股权基金求钱,试图从每一个能接触到的池子里搜罗资本

投资人在 IPO 前可能会对 OpenAI 施压换 CEO,这是 Jenny 的推测。Sam 不是省钱的人,投资人对他在基础设施上的支出习惯不满。毕竟再投一笔 10 亿、100 亿美元,边际收益是多少,谁也说不出个所以然

真正的问题是,这种性能提升能换来多少额外市场和收入

现在美国投资人的心态,与几年前完全不同。那时候是「曲线还在指数增长,继续投钱」。现在的问题变成「就算继续投,ROI 在哪?」

对于这个问题,DeepSeek 用模型给出了不同的回答:扩 infra 的 ROI,可能已经不划算了

正是因为有计算资源限制,所以必须倒逼,必须去做这种尝试和创新

有时候我们自己也会感慨,创新都是给逼出来的,便宜本身就是技术革命的条件之一

每一次工业革命中,重要的不仅仅是技术有多好,还在于技术有多便宜。能推动变革的技术,是那些便宜到足以让人们使用的技术

要做出对大众有用的 AGI,模型要足够聪明,也要足够便宜

80% 任务跑开源模型

Jenny 投资组合公司里,80% 的任务跑在中小开源模型上,只有 20% 最复杂的任务跑在闭源模型上,这个比例往前推一年,估摸着没有人会信

对于闭源模型的看衰,资本市场也有着对应的信号,在硅谷每天都能刷到类似这样的信息

有「我们手里有 1000 万美元的 OpenAI 股票,你们基金在买吗,或者认识谁在买吗?」

毕竟,AI 公司的估值是二元的,基础模型公司的存在理由就是模型最强。一旦不再最强,被开源模型超越,估值就归零,哪怕是 OpenAI

当然,应用层公司处境一样。Anthropic 复制某个应用功能把客户全抢走的那一刻,那个应用层公司的企业价值也归零

英伟达,难守推理

从短期来看,英伟达的位置还说稳定的,整套生态都是它的护城河,包括 CUDA、NVLink、InfiniBand 和成熟的供应链,这些东西很难靠单点突破替代

但从长期来看,英伟达的位置却开始松动。V4 通过 CSA 加 HCA 把长上下文 attention 的成本压下来,硬件跑大规模推理的门槛因此降低

非英伟达芯片因此有了承接推理 workload 的空间。不只国产芯片,AMD、Google TPU、超大规模云厂商自研芯片都在这条线上。比如说 Google 的 TPU 就是一个有力对手,Anthropic 的模型在 Google TPU 集群上训练,Gemini 也在 TPU 上

拥有完整软硬件协同能力的公司,可以降低对英伟达的依赖

当然,TPU 这条路,也是不易复制的。Google 有自己的模型、cloud、数据中心、compiler、runtime、芯片和系统,能做一体化优化。这也印证了黄仁勋一句原话来

同样性能的芯片,价格白送也比不过英伟达

Google 之后,Amazon、Microsoft、Meta、OpenAI、TikTok 都在评估自研芯片的可能性,主要瞄推理

国产芯片承接 V4、Kimi 这一类模型,难点在五层

算子

V4 论文涉及的算子不只 GEMM,还有 fused MoE attention、Sparse attention、MoE routing、TopK、all-to-all KV cache、FP4 精度,每一个都需要 kernel level 的支持

通信

MoE 模型在 dispatch、combine、all-to-all 上的负担一向重,芯片算力即使做上去,通信跟不上也会被拖垮

serving runtime

如果要提供高效服务,vLLM、SGLang 上的 continuous batching、PD 分离、KV cache 管理都要做适配

训练稳定性

大规模训练需要长时间稳定运行,对 fault tolerance、checkpoint、数值一致性有高要求

开发者生态

compiler、debug、profile、通信库整套工具链都要成熟

在这里,国产芯片要补整套 AI infra 软件栈,单点突破解决不了问题。但他指出一个加速因素:AI agent 现在能直接帮做 kernel 层优化,更上层的 system orchestration 还需要人为深度协同设计

最终格局是芯片不再是一卡打天下,训练、推理、长上下文、agentic workload 各自分化。每一类 workload 对计算、存储、通信的需求都不同

等等还有...昇腾专场

以上内容,就是来自硅谷 101 的精彩分享,而今晚 8 点,B 站独家直播华为昇腾技术专场

五位重磅嘉宾,来聊聊:《DeepSeek V4 与国产算力的突围》

打开网易新闻 查看精彩图片

今晚 8 点 B 站独家直播

五位嘉宾

赵英俊华为昇腾产品规划专家

刁莹煜CANN 社区大模型推理优化专家

冀元祎小巧灵应用部署专家

张德鹏CANN 社区大模型训练优化专家

Git 源宝B 站 AI 百万粉 UP 主,主持人

和硅谷 101 这场刚好凑成一组:硅谷视角看一遍,国产算力视角看一遍

同一个事件,同一天,同一个平台,都在 B 站

今晚 8 点,搜「Git 源宝」即可进直播间