这一周让我真正不安的,不是哪个 Benchmark 又被刷新了,这榜单每天都在刷新,已经麻了。
让我不安的是,我发现自己打开朋友圈看到一张截图,第一反应不再是「这事儿真的假的」,而是「这图保真吗」。
图源:小红书@ZOTAS
连怀疑的对象都变了。以前我们怀疑信息,现在我们怀疑载体本身,怀疑一切。
与此同时,这周Anthropic 和 OpenAI 的缠斗进入白热化,国产模型一天发一个,你甚至来不及搞清楚上一个模型叫什么名字,下一个就已经上线了。仿佛所有事在同时加速,而你站在原地,脚底下的地板在动。
我不知道该怎么定义这种感觉。说焦虑太轻了,说恐惧又太重了。大概就是一种持续的、低烈度的失重。你知道世界没塌,但你也发现,你脚下踩的那些东西,正在一个一个变得不可靠。
我们正在以一种我们尚未完全准备好的速度,告别我们以为是常识的东西。
DeepSeek 发布 V4 的推文最后引了一句荀子:不诱于誉,不恐于诽,率道而行,端然正己。
在每周都在改变规则、刷新认知的世界里,这种不慌不忙,甚至主动慢下来的淡定,实在是太令人羡慕了。
一周时间,足够让一张截图变得十分可疑
GPT Image 2 在 4 月 21 日上线那天,我把几张图发给朋友,让他挑一张真的。他认真看了几分钟,挑了一张,结果挑错了。
那一刻有点尴尬,也有点可怕。
这是 OpenAI 第一次把推理能力装进图像模型。Arena 文生图榜单上,它拿了 1512 分,比第二名 Nano Banana 2 高出整整 242 分,是这个榜单历史上最大的差距。Arena 创始人 @ml_angelopoulos 看完后说了一句 literally broke the chart。
过去 AI 生图最难拿下文字渲染,这次直接做到了 99% 的准确率。中日韩文字、UI 截图、餐厅菜单、考试卷、聊天记录、医院叫号屏,所有这些过去能让 AI 一秒露馅的东西,现在一句 prompt 直出,肉眼几乎无法分辨。
与此同时,社交平台上开始流传一张 AI 生成的、库克即将出任小米汽车 CEO 的官宣图,小米集团董事长特别助理、战略市场部副总经理徐洁云回应表示:乱 P 图不可取,可不兴这么乱开玩笑。
辨别一张图是不是 AI 生成的成本,第一次系统性地高于这张图本身能带来的价值。绝大多数人会从理性上放弃辨别。2023 年就有人预言过,那时大家还嗤之以鼻,觉得 AI 生成的东西一眼假,怎么可能看不出来。三年时间,这个临界点就真的到了。
OpenAI 的应对方案是 C2PA 元数据水印加上溯源分类器。产品负责人 Adele Li 在发布会上承认,元数据 is not a silver bullet。截图、裁剪、平台压缩,任何一步都可能让水印失效。Google 的 SynthID 虽然把水印嵌到像素层面,更难去除,但只有 Google 自己玩,跨平台不兼容。
坦率讲,目前没有任何一种技术手段能可靠检测一张图是不是 AI 生成的。
以前我们打开手机,看到一张截图、一张照片、一份红头文件,默认它是真的,怀疑它需要理由;现在我们默认它是假的,相信它需要理由。
AI「御三家」,一边大战,一边沉默
Image 2 当然是 OpenAI 这周最响的一炮。但要理解它为什么发得这么急,或许得回头看一条这周较冷一点的新闻:Anthropic 在私募二级市场的隐含估值,越过了一万亿美元。
三个月前,Anthropic 的 G 轮估值是 3800 亿美元。Forge Global 现在的报价稳定在 1 万亿美元左右,OpenAI 在同平台是 8800 亿。有股东挂牌的对应估值是 1.15 万亿,有大型成长基金以 1.05 万亿美元的估值发起收购意向。
OpenHome 的创始人 Jesse Leimgruber 在 X 上看完说「这简直太疯狂了」。Rainmaker Securities 的 CEO Glen Anderson 收到一份 9600 亿美元估值的报价,他说,几周前根本没人会设想这个价格。
企业支出管理平台 Ramp 的数据显示,2026 年 3 月,企业首次购买 AI 服务的新增资金里,73% 流向了 Anthropic,OpenAI 的份额降到 27%。仅仅 10 周前,这个比例还是 50:50。
Anthropic 的核心武器是 Claude Code,年化收入超过 25 亿美元,自 2026 年初以来翻了一番还多,企业订阅用户数量增长了四倍。
OpenAI 没有沉默。这周,奥特曼连续发了两记反击拳。
先是 Image 2 在周二把整个 Image Arena 横扫第一,把谷歌死守了大半年的 Nano Banana Pro 榜一带走。紧接着周三晚上,GPT-5.5 上线,代号 Spud,距离 GPT-5.4 不到两个月。在 Artificial Analysis 的 Coding Index 上,5.5 以前沿编程模型一半的成本拿下了 SOTA,token 效率显著高过 5.4。
OpenAI co-founder Greg Brockman 在媒体电话会上把它定义为「迈向更具 agentic 性、更直觉化计算的一大步」。Bloomberg 称 OpenAI 正在追赶 Anthropic 的企业市场。
但二级市场的报价并没有立刻回头。
一个原因是 OpenAI 已经被市场讨论得太充分,ChatGPT 的用户规模、多模态布局、企业产品线,所有牌均已摊在桌上,认知红利被消化得差不多。
另一个原因是:投资人的判断标准是「谁能进入高频、高付费、可验证的工作流」。Claude Code 是这一切的最佳样本,而 ChatGPT 还在向上叠各种花哨的多模态。Image 2 当然惊艳,问题是它能不能像 Claude Code 那样把每一个企业用户每月的几百美元订阅费稳稳地收上来。
更隐秘的输家其实是 Gemini。Image 2 之前,Nano Banana Pro 在生图榜单领跑了大半年,Coding Index 里 Gemini 3.1 Pro 也是头部位置。
这周一战之后,Gemini 在两条它原本最有把握的赛道上同时被压住:图像被 Image 2 大幅度甩开,编程被 Claude Opus 4.6/4.7 反复压制。
AI「御三家」里,Gemini 是这周最沉默的一家。
♂️ 与此同时,国产模型一字排开
外部巨头打成这样,国内厂商也没在睡觉。整个 4 月下旬这一周,中国大模型基本是一天一发。
Qwen 3.6 Max-Preview,阿里把旗舰塞进了预览版
4 月 20 日下午,阿里发布了 Qwen 3.6 Max-Preview。它是千问系列下一代旗舰模型的早期版本,对应的是月初已经登顶国产编程榜的 Qwen 3.6-Plus 之后的进一步抬升。
SkillsBench 上比 Plus 高 9.9 分,SciCode 高 10.8 分,NL2Repo 高 5 分,Terminal-Bench 2.0 高 3.8 分,世界知识 SuperGPQA 高 2.3 分,QwenChineseBench 高 5.3 分。
在第三方基准测试平台 Artificial Analysis 的追踪里,这一版的综合性能是国产模型第一。
值得留意的细节是,这次预览版的核心是「智能体编程」(Agentic Programming)。阿里把编程能力当成最重要的旗舰指标,背后的逻辑和 Anthropic 是一样的:编程是 AI 应用里商业化路径最清晰、付费意愿最强的领域,在这条赛道领先,就能在企业市场里收到真金白银。
Qwen 3.6 Plus 4 月初发布当天,OpenRouter 日榜单日 Token 消耗就破了 1.4 万亿,平台历史纪录。
Kimi K2.6,月之暗面把蜂群规模做到了 300
4 月 20 日晚上,月之暗面把 Kimi K2.6 正式开源上线。它仍然是万亿参数 MoE。
Agent Swarm 的规模从上一代的 100 拉到了 300。一次复杂任务里,K2.6 可以瞬间动态创建并指挥 300 个子智能体并行工作,单次最多支持 1500 次工具调用。
月之暗面自己的 RL 基础设施团队拿 K2.6 跑了一个连续 5 天自主运行的 Agent,负责系统监控、故障响应和系统运维全流程,期间没有人工干预。
K2.6 的实测案例里,模型在 Mac 上下载并部署了 Qwen 3.5-0.8B,用小众的 Zig 语言重写推理引擎,连续工作 12 小时,4000 多次工具调用,迭代 14 轮,把吞吐量从 15 tokens/s 推到 193 tokens/s,比 LM Studio 快 20%。
一个 AI 说了什么,另一个 AI 直接读到。
API 价格也涨了。输入价格从 K2.5 的 0.6 美元/百万 token 涨到 0.95,幅度 58%。输出价格从 3 美元涨到 4,幅度 33%。
小米 MiMo V2.5,第一家手机厂商登顶全球开源榜
4 月 23 日凌晨,小米把 MiMo V2.5 系列开启公测,包含基座 V2.5、旗舰 V2.5-Pro、TTS 系列和 ASR。
同一天,权威榜单 Artificial Analysis 的最新结果显示,MiMo V2.5-Pro 的综合智能指数位列全球开源大模型并列第一,跻身全球大模型总榜前五。Agent 专项指数开源第一。
这是小米自研大模型第一次拿到全球开源第一,也是第一家做到这件事的手机厂商。
研发负责人是前 DeepSeek 核心成员罗福莉,从 12 月开源 MiMo V2-Flash,3 月发布 V2 系列,到 4 月 V2.5-Pro 登顶,节奏比小米手机的发布节奏还快。模型走的是 MoE,总参数 309B,激活只有 15B,单 token 推理成本是国际闭源旗舰的 2.5%。
在 OpenRouter 周榜上,MiMo V2-Pro 单周调用量 4.82 万亿 token,30% 市占率第一。中国模型总调用量已经连续五周超过美国,占比 61%。
小米给出的极端跑分案例是:仅凭几句简单指令构建一个视频编辑器 Web 应用,V2.5-Pro 在 11.5 小时的自主工作里,1868 次工具调用,最终交付 8192 行代码,多轨道时间线、片段裁剪、交叉淡化、音频混合、导出流程一应俱全。
北大《编译原理》课程项目,Rust 从零实现完整 SysY 编译器,本科生通常需要数周,V2.5-Pro 用了 4.3 小时、672 次工具调用,隐藏测试集 233 分满分。
Hy3 Preview,姚顺雨在腾讯的首秀
4 月 23 日下午,腾讯混元的 Hy3 Preview 正式亮相。这是首席 AI 科学家姚顺雨主导的第一个模型,从他去年年底加入腾讯到 1 月底启动训练,再到这周上线,正好三个月。
模型本身是一个快慢思考融合的 MoE,总参数 295B,激活 21B,最大支持 256K 上下文。
姚顺雨在腾讯内部会上的判断是:模型过度追逐榜单成绩,把打榜语料放进训练集,数据被污染了。模型很会答题,到了真实场景却不稳定。榜单衡量的是能力上限,用户感知的是能力下限。MMLU 上领先两个百分点,用户在实际使用中几乎感知不到;反过来,指令遵循稍差、格式不稳定、幻觉率偏高,用户体验会断崖式下降。
所以 Hy3 的目标是腾讯自己的场景。
Hy3 Preview 已经在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ 浏览器、腾讯文档首发,微信公众号、和平精英、腾讯新闻等更多主线产品在陆续接入。
我们让 Hy3 Preview 写一个旧金山金门大桥的交互式 3D 体验,整体流畅度过得去,视觉细节差点意思但不影响导航。让它写一个等距视角的主题公园经营游戏,UI 还是免不了「渐变紫」的套路,但游戏能玩。
在 WorkBuddy 这种本地 Agent 产品里,让它读取本地文件夹生成 Wiki、把 PDF 转 HTML、做联合国人口数据可视化,给出的结果都接近能直接拿来用的水准。
DeepSeek V4,盼了三个月,终于来了
DeepSeek V4 预览版正式上线,并同步开源。
1.6 万亿参数。这是目前国产开源模型最大的参数规模,把 Kimi 上周的 1 万亿压了下去。
但 DeepSeek 在技术报告里把 V4 定义为一次基础设施级别的发布,核心目标是把长上下文的成本结构打散重建。1M 上下文从这一刻起是 DeepSeek 所有官方服务的标配,不再是高级功能。
关键的技术变化在注意力机制。V4 把 Compressed Sparse Attention 和 Heavily Compressed Attention 结合起来。在 1M token 上下文场景下,V4-Pro 相比 V3.2 只需要 27% 的单 token 推理 FLOPs 和 10% 的 KV cache。同样的显卡和显存,可以处理多得多的请求。
V4-Pro 在数学、STEM 和竞赛级代码评测上超越所有公开开源模型,世界知识评测大幅领先开源模型,仅稍逊于 Google Gemini。
Agent 评测上,四款对比模型在 SWE Verified 上打成平手 80.6%,DeepSeek 在 Terminal Bench 2.0(67.9%)和 Toolathlon(51.8%)两项工具调用与复杂指令执行测试中突出。
官方对 V4-Pro 的 Agent 能力定位是:使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,仍与 Opus 4.6 思考模式有一定差距。技术文档里 DeepSeek 表示,内部已经在实际编码工作中用 V4 替换了 Claude。
V4-Flash 输入缓存命中 0.2 元、未命中 1 元、输出 2 元每百万 token;V4-Pro 是 1 元、12 元、24 元。Flash 这个价格直接把百万上下文模型的门槛拉到了地板价。
官方还特别提到,V4-Pro 服务吞吐目前有限,等下半年华为昇腾 950 超节点批量上市后,Pro 价格会大幅下跌——是的,V4 这次跑在华为昇腾上。
也就是说, DeepSeek 没有给英伟达或 AMD 提前优化适配的机会,而是把早期访问权限独家开放给了国产芯片厂商。这意味着,国产模型在「去英伟达化」迈出了重要的一步。
发布推文的最后写道:「不诱于誉,不恐于诽,率道而行,端然正己」,出自《荀子·非十二子》。
欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知
我们正在招募伙伴
简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
热门跟贴