AI 最卷的一周，常识正在崩塌｜Hunt Good 周报|agent|image|上下文|编程|调用

这一周让我真正不安的，不是哪个 Benchmark 又被刷新了，这榜单每天都在刷新，已经麻了。

让我不安的是，我发现自己打开朋友圈看到一张截图，第一反应不再是「这事儿真的假的」，而是「这图保真吗」。

图源：小红书@ZOTAS

连怀疑的对象都变了。以前我们怀疑信息，现在我们怀疑载体本身，怀疑一切。

与此同时，这周Anthropic 和 OpenAI 的缠斗进入白热化，国产模型一天发一个，你甚至来不及搞清楚上一个模型叫什么名字，下一个就已经上线了。仿佛所有事在同时加速，而你站在原地，脚底下的地板在动。

我不知道该怎么定义这种感觉。说焦虑太轻了，说恐惧又太重了。大概就是一种持续的、低烈度的失重。你知道世界没塌，但你也发现，你脚下踩的那些东西，正在一个一个变得不可靠。

我们正在以一种我们尚未完全准备好的速度，告别我们以为是常识的东西。

DeepSeek 发布 V4 的推文最后引了一句荀子：不诱于誉，不恐于诽，率道而行，端然正己。

在每周都在改变规则、刷新认知的世界里，这种不慌不忙，甚至主动慢下来的淡定，实在是太令人羡慕了。

一周时间，足够让一张截图变得十分可疑

GPT Image 2 在 4 月 21 日上线那天，我把几张图发给朋友，让他挑一张真的。他认真看了几分钟，挑了一张，结果挑错了。

那一刻有点尴尬，也有点可怕。

这是 OpenAI 第一次把推理能力装进图像模型。Arena 文生图榜单上，它拿了 1512 分，比第二名 Nano Banana 2 高出整整 242 分，是这个榜单历史上最大的差距。Arena 创始人 @ml_angelopoulos 看完后说了一句 literally broke the chart。

过去 AI 生图最难拿下文字渲染，这次直接做到了 99% 的准确率。中日韩文字、UI 截图、餐厅菜单、考试卷、聊天记录、医院叫号屏，所有这些过去能让 AI 一秒露馅的东西，现在一句 prompt 直出，肉眼几乎无法分辨。

与此同时，社交平台上开始流传一张 AI 生成的、库克即将出任小米汽车 CEO 的官宣图，小米集团董事长特别助理、战略市场部副总经理徐洁云回应表示：乱 P 图不可取，可不兴这么乱开玩笑。

辨别一张图是不是 AI 生成的成本，第一次系统性地高于这张图本身能带来的价值。绝大多数人会从理性上放弃辨别。2023 年就有人预言过，那时大家还嗤之以鼻，觉得 AI 生成的东西一眼假，怎么可能看不出来。三年时间，这个临界点就真的到了。

OpenAI 的应对方案是 C2PA 元数据水印加上溯源分类器。产品负责人 Adele Li 在发布会上承认，元数据 is not a silver bullet。截图、裁剪、平台压缩，任何一步都可能让水印失效。Google 的 SynthID 虽然把水印嵌到像素层面，更难去除，但只有 Google 自己玩，跨平台不兼容。

坦率讲，目前没有任何一种技术手段能可靠检测一张图是不是 AI 生成的。

以前我们打开手机，看到一张截图、一张照片、一份红头文件，默认它是真的，怀疑它需要理由；现在我们默认它是假的，相信它需要理由。

AI「御三家」，一边大战，一边沉默

Image 2 当然是 OpenAI 这周最响的一炮。但要理解它为什么发得这么急，或许得回头看一条这周较冷一点的新闻：Anthropic 在私募二级市场的隐含估值，越过了一万亿美元。

三个月前，Anthropic 的 G 轮估值是 3800 亿美元。Forge Global 现在的报价稳定在 1 万亿美元左右，OpenAI 在同平台是 8800 亿。有股东挂牌的对应估值是 1.15 万亿，有大型成长基金以 1.05 万亿美元的估值发起收购意向。

OpenHome 的创始人 Jesse Leimgruber 在 X 上看完说「这简直太疯狂了」。Rainmaker Securities 的 CEO Glen Anderson 收到一份 9600 亿美元估值的报价，他说，几周前根本没人会设想这个价格。

企业支出管理平台 Ramp 的数据显示，2026 年 3 月，企业首次购买 AI 服务的新增资金里，73% 流向了 Anthropic，OpenAI 的份额降到 27%。仅仅 10 周前，这个比例还是 50:50。

Anthropic 的核心武器是 Claude Code，年化收入超过 25 亿美元，自 2026 年初以来翻了一番还多，企业订阅用户数量增长了四倍。

OpenAI 没有沉默。这周，奥特曼连续发了两记反击拳。

先是 Image 2 在周二把整个 Image Arena 横扫第一，把谷歌死守了大半年的 Nano Banana Pro 榜一带走。紧接着周三晚上，GPT-5.5 上线，代号 Spud，距离 GPT-5.4 不到两个月。在 Artificial Analysis 的 Coding Index 上，5.5 以前沿编程模型一半的成本拿下了 SOTA，token 效率显著高过 5.4。

OpenAI co-founder Greg Brockman 在媒体电话会上把它定义为「迈向更具 agentic 性、更直觉化计算的一大步」。Bloomberg 称 OpenAI 正在追赶 Anthropic 的企业市场。

但二级市场的报价并没有立刻回头。

一个原因是 OpenAI 已经被市场讨论得太充分，ChatGPT 的用户规模、多模态布局、企业产品线，所有牌均已摊在桌上，认知红利被消化得差不多。

另一个原因是：投资人的判断标准是「谁能进入高频、高付费、可验证的工作流」。Claude Code 是这一切的最佳样本，而 ChatGPT 还在向上叠各种花哨的多模态。Image 2 当然惊艳，问题是它能不能像 Claude Code 那样把每一个企业用户每月的几百美元订阅费稳稳地收上来。

更隐秘的输家其实是 Gemini。Image 2 之前，Nano Banana Pro 在生图榜单领跑了大半年，Coding Index 里 Gemini 3.1 Pro 也是头部位置。

这周一战之后，Gemini 在两条它原本最有把握的赛道上同时被压住：图像被 Image 2 大幅度甩开，编程被 Claude Opus 4.6/4.7 反复压制。

AI「御三家」里，Gemini 是这周最沉默的一家。

‍♂️ 与此同时，国产模型一字排开

外部巨头打成这样，国内厂商也没在睡觉。整个 4 月下旬这一周，中国大模型基本是一天一发。

Qwen 3.6 Max-Preview，阿里把旗舰塞进了预览版

4 月 20 日下午，阿里发布了 Qwen 3.6 Max-Preview。它是千问系列下一代旗舰模型的早期版本，对应的是月初已经登顶国产编程榜的 Qwen 3.6-Plus 之后的进一步抬升。

SkillsBench 上比 Plus 高 9.9 分，SciCode 高 10.8 分，NL2Repo 高 5 分，Terminal-Bench 2.0 高 3.8 分，世界知识 SuperGPQA 高 2.3 分，QwenChineseBench 高 5.3 分。

在第三方基准测试平台 Artificial Analysis 的追踪里，这一版的综合性能是国产模型第一。

值得留意的细节是，这次预览版的核心是「智能体编程」（Agentic Programming）。阿里把编程能力当成最重要的旗舰指标，背后的逻辑和 Anthropic 是一样的：编程是 AI 应用里商业化路径最清晰、付费意愿最强的领域，在这条赛道领先，就能在企业市场里收到真金白银。

Qwen 3.6 Plus 4 月初发布当天，OpenRouter 日榜单日 Token 消耗就破了 1.4 万亿，平台历史纪录。

Kimi K2.6，月之暗面把蜂群规模做到了 300

4 月 20 日晚上，月之暗面把 Kimi K2.6 正式开源上线。它仍然是万亿参数 MoE。

Agent Swarm 的规模从上一代的 100 拉到了 300。一次复杂任务里，K2.6 可以瞬间动态创建并指挥 300 个子智能体并行工作，单次最多支持 1500 次工具调用。

月之暗面自己的 RL 基础设施团队拿 K2.6 跑了一个连续 5 天自主运行的 Agent，负责系统监控、故障响应和系统运维全流程，期间没有人工干预。

K2.6 的实测案例里，模型在 Mac 上下载并部署了 Qwen 3.5-0.8B，用小众的 Zig 语言重写推理引擎，连续工作 12 小时，4000 多次工具调用，迭代 14 轮，把吞吐量从 15 tokens/s 推到 193 tokens/s，比 LM Studio 快 20%。

一个 AI 说了什么，另一个 AI 直接读到。

API 价格也涨了。输入价格从 K2.5 的 0.6 美元/百万 token 涨到 0.95，幅度 58%。输出价格从 3 美元涨到 4，幅度 33%。

小米 MiMo V2.5，第一家手机厂商登顶全球开源榜

4 月 23 日凌晨，小米把 MiMo V2.5 系列开启公测，包含基座 V2.5、旗舰 V2.5-Pro、TTS 系列和 ASR。

同一天，权威榜单 Artificial Analysis 的最新结果显示，MiMo V2.5-Pro 的综合智能指数位列全球开源大模型并列第一，跻身全球大模型总榜前五。Agent 专项指数开源第一。

这是小米自研大模型第一次拿到全球开源第一，也是第一家做到这件事的手机厂商。

研发负责人是前 DeepSeek 核心成员罗福莉，从 12 月开源 MiMo V2-Flash，3 月发布 V2 系列，到 4 月 V2.5-Pro 登顶，节奏比小米手机的发布节奏还快。模型走的是 MoE，总参数 309B，激活只有 15B，单 token 推理成本是国际闭源旗舰的 2.5%。

在 OpenRouter 周榜上，MiMo V2-Pro 单周调用量 4.82 万亿 token，30% 市占率第一。中国模型总调用量已经连续五周超过美国，占比 61%。

小米给出的极端跑分案例是：仅凭几句简单指令构建一个视频编辑器 Web 应用，V2.5-Pro 在 11.5 小时的自主工作里，1868 次工具调用，最终交付 8192 行代码，多轨道时间线、片段裁剪、交叉淡化、音频混合、导出流程一应俱全。

北大《编译原理》课程项目，Rust 从零实现完整 SysY 编译器，本科生通常需要数周，V2.5-Pro 用了 4.3 小时、672 次工具调用，隐藏测试集 233 分满分。

Hy3 Preview，姚顺雨在腾讯的首秀

4 月 23 日下午，腾讯混元的 Hy3 Preview 正式亮相。这是首席 AI 科学家姚顺雨主导的第一个模型，从他去年年底加入腾讯到 1 月底启动训练，再到这周上线，正好三个月。

模型本身是一个快慢思考融合的 MoE，总参数 295B，激活 21B，最大支持 256K 上下文。

姚顺雨在腾讯内部会上的判断是：模型过度追逐榜单成绩，把打榜语料放进训练集，数据被污染了。模型很会答题，到了真实场景却不稳定。榜单衡量的是能力上限，用户感知的是能力下限。MMLU 上领先两个百分点，用户在实际使用中几乎感知不到；反过来，指令遵循稍差、格式不稳定、幻觉率偏高，用户体验会断崖式下降。

所以 Hy3 的目标是腾讯自己的场景。

Hy3 Preview 已经在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ 浏览器、腾讯文档首发，微信公众号、和平精英、腾讯新闻等更多主线产品在陆续接入。

我们让 Hy3 Preview 写一个旧金山金门大桥的交互式 3D 体验，整体流畅度过得去，视觉细节差点意思但不影响导航。让它写一个等距视角的主题公园经营游戏，UI 还是免不了「渐变紫」的套路，但游戏能玩。

在 WorkBuddy 这种本地 Agent 产品里，让它读取本地文件夹生成 Wiki、把 PDF 转 HTML、做联合国人口数据可视化，给出的结果都接近能直接拿来用的水准。

DeepSeek V4，盼了三个月，终于来了

DeepSeek V4 预览版正式上线，并同步开源。

1.6 万亿参数。这是目前国产开源模型最大的参数规模，把 Kimi 上周的 1 万亿压了下去。

但 DeepSeek 在技术报告里把 V4 定义为一次基础设施级别的发布，核心目标是把长上下文的成本结构打散重建。1M 上下文从这一刻起是 DeepSeek 所有官方服务的标配，不再是高级功能。

关键的技术变化在注意力机制。V4 把 Compressed Sparse Attention 和 Heavily Compressed Attention 结合起来。在 1M token 上下文场景下，V4-Pro 相比 V3.2 只需要 27% 的单 token 推理 FLOPs 和 10% 的 KV cache。同样的显卡和显存，可以处理多得多的请求。

V4-Pro 在数学、STEM 和竞赛级代码评测上超越所有公开开源模型，世界知识评测大幅领先开源模型，仅稍逊于 Google Gemini。

Agent 评测上，四款对比模型在 SWE Verified 上打成平手 80.6%，DeepSeek 在 Terminal Bench 2.0（67.9%）和 Toolathlon（51.8%）两项工具调用与复杂指令执行测试中突出。

官方对 V4-Pro 的 Agent 能力定位是：使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，仍与 Opus 4.6 思考模式有一定差距。技术文档里 DeepSeek 表示，内部已经在实际编码工作中用 V4 替换了 Claude。

V4-Flash 输入缓存命中 0.2 元、未命中 1 元、输出 2 元每百万 token；V4-Pro 是 1 元、12 元、24 元。Flash 这个价格直接把百万上下文模型的门槛拉到了地板价。