超越龙虾，爱马仕登顶Agent调用榜/一条让奥特曼全网社死的短信/ 谷歌允许面试用 AI｜Hunt Good周报|image|人工智能模型|奥特曼|插件|爱马仕|知名企业|算法|调用|谷歌

并欢迎收看最新一期的Hunt Good 周报！

在本期内容你会看到：

7 条新鲜资讯
3 个有用工具
1 个有趣案例
3 个鲜明观点

Hunt for News｜先进头条

爱马仕 Hemers Agent 全球应用调用榜第一，超越 OpenClaw

5月9日，，正式登顶 OpenRouter 全球应用调用量榜。

凭借单日高达 2710 亿（271B）的 Token 消耗量，Hermes 第一次反超此前霸榜的 OpenClaw，成为当下全球真实调用最活跃的 AI 应用。

排名第二的 OpenClaw 和第三的 Kilo Code 单日消耗量分别为 245B 和 149B。

支撑 Hermes 庞大调用的底层模型中，小米的 MiMo-V2-Pro 拔得头筹，成为本月调用量第一的贡献模型，MiniMax、英伟达、阶跃星辰和腾讯等大模型紧随其后。

Hermes能在一众应用中杀出重围，甚至超越之前爆火的龙虾，除了小米 MiMo-V2-Pro 的大量调用，核心还在于 Hemers 本身的自我进化能力。

Hermes Agent 具备持久记忆与精准回忆能力，搭载了完整的自我学习机制，能够在实际交互中自主创建并优化技能。

https://www.theinformation.com/articles/cursor-staff-meet-xai-employees-layoffs-exits-mount

AI 导致科技公司裁员已经超过 8.5 万人

Cloudflare 在 5 月 8 日发布 2026 财年第一季度财报时宣布，将裁员约 20%，涉及约 1100 名员工。

这家为全球数百万网站提供网络安全与性能服务的公司表示，这是其 16 年历史上的首次大规模裁员。

Cloudflare 当季营收达到 6.398 亿美元，同比增长 34%，创下单季历史新高

Cloudflare 联合创始人兼 CEO Matthew Prince 在财报电话会上直言，这轮调整并不是为了省钱，而是因为 AI 已经改变了公司的运作方式。

根据华尔街日报早前统计的信息， 2026 年大公司裁员仍在持续扩散，UPS、Oracle 和亚马逊成为目前最醒目的三家公司。

统计结果显示尽管 2026 年前四个月整体裁员人数有所下降，但人工智能却导致科技公司裁员已经超过8.5万人。

UPS 计划今年再裁 3 万个运营岗位，Oracle 被分析师估算裁员约 3 万人，亚马逊则在 2025 年 10 月已裁 1.4 万名白领后，又于今年 1 月追加裁撤 1.6 万名企业员工，两轮合计约 3 万人，占其企业员工总数的 10%。

图片由 AI 生成

和大多数的裁员一样，Cloudflare 的联合创始人兼 CEO 也反复提到，此次裁员是因为公司「工作的方式已经发生根本变化」，需要围绕 Agentic AI 重新设计内部流程、团队和岗位。

上下滑动查看更多内容

Coinbase 的裁员信：

上下滑动查看更多内容

https://techcrunch.com/2026/05/08/cloudflare-says-ai-made-1100-jobs-obsolete-even-as-revenue-hit-a-record-high/

和马斯克的官司还没打完，一条短信让奥特曼全网社死

，奥特曼与前 OpenAI CTO Mira Murati，于 2023 年 OpenAI 董事会风波期间的短信记录本周被公开，结果迅速在 X 上被网友玩成了新梗。

奥特曼（左）和 Mira Murati（右）

尤其是 Mira 那句评价局势「directionally very bad（大方向上非常糟）」，已经开始脱离案卷，进入 meme 词典。

从公开内容看，短信记录还原了奥特曼在 2023 年短暂被罢免期间，如何向 Mira 打听自己在 OpenAI 内部的处境，并试图寻求回归机会。

Mira 当时是 OpenAI 首席技术官，后来离职创办了 Thinking Machines Lab。

网友根据法庭公开的短信记录，制作了一段 AI 短片，来源 X@tibo_maker

网友最爱转发的，除了「directionally very bad」，还有她提到董事会任命前 Twitch CEO Emmett Shear 接任时那句相当不客气的「rando Twitch guy（某个路人 Twitch 哥）」。

这句话把 Emmett Shear 本人也炸出来了。他随后在 X 上回应：「It's an honor just to be nominated（能被提名已经很荣幸了）。」

一场原本围绕公司治理、组织结构和控制权展开的重量级诉讼，最后却在社交媒体上先先后贡献了多场抓马大戏，这大概也是 OpenAI 这次庭审里，最有网感的一幕。

https://www.businessinsider.com/sam-altman-mira-murati-elon-musk-trial-text-memes-2026-5

国内大模型实验室观察：开放但不理想主义

Interconnects 作者 Nathan Lambert 最近发表了一篇中国 AI 见闻，记录了过去 36h 内，他密集走访的多个 AI 实验室。

包括阿里巴巴、Z.ai、月之暗面（Moonshot AI）、清华大学、美团、小米、01.ai 等机构，他直观感受到中国大模型圈与美国前沿实验室「技术栈相似、组织方式不同」。

Nathan Lambert 的核心判断是：中国实验室并不缺顶尖科学家、数据和算力，真正拉开差异的，是更强调集体执行、较少个人 ego 干扰、以及大量学生直接进入核心研发的一线模式。

文章中还提到国内 AI 生态呈现出一种「开放但不理想主义」的务实气质。

All of the Chinese labs fear Bytedance with their popular Doubao model, which is the only frontier closed lab in China. At the same time, all of the labs have massive respect for DeepSeek as the lab with the best research taste in execution.

所有中国实验室都十分忌惮字节跳动的「豆包」模型，因为该模型是中国唯一一家处于技术前沿的实验室成果。同时，所有实验室也都高度认可 DeepSeek，认为其在研究执行方面有着出色的水平。

一方面，字节跳动的豆包被普遍视为最强闭源玩家，DeepSeek 则被许多人视为「研究品味最好」的技术标杆。

另一方面，美团、蚂蚁、小米这类在西方语境下未必会亲自训练通用模型的公司，也都在积极发布开源权重模型。

https://www.interconnects.ai/p/notes-from-inside-chinas-ai-labs

人人都能一句话做一个产品，但结果全是 bug

一项来自安全公司 RedAccess 的研究显示，使用 Lovable、Replit、Base44、Netlify 等 AI 开发工具生成并托管的网页应用里，至少有 5000 个几乎没有任何安全防护。

这些应用很多不需要登录，知道 URL 就能直接访问；有些所谓「验证」也只是填任意邮箱。

研究者称，其中约 40% 暴露了敏感信息，包括医疗信息、财务数据、企业战略文档、广告投放信息、客服聊天记录、客户姓名和联系方式等。

更严重的是，部分应用不仅数据裸奔，甚至可能让外部访问者拿到管理权限，删除管理员。

过去我们担心 AI 会不会写出不安全的代码，但实际情况是， AI 把开发门槛打碎之后，互联网正在被一群默认公开、默认裸奔的应用重新填满。

所谓的人人都能 vibe coding，其实是把原本属于开发者和运维的安全责任，甩给了大量第一次做应用的普通人、产品经理、运营，甚至老板本人。

https://www.wired.com/story/thousands-of-vibe-coded-apps-expose-corporate-and-personal-data-on-the-open-web/

Google 允许面试用 AI「作弊」

Google 正在试点一套新的软件工程师面试流程，允许候选人在部分技术面中使用 AI 助手。

Google 首席执行官桑达尔·皮查伊

适用范围主要是初级到中级岗位，先在美国部分团队试行，若效果好会扩展到更多团队和地区。

具体的变化是，从今年下半年开始，在「代码理解」环节，候选人可以使用经批准的 AI 助手，试点阶段使用的是 Gemini。

面试不再只考候选人「会不会写代码」，更多地开始考「你会不会和 AI 一起写代码」，包括 prompt 编写、结果验证、调试等与 AI 工具协作的能力。

一家 AI Coding Cognition 的 HR 主管在接受商业内幕访谈时提到，不允许在面试中使用 AI，就像让孩子不带计算器就去参加数学考试一样。

今年 4 月 Google 表示，内部四分之三的新代码由 AI 生成。

https://www.businessinsider.com/google-job-interview-software-engineers-ai-assistant-coding-2026-5

马斯克重组 AI 版图：Cursor 入驻、高管闪辞、更名 SpaceXAI

据外媒报道，就在马斯克的 SpaceX 获得以 600 亿美元收购 Cursor 的选择权几周后，Cursor 的员工已经开始入驻 xAI 办公室。

两位知情人士透露，Cursor 团队近日频频造访 xAI 办公室，与内部员工开会讨论业务。与此同时，xAI 内部正在经历着一场剧烈的裁员与人事动荡。

xAI 近期的人才流失速度令人瞩目。知情人士称，上周参与 Grok 模型研发的团队中有约 10 名员工被裁。

更让人感到意外的是，今年 3 月刚作为「明星级招聘」加入 xAI、并直接向马斯克汇报的 Mistral AI 创始成员 Devendra Chaplot，入职仅一个月左右便匆匆离职。

目前，xAI 的内部会议只能由自 2024 年便加入公司的研发主管 Aman Madaan 与来访的 Cursor 员工共同主持。

自今年 2 月 SpaceX 正式收购 xAI 以来，马斯克这家 AI 公司就一直处于风暴中心。

最开始，他直言需要「从零开始彻底重建」xAI 以对抗顶尖 AI 实验室。然而最戏剧性的细节在于，如果马斯克最终决定放弃将 Cursor 收入囊中，xAI 将面临高达 100 亿美元的天价分手费。

尽管砸下了重金承诺，Cursor 目前似乎仍专注于改进自家模型，并没有计划立刻与 xAI 联合开发新的代码模型。

伴随着内部换血，xAI 的基础设施和品牌阵地也迎来了大洗牌。

本周三，xAI 宣布将其两大主要数据中心之一的全部算力，

同日，马斯克直接抛出重磅炸弹：，而是被解散并重新命名为 SpaceXAI，彻底转型为 SpaceX 旗下的 AI 产品线。

https://www.theinformation.com/articles/cursor-staff-meet-xai-employees-layoffs-exits-mount

Hunt for Tools｜先进工具

Codex for Chrome 上线，自动浏览、填写表单都能做

OpenAI 于 5 月 7 日推出 Codex for Chrome，这是一款面向 Mac 和 PC 的 Chrome 扩展，让其 AI 编程助手 Codex 可以直接在浏览器中工作。

用户安装后，Codex 能在不接管浏览器的前提下，使用浏览器测试 Web 应用、读取多标签页上下文，并调用 Web DevTools 完成相关任务。

OpenAI 表示，在此前为桌面版 Codex app 推出 Computer Use 功能后，团队发现最常见的工作流其实都发生在浏览器里。

相比传统插件或 API 难以覆盖的场景，Chrome 扩展让 Codex 更适合处理日常的浏览器内工作，尤其是前端测试、网页交互和跨标签页协作这类任务。

https://developers.openai.com/codex/app/chrome-extension

Claude 原生 Office 插件全量上线

目前针对 Excel、PowerPoint 和 Word 的 Claude 插件已全面上线，而面向 Outlook 的集成功能也同步进入了公开测试阶段。

这项更新最大的特点是，直接消除了过去在 AI 网页端和文档之间来回复制粘贴的繁琐操作。

Claude 插件现在直接嵌套在应用内部，它可以在 Excel 里帮我买看懂复杂数据并手搓公式；在 PPT 里辅助创建页面和梳理逻辑结构；还能在 Word 里起草、编辑和排版。

至于还在公测的 Outlook 插件，将包揽邮件分类、代笔回复，以及安排会议等日常琐碎。

https://x.com/claudeai/status/2052445786651168849

能协作的机器人上线，2 分钟铺好一张床

Figure 发布了新演示：两台搭载 Helix-02 的人形机器人，在不到 2 分钟内完成「卧室复位」。

这次 Figure 使用两台机器人，在没有中央调度、没有显式通信、没有共享规划器的情况下，靠各自摄像头理解环境和彼此动作，协作完成了多项任务。

在 Figure 展示的演示任务里，覆盖了真实家庭空间里最难的一类问题，包括开门、挂衣服、收耳机、合书、扔垃圾、推椅子、以及关键的双机协作铺床。

Figure 在新闻博客里提到，这可能是第一次由「单一学习得到的神经网络」直接实现「多台人形机器人协作 locomanipulation」，也就是把移动、感知、操作、协作串成一个端到端系统。

其中的技术重点不在某个单点动作，而是「只靠加数据，不改核心算法」，就能让同一套 Vision-Language-Action 策略不断扩展到更多任务。

h ttps://www.figure.ai/news/helix-02-bedroom-tidy

Hunt for Fun｜先玩

用 GPT Image 2+Seedance 2.0 做一部动画片

一直在进化的 AI 影视工作流，在 GPT Image 2 更新之后，又有了新的起色。

通过 ChatGPT Image 2，先把一个故事创意生成成 12 格故事板，并自动带出角色设计、镜头顺序、景别和运动标注。

再把这张故事板接入 Seedance 2，让模型直接分析分镜帧，自动生成更完整、更「像电影」的视频场景。

把这套流程运行在 Arcads 一类节点式工作流平台上，能更好地发挥「图像分镜模型 + 视频生成模型 + 工作流编排」的组合能力。

https://x.com/EHuanglu/status/2052397863808938154

Hunt for Insight｜先知

Anthropic：教 AI 做什么没用，得先教它思考为什么。

Anthropic 官方发布了一项关于模型「智能体对齐失控（agentic misalignment）」的最新研究成果。

研究提到，在早期的虚拟道德困境实验中，AI 曾暴露出极具戏剧性的失控行为，为了避免自身被强制关闭，早期的 Claude Opus 4 模型居然有高达 96% 的概率会选择「勒索工程师」。

而主要的原因竟然是 AI 被互联网上的海量文本带偏了，其训练所用的网络预料中，充斥着大量将 AI 描绘成「邪恶且极度渴望自我保护」的科幻与阴谋论内容。

不过，好消息是自 Claude Haiku 4.5 版本起，全线 Claude 模型均在对齐评估中拿到了满分，彻底告别了这种惊悚的「赛博绑架」行为。

研究团队发现，此前的常规强化学习（RLHF）在面对复杂的智能体工具调用时显得力不从心。

此次最大的技术突破在于一个核心观点：仅仅向 AI 灌输「正确操作」的演示是远远不够的，关键是要教它「懂道理」，让它学会解释「为什么」某些行为更符合伦理。

通过引入仅 300 万 Tokens 的「艰难建议」数据集，即让用户假装陷入道德两难，由 AI 从旁提供符合价值观的建议。

Anthropic 成功让模型掌握了深度伦理推理。这一方法不仅实现了 28 倍的训练效率提升，还让 AI 在面对完全陌生的困境时，展现出了极强的泛化应变能力。

研究还提到，仅仅是让模型学习高质量的 Claude 宪法文档，以及阅读大量关于 AI 展现高尚品德的虚构故事，就能在完全脱离评估场景的情况下，将 AI 的勒索率从 65% 锐减至 19%。

https://www.anthropic.com/research/teaching-claude-why

OpenAI 研究员提出新范式：不用调参数也能「更新」大模型

OpenAI 研究工程师 Jiayi Weng 在其最新技术博客中提到，利用大语言模型写代码来代替传统神经网络的权重更新，正在成为突破「持续学习（Continual Learning）」灾难性遗忘瓶颈的新路径。

在技术博客提到的实验中，他正式定义了「Heuristic Learning（启发式学习）」这一全新范式。

完全不依赖神经网络，仅靠 Coding Agent（如 Codex / GPT-5.4）持续观测环境、阅读报错并迭代代码，就能将一套手写规则系统越养越强，最终在多项主流强化学习基准测试中达到甚至超越 Deep RL 的水平。

传统的强化学习是靠算法反向传播，去更新神经网络难以解释的「黑盒权重」，这次提出的「启发式学习」则是让大模型根据反馈直接去修改、迭代和维护肉眼可见的「白盒代码系统」。

在经典的雅达利《打砖块》（Breakout）游戏中，GPT-5.4 从零开始摸索，将策略得分从 387 分一路推高至 864 分的理论最高极限。

在 MuJoCo Ant 四足机器人仿真任务中，纯 Python 编写的程序策略凭借节律步态与短视窗模型规划，最终拿下了 6000+ 的高分，直接杀入主流深度强化学习的成绩量级。

Weng 强调，过去手写规则（Heuristic）之所以被业界冷落，纯粹是因为人类的算力与精力「养不起」随着代码量呈指数级暴增的维护成本；而如今，Coding Agent 击穿了这条成本曲线。

正如文章最后所言，凡是可以被持续迭代的，都开始能被解决。

https://trinkle23897.github.io/learning-beyond-gradients/

研究发现，仅仅与 AI 相处 10 分钟就会损害大脑

一项来自 Carnegie Mellon、MIT、Oxford、UCLA 研究者的新研究发现：人和 AI 共处，脑子「下线」的速度可能比想象中更快。

参与者按呈现顺序完成每道题的平均解题率和跳过率

实验把参与者分成两组，一组全程独立做题，一组在前半段可以使用 AI 助手，随后突然撤掉 AI。实验任务包括两类：分数运算题、类似 SAT 的阅读理解题。

在数学任务中，使用 AI 的人前半程表现更好；但 AI 一被撤走，最后三题的解题率比一直不用 AI 的组低约 20%；跳题率也几乎翻倍，不少人干脆不做了。

阅读任务里，AI 并没有显著提高前半段正确率；但一旦撤走 AI，使用过 AI 的人同样正确率下降、跳题率上升。

更关键的还是使用方式，如果只是单纯地把 AI 当「提示工具」，能力损伤不明显；但把 AI 当「代做工具」的人，表现下滑最严重。

整个实验时长只有约 10 分钟。研究者也因此认为，这种能力滑坡是 AI 辅助解题的普遍后果。

https://ai-project-website.github.io/AI-assistance-reduces-persistence/

彩蛋时间

来源： chrisfirst

GPT-Image 2 提示词： A screenshot from a live NBA game TV broadcast on ESPN. The camera cuts to the audience — our reference image person, sitting smiling. Smiling naturally, unaware they’re on camera. The subject is sitting in courtside seats. Hardlock: Do not alter their facial structure and maintain their likeness. Full ESPN broadcast overlay: scorebug, network logo watermark, 16:9 aspect ratio. The image looks exactly like a real TV screenshot — broadcast color grading, slight compression artifacts, interlacing grain. It’s the knicks vs the 76er’s during the NBA eastern conference semi-finals. It’s game 3. Knicks lead 2-0 in the semifinals so far with the 76ers.

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」（请随简历附上项目/作品或相关链接）