编辑|杨文、冷猫
今年 3 月份,奥特曼公开表示:
「我们看到这样一个未来:智能将成为一种公用事业,就像电力或自来水一样,人们会按表从我们这里购买它。」
https://x.com/Vivek4real_/status/2059058179955380493?s=20
这个未来来得比预想更快,也比预想更贵。
米哈游员工为了冲项目,搭了几十个 Agent,一晚上烧掉 200 万元 token。
https://x.com/wayen_ai/status/2058786389009854868?s=20
Uber 四个月烧光了 2026 年全年 AI 预算,微软财大气粗也扛不住 token 消耗,直接把 Claude Code 权限砍了。
就连英伟达副总裁都直言:「我们团队用 AI 的花费比请真人还贵。现在 AI 的成本已经超过人类员工了。」
https://x.com/Vivek4real_/status/2058607634182537496?s=20
这背后有其结构性原因。
真实的 Agent 工作流和普通对话式任务不同,模型进入生产环境后,一个 Agent 任务动辄触发数十次模型调用,搜索、工具调用、代码执行、结果验证…… 每一轮都在累积延迟,token 消耗呈指数级增长。
开发者的实践已经验证,在选择 Agent 核心模型时,任务场景、响应速度和成本,与工具调用能力同等重要。盲目追求大参数量,在工程上并不可取
于是今年以来,Flash 模型集中爆发。
Gemini 3.5 Flash、GPT-5.4 mini、Claude Haiku 4.5、Qwen3.6-Flash、DeepSeek-V4-Flash…… 头部厂商几乎同步押注轻量高效路线。
但在这场轻量模型竞赛中,很多厂商的思路是削减参数、压缩成本、牺牲部分能力。阶跃星辰则不同,它不把 Flash 模型当旗舰平替,而是专门为 Agent 工作流重新设计一款模型。
继 Step 3.5 Flash 后,阶跃星辰最近又推出新一代高效率 Flash 开源模型 ——Step 3.7 Flash
该模型最大特点就是(模)、(速)、(用)、(钱)。总参数 196B,采用稀疏 MoE 架构,推理激活参数仅 11B,配备 1.88B ViT 视觉编码器,推理速度最高 400 TPS,支持 256K 上下文。
作为一款面向真实 Agent 工作流设计的高效率模型,它具备原生多模态理解能力,并打通了搜索、工具调用、GUI 感知、代码生成等完整 Agent Loop 执行能力。
从 benchmark 来看,Step 3.7 Flash 没有明显短板。在通用 Agent 能力上,ClawEval-1.1 以 67.1% 拿下参测模型第二,Toolathlon、GPDval、HLE w. Tool 三项也均处于领先梯队;Agentic Coding 方向,SWE-PRO 达到 56.3、Terminal-Bench v2.1 达到 59.5;多模态方向则是 SimpleVQA(search)以 79.2 位居榜首,V*(python)以 95.3 排在第三。
柱状图中左一为 Step 3.7 Flash、左二为 Step 3.5 Flash(Multimodal 除外)
接下来,我们就将 Step 3.7 Flash 放进真实的工作场景测评下。
原生多模态:它能「看懂」任务现场吗?
先来试试原生多模态能力。
为了压缩成本削减参数,有些轻量模型最先被牺牲的往往是多模态能力。
而在真实任务里,大量输入根本不是干净的结构化文本,还包括 GUI 截图、扫描文档、网页内容,Agent 要进入这些场景,视觉理解是绕不开的前提。
Step 3.7 Flash 新增多模图像理解、识别、推理、感知,可处理复杂视觉信息,并在跨模态上下文中进行联合推理。
比如让它分析 Pinterest 界面帖子的设计特点,它不仅能识别 UI 元素,还能理解应用界面的内容结构、设计逻辑与信息组织方式。
再比如框选驾驶舱界面,让它生成起飞操作说明。
模型需要同时识别大量专业仪表、按钮与状态信息,并理解「如何起飞」背后的操作逻辑,什么时候推油门、何时收起起落架等。
相比传统多模态模型的描述画面, Step 3.7 Flash 完成的是「环境感知 → 状态理解 → 任务推理 → 操作指导」的完整闭环。
在处理视觉任务时,常规做法是把大量视觉常识和感知能力硬塞进模型权重,但对 11B 激活量级的 Flash 模型来说,这条路天然受限。阶跃选择在权重里只留最核心的推理引擎,把感知边界推到推理阶段动态解决。
具体而言,模型可在推理中途自主对图像进行裁切、缩放和重读,告别「一眼定生死」的单步感知局限,当任务超出自身视觉常识边界时,还能主动发起检索、交叉验证。「重新看」和「去查证」在同一个推理循环内自主闭环,能力上限不再受任何单点工具约束。
Deep Research:快速检索,结构化交付
在 Deep Research 测评中,我们让 Step 3.7 Flash 围绕「2026 年第一季度中国新能源汽车市场」这一主题,检索 3-5 个高可信度来源,对比比亚迪、特斯拉、理想、小鹏四个品牌的市场表现,生成一份结构化调研简报。
模型快速完成检索和信息整合,从销量数据、价格区间、主要优缺点以及购车建议等方面进行结构化输出。
在 Step 3.7 Flash 的工作方式里,搜索真正进入了推理循环本身,不再是外挂的辅助工具。
它能在推理中途主动判断「当前信息是否足够」,不足则自主发起新一轮检索,检索回来再判断是否可信,再决定下一步怎么做。这种「搜 - 理解 - 再搜 - 验证 - 再推理」的循环,让模型在任务执行过程中能持续锚定真实世界的信息。
多 Agent 并行:400 TPS 能承载多少并发?
下面这个场景则是多个 Agent 并行推理测试。
40 个不同身份的虚拟角色扮演产品评测团,对一个产品问题进行并行判断,然后实时汇总它们对 5 个 MVP 方向的偏好。
这群虚拟专家可以同时分析,分工执行,最终给出更稳健、更可解释的结果。
对于需要大量并发推理的 Agent 场景,模型推理速度直接决定整个工作流能跑多快、能承载多少并行任务。
此外,模型还能依托精准推理能力和丰富知识储备,快速构建结构清晰、关联明确的知识图谱。
GUI 操控:从「理解界面」到「操作设备」
Step 3.7 Flash 在 GUI 理解能力不仅限于多模态识别和规划,作为一个基座模型,已经具备实时操作设备的能力。
我们找来一台安卓测试机,不做任何额外的模型微调或本地推理配置,直接以 Step 3.7 Flash 作为决策大脑,看它在真实手机上能做到什么程度。
注:本次测试采用小米手机,使用小米互联服务「妙享桌面」同步至电脑录屏,敏感信息马赛克处理。
第一关:信息汇总。模型顺利完成,基本流畅:
「帮我看看微博文娱热搜上有哪些内容,总结一下给我」。
视频开启倍速
第二关:出行规划。任务涉及多个条件判断和跨 App 操作:
我明天早上 9 点要到「北京国贸大厦」开会。帮我查一下明天早上的天气, 如果下雨就帮我叫一个网约车(不用真的下单,截图到确认页面即可),如果不下雨就查一下地铁路线。打车和查线路均使用百度地图。最后,把天气情况、出行方案和预计出发时间整理成文字输入到笔记中。
视频开启倍速
Step 3.7 Flash 在复杂逻辑的 GUI 操作中表现游刃有余,甚至能理解地图导航中查看地铁线路的细节,最终成功从多个 App 采集信息,整理进备忘录。
第三关:社媒 + 电商跨平台任务
我想了解一下最近新出的降噪耳机。帮我在小红书上搜「2026 降噪耳机推荐」,找 3 篇点赞超过 300 的笔记,提取每篇推荐的型号、价格区间和博主提到的优缺点,找到最合适的一款帮我在京东购买。
视频开启倍速
社交媒体内容多样、电商平台 UI 结构复杂、逻辑判断难度高,但最终结果超出预期,全程只有电商平台的安全验证环节需要真人配合操作,其余一切流畅执行。
Agent 时代,Flash 模型不是旗舰版平替
过去,Flash 模型常被视为旗舰模型的「轻量替代品」,用在不那么重要的场景,或作为成本兜底选项。
这个认知正在被打破。
随着推理、规划、工具调用、长上下文和环境反馈能力持续增强,模型越来越多地承担起任务拆解、工具选择、执行反馈和结果修正等 Agent 核心环节。
Flash 模型由此成了专为高频、多步骤、低延迟的 Agent 工作流优化的独立品类。
当然,这里有一个关键前提,Flash 模型必须足够「能干」,否则省下来的成本会以任务失败率的代价偿还回去。如何在压缩推理成本的同时,不丢掉完成复杂任务的能力,才是 Flash 模型赛道真正的技术分水岭。
阶跃星辰正是沿着这条路线突破的。今年 2 月,Step 3.5 Flash 上线,主打在 Agent 场景实现「更快、更强、更稳」的执行效果,上线两天登顶 OpenRouter Trending 榜,一个月后拿下 OpenClaw 调用量月榜全球第一。
在此基础上,Step 3.7 Flash 进一步迭代,兼顾更多能力的协同效率,并在成本、稳定性与部署形态上进一步满足长期运行的要求。
这正是 Agent 工作流的本质要求。拿着有限预算跑完整条任务链,谁能在每一步调用中少犯错、少超时、少超支,谁才是生产环境的真正赢家。在这个维度上,最好的模型未必是单次推理能力最强的,但一定是能被持续调用、稳定运行、成本可控的
正如阶跃星辰联合创始人、CTO 朱亦博所言:「我们相信未来的大模型应用方式,不是一个超大尺寸的模型解决所有问题。人类社会有不同的任务,我们追求的是许多不同模型的矩阵,Agent 是解决任务的方式。」
而 Step 3.7 Flash 证明,Flash 模型不是旗舰的廉价替代品,它可以有自己的完整能力矩阵,「多快好省」地成为 Agent 时代的主力。
文中视频链接:https://mp.weixin.qq.com/s/fM5f8RdOcffedNLq4QSgnA
热门跟贴