阶跃Step 3.7 Flash拿下AA榜第一，让Agent从「跑Demo」到「能搞钱」|agent|flash|大模型|智能体|调用|速度|阶跃ste

智东西6月4日报道，今日，阶跃星辰开源的Flash基座模型Step 3.7 Flash，在Artificial Analysis榜单上拿下多个第一，并登上OpenRouter Trending榜全球第二。

▲Step 3.7 Flash在输出速度榜单排名第一

海外开发者社区的态度更为直观，Step 3.7 Flash 凭借速度和性价比刷屏。官方披露这款模型的运行速度超过400 tokens/s，但有开发者测出在极限条件下，模型甚至能跑到6000 tokens/s。更多人关注的是另一组指标：Step 3.7 Flash 以约1/9的任务成本，实现了Claude Opus 4.6 的97%。

客观来讲，这款模型并没有行业极致的智能水平，却在效率上另辟蹊径。

效率导向的性能优势，让Step 3.7 Flash在企业服务市场拿下了“实用、利于规模化落地”的生态位，这是因为其恰好切中当下Agent商业规模化落地的效率瓶颈——在真实任务中跑不动，养不起。

这是横亘在Agent从榜单、PPT Demo进入真实商用场景无法回避的阻碍。大量企业客户发现，当模型面临复杂任务，需历经任务拆解规划、工具调用、结果校验、迭代修正的多轮执行链路，这会造成链路冗余、token无效损耗，而这导致的低效问题，已然成为制约Agent规模化商用落地的阻碍。

这也顺势明确了未来Agent的商业化分水岭：让Agent在真实业务场景中以更高性价比实现更快响应、更高任务准确率，是打通智能体商业化闭环的必经之路。

一、智能体风口，低效痛点拖累规模化落地进程

从年初OpenClaw、Hermes接连出圈，到OpenAI联合创始人、CEO萨姆·奥尔特曼（Sam Altman）昨晚直播直言：全天候主动式Agent是未来一年头号布局方向，智能体热潮已势不可挡。

但这背后使其落地硬伤愈发凸显，居高不下的无效token损耗、低效运行难题持续困扰大批一线开发者，拖慢其项目落地节奏。

效率层面，在Cursor社区，有开发者吐槽其智能体在执行顺序终端命令时，即便只需10毫秒即可完成的简单指令，相邻命令间仍存在约27秒冗余延迟，最终造成串行任务效率损耗高达99.95%。

▲开发者实测时延

密歇根大学、斯坦福大学、微软以及谷歌DeepMind等今年4月联合发布的研究进一步印证症结所在，智能体执行任务时需要反复灌入历史上下文，使得模型输入输出token消耗比例高达154:1。

▲智能体执行任务时输入输出token消耗比例

另外是成本层面，Agent自主多轮调用机制会天然放大token消耗。

上月初，有开发者提到其在用Claude Code进行代码重构时，尚未提出正式问题，仅上下文预加载就要耗费3.5万至4万个token，甚至仅3次提示调用便耗尽原本够用4小时的token额度。

落地到企业端，成本失控会更为突出，Uber称员工大规模使用AI编程工具后，4个月就烧掉了全年的AI预算；还有不具名的公司忘记设限，一个月在Claude上烧掉5亿美元。

这样的效率困局折射出，业内评判Agent价值的逻辑已经变了：基础模型底子好只是前提，放到Agent场景里，模型只靠答题、单项能力远远不够，高效、少冗余、省Token、低成本跑完整套任务，才是检验模型能不能适配智能体的硬指标。

由此，破解智能体低效困局的落脚点便聚焦到速度与性价比两大维度。

一方面，通过提效减少Agent运行时无效等待带来的无用算力开销，让算力每一秒都能用于任务闭环；另一方面，提升模型单次执行任务的成功率，使得同等任务少消耗token、少耗时，拉高业务落地的性价比。

当下，已经实现Agent全程跑得更快、花钱更少、产出效率更高的模型便是阶跃星辰最新开源的Step 3.7 Flash。

二、速度登顶、性价比拉满，Step 3.7 Flash释放Agent商用价值

在Agent时代，Step 3.7 Flash交出了差异化答卷。

先来看下Step 3.7 Flash面对复杂编程任务的实力，智东西让其生成体感打砖块游戏。Step 3.7 Flash生成的游戏能自动触发摄像头，人脸移动和挡板移动同步，击碎砖块时有特效，结束时还会震动掉落，可能在挡板接住时略有延迟，但整体已经具备很高可玩性。

在模型底层基础能力拉满的前提下，Step 3.7 Flash在规模化落地能力上更进一步，这也对应了前文提到破解智能体低效困局的两大关键。

首先是速度，根据官方信息，Step 3.7 Flash最高生成速度可达400 tokens/s。开发者的实测显示，Step 3.7 Flash单流生成速度为DeepSeek-V4的2.4倍；64并发峰值吞吐达到DeepSeek-V4的3.47倍，高并发场景吞吐优势显著，并且他在极端条件下甚至实现了6000 tokens/s的传输速率。