任务成本仅为Claude Opus 4.6的1/9，阶跃开源Step 3.7 Flash|flash|任务成本|工作流|开源模型|模态|编程|调用|阶跃开源

周三下午，一台vivo手机通过USB连接Mac，ADB调试授权后，屏幕截图被发给一个刚开源的模型。它看了一眼微信读书热搜榜，没有逐字念出页面上每一个中文字，而是直接梳理出榜单的结构——哪块是书名、哪里是封面、当前排名第几、多少人在读、推荐值指向哪本书。这个节点在APPSO测试中，用时极短。

做出这件事的模型叫Step 3.7 Flash，阶跃星辰正式发布并开源的新一代Flash模型。它的发布时机有点意思——当整个行业还在讨论参数规模和榜单排名时，实际跑在Claude Code、Codex这类编程助手里的开发者，其实已经在关心另一类问题：模型能不能在高频呼唤里稳住表现，能不能重复调用工具不出错，能不能看清复杂的界面，能不能直接嵌进已有的工作流里一天天产出。

APPSO的感受是，这些问题的答案，通常不在跑分表里。

过去Flash模型常被看作旗舰的轻量版本，卖点就两样：更快、更便宜。但当Agent成为工作流核心，这件事的衡量标准变了。一个模型如果在多轮任务里容易跑偏，企业或开发者就是不敢用。反过来，如果一个模型能在速度和成本之上，同时把工具调用、多模态理解和部署便利性拉到一条平衡线上，它就不再是“便宜的小模型”，而是可能成为整个Agent系统真正依赖的基础层。

阶跃对Step 3.7 Flash的定位没有回避这个判断——它被直接标为新一代Agent基座模型，主要服务Agent、编程、搜索和多模态工作流。

生产环境里的Agent第一道关卡，不是推理竞赛，而是看清真实世界。大量Agent任务并不长在干净的文本界面里，它们分布在UI界面、办公文档、表格系统、浏览器页面、专业软件和内部工具之间。只擅长文字问答的模型，走不进这条流水线。

Step 3.7 Flash在这件事上的思路，是把多模态理解和执行做成原生能力。它可以直接理解UI、图表、文档、图片和应用界面，也可以在面对复杂视觉问题时自行裁剪、放大、重读图像。碰上信息不足的情况，模型可以主动发起搜索，再拿文本和图像结果做交叉验证。

这里藏着一个反直觉的设计。对于一个激活参数只有11B的Flash模型来说，把海量视觉知识硬塞进权重里是不划算的。阶跃的解法是，权重里只保留最核心的推理引擎，感知边界的拓展和世界知识的补全被推到推理阶段去完成，做法是靠着极快的响应速度，用“多看几眼、多查几遍”去换来参数本身撑不起来的识别和判断能力。低延迟和高吞吐，在这里突然不再是单纯的部署指标，直接变成能力本身。

在一个驾驶舱操作的演示中，用户只输入“如何起飞”四个字，模型就开始自动框选驾驶舱区域，识别仪表、按钮和关键操作信息，理解当前界面的操作逻辑，并且给出分步骤教程。真正的难点不是认出这是一张驾驶舱照片，而是把一个密集、陌生、高度依赖上下文的视觉环境，折叠成一个人可以照着动手的任务清单。看懂，和教会你动手，中间的难度跳跃很大。

APPSO把Step 3.7 Flash接入一套手机图形化用户界面Agent流程，用一台vivo手机跑了一遍。手机通过USB连接Mac，打开安卓调试桥授权后，终端就能获取手机当前截图，再通过scrcpy同步显示手机画面。接着脚本把这张截图发给模型，让它判断屏幕上正在发生什么。

除了看清微信读书热搜榜的结构，它还被放进美团小判官这样的页面里，处理一条商家申诉场景。那个页面里同时挤着用户评价、图片证据、商户回复，以及“用户更有理”“商家更有理”这样的处理按钮。对模型来说，这不是简单的光学字符识别，它需要理解一段业务流程：谁在投诉、争议焦点在哪里、证据长什么样、平台当前允许怎么操作。

多模态Agent要踏进真实工作流，遇到的就是这种文本、图片、判断和操作入口搅在一起的页面。

换到Blender场景，用户问“怎么删除这个方块”，模型会识别Blender的界面结构、图层、工具栏和当前编辑状态，再给出删除指定方块的操作路径。再换到应用界面设计分析场景，当用户要求模型说明“这些设计有什么有趣之处”，它能识别不同图片中的信息内容，梳理设计元素间的关系，生成专业分析。

另一项被反复测试的能力是联网与视觉搜索增强。Agent在业务里撞上的问题，常常牵着动态信息、外部资料、多源证据和残缺的输入。模型要是只靠训练数据里那点存量知识，时效性和准确性很容易翻车。

“瑞石楼”这个演示是典型的例子。模型先从用户上传的图片中读出可见的线索，沿着这些线索生成检索词，用网页抓取工具去外面查资料，最后把图里的视觉信息和网上的文字信息拼成一个完整回答。搜索在这里已经不是返回一串链接那么简单——模型是围着任务目标，主动去找、去筛、去核对、去整理证据。这正是Search Agent和Research Agent干活时需要的样子。

阶跃官方披露的数据显示，Step 3.7 Flash在SimpleVQA Search、V*(Python)等复杂视觉任务基准测试上，展现出接近更大规模旗舰模型的表现。这层能力意味着模型在信息不完整的情况下可以继续推进任务，同时减少未经验证的回答。

Agent和普通聊天机器人的分界线，在于调用密度。一次普通问答通常只走一轮，而Agent要完成一个任务，得反复观察环境、调用工具再去读取结果。编程Agent要读代码、改文件、运行命令，搜索Agent要检索、核对、整理信息，办公Agent要处理表格、文档和邮件。调用次数一旦大倍数增长，模型速度和成本就不再是锦上添花，而是系统能不能跑起来的硬约束。

Step 3.7 Flash在架构上用的是稀疏混合专家模型，总参数196B加上1.8B视觉变换器，激活参数只有11B，最高生成速度可以达到每秒400个Token。对于高频Agent、编程Agent、搜索Agent、多模态Agent和企业知识工作Agent来说，这意味着同样时间窗口里可以挤出更多轮观察、调用和推理。

在实际部署中，Step 3.7 Flash可以构建Agent集群，让40个Agent同时开工。这40个Agent各自在不同的任务线程上跑：有的在解析代码仓库，有的在执行搜索任务，有的在处理多模态页面，有的在做信息校验和结果整理。集群化的部署方式，把单点模型的快速响应能力放大成并行处理的吞吐能力。

参数效率这件事，在这款模型上的体现不是一句口号。阶跃给出的对比数据是一个很清晰的锚点：Step 3.7 Flash的任务成本仅为Claude Opus 4.6的九分之一。这个成本差不是靠缩水能力换来的，而是靠架构和工程上的取舍——把推理引擎收紧，把感知能力外推，靠速度和调用策略去补齐规模的差距。

过去行业内习惯把Flash模型看作一种“够用就好”的选择，但Step 3.7 Flash的这个成本数字和它配套的多模态、搜索、工具调用能力组合在一起，指向了另一种可能性：在未来以Agent为核心的工作流里，Flash模型可能不再是旗舰模型的廉价替代品，而是生产效率最高的基座模型。

从航海时代的福禄特商船，到今天的AI模型竞争，工程逻辑的残酷和优雅都在同一个地方：最终能跑通航线的，不是参数最大的那条船，而是能在风暴里稳定往返的那条。