周三下午,一台vivo手机通过USB连接Mac,ADB调试授权后,屏幕截图被发给一个刚开源的模型。它看了一眼微信读书热搜榜,没有逐字念出页面上每一个中文字,而是直接梳理出榜单的结构——哪块是书名、哪里是封面、当前排名第几、多少人在读、推荐值指向哪本书。这个节点在APPSO测试中,用时极短。
做出这件事的模型叫Step 3.7 Flash,阶跃星辰正式发布并开源的新一代Flash模型。它的发布时机有点意思——当整个行业还在讨论参数规模和榜单排名时,实际跑在Claude Code、Codex这类编程助手里的开发者,其实已经在关心另一类问题:模型能不能在高频呼唤里稳住表现,能不能重复调用工具不出错,能不能看清复杂的界面,能不能直接嵌进已有的工作流里一天天产出。
APPSO的感受是,这些问题的答案,通常不在跑分表里。
过去Flash模型常被看作旗舰的轻量版本,卖点就两样:更快、更便宜。但当Agent成为工作流核心,这件事的衡量标准变了。一个模型如果在多轮任务里容易跑偏,企业或开发者就是不敢用。反过来,如果一个模型能在速度和成本之上,同时把工具调用、多模态理解和部署便利性拉到一条平衡线上,它就不再是“便宜的小模型”,而是可能成为整个Agent系统真正依赖的基础层。
阶跃对Step 3.7 Flash的定位没有回避这个判断——它被直接标为新一代Agent基座模型,主要服务Agent、编程、搜索和多模态工作流。
生产环境里的Agent第一道关卡,不是推理竞赛,而是看清真实世界。大量Agent任务并不长在干净的文本界面里,它们分布在UI界面、办公文档、表格系统、浏览器页面、专业软件和内部工具之间。只擅长文字问答的模型,走不进这条流水线。
Step 3.7 Flash在这件事上的思路,是把多模态理解和执行做成原生能力。它可以直接理解UI、图表、文档、图片和应用界面,也可以在面对复杂视觉问题时自行裁剪、放大、重读图像。碰上信息不足的情况,模型可以主动发起搜索,再拿文本和图像结果做交叉验证。
这里藏着一个反直觉的设计。对于一个激活参数只有11B的Flash模型来说,把海量视觉知识硬塞进权重里是不划算的。阶跃的解法是,权重里只保留最核心的推理引擎,感知边界的拓展和世界知识的补全被推到推理阶段去完成,做法是靠着极快的响应速度,用“多看几眼、多查几遍”去换来参数本身撑不起来的识别和判断能力。低延迟和高吞吐,在这里突然不再是单纯的部署指标,直接变成能力本身。
在一个驾驶舱操作的演示中,用户只输入“如何起飞”四个字,模型就开始自动框选驾驶舱区域,识别仪表、按钮和关键操作信息,理解当前界面的操作逻辑,并且给出分步骤教程。真正的难点不是认出这是一张驾驶舱照片,而是把一个密集、陌生、高度依赖上下文的视觉环境,折叠成一个人可以照着动手的任务清单。看懂,和教会你动手,中间的难度跳跃很大。
APPSO把Step 3.7 Flash接入一套手机图形化用户界面Agent流程,用一台vivo手机跑了一遍。手机通过USB连接Mac,打开安卓调试桥授权后,终端就能获取手机当前截图,再通过scrcpy同步显示手机画面。接着脚本把这张截图发给模型,让它判断屏幕上正在发生什么。
除了看清微信读书热搜榜的结构,它还被放进美团小判官这样的页面里,处理一条商家申诉场景。那个页面里同时挤着用户评价、图片证据、商户回复,以及“用户更有理”“商家更有理”这样的处理按钮。对模型来说,这不是简单的光学字符识别,它需要理解一段业务流程:谁在投诉、争议焦点在哪里、证据长什么样、平台当前允许怎么操作。
多模态Agent要踏进真实工作流,遇到的就是这种文本、图片、判断和操作入口搅在一起的页面。
换到Blender场景,用户问“怎么删除这个方块”,模型会识别Blender的界面结构、图层、工具栏和当前编辑状态,再给出删除指定方块的操作路径。再换到应用界面设计分析场景,当用户要求模型说明“这些设计有什么有趣之处”,它能识别不同图片中的信息内容,梳理设计元素间的关系,生成专业分析。
另一项被反复测试的能力是联网与视觉搜索增强。Agent在业务里撞上的问题,常常牵着动态信息、外部资料、多源证据和残缺的输入。模型要是只靠训练数据里那点存量知识,时效性和准确性很容易翻车。
“瑞石楼”这个演示是典型的例子。模型先从用户上传的图片中读出可见的线索,沿着这些线索生成检索词,用网页抓取工具去外面查资料,最后把图里的视觉信息和网上的文字信息拼成一个完整回答。搜索在这里已经不是返回一串链接那么简单——模型是围着任务目标,主动去找、去筛、去核对、去整理证据。这正是Search Agent和Research Agent干活时需要的样子。
阶跃官方披露的数据显示,Step 3.7 Flash在SimpleVQA Search、V*(Python)等复杂视觉任务基准测试上,展现出接近更大规模旗舰模型的表现。这层能力意味着模型在信息不完整的情况下可以继续推进任务,同时减少未经验证的回答。
Agent和普通聊天机器人的分界线,在于调用密度。一次普通问答通常只走一轮,而Agent要完成一个任务,得反复观察环境、调用工具再去读取结果。编程Agent要读代码、改文件、运行命令,搜索Agent要检索、核对、整理信息,办公Agent要处理表格、文档和邮件。调用次数一旦大倍数增长,模型速度和成本就不再是锦上添花,而是系统能不能跑起来的硬约束。
Step 3.7 Flash在架构上用的是稀疏混合专家模型,总参数196B加上1.8B视觉变换器,激活参数只有11B,最高生成速度可以达到每秒400个Token。对于高频Agent、编程Agent、搜索Agent、多模态Agent和企业知识工作Agent来说,这意味着同样时间窗口里可以挤出更多轮观察、调用和推理。
在实际部署中,Step 3.7 Flash可以构建Agent集群,让40个Agent同时开工。这40个Agent各自在不同的任务线程上跑:有的在解析代码仓库,有的在执行搜索任务,有的在处理多模态页面,有的在做信息校验和结果整理。集群化的部署方式,把单点模型的快速响应能力放大成并行处理的吞吐能力。
参数效率这件事,在这款模型上的体现不是一句口号。阶跃给出的对比数据是一个很清晰的锚点:Step 3.7 Flash的任务成本仅为Claude Opus 4.6的九分之一。这个成本差不是靠缩水能力换来的,而是靠架构和工程上的取舍——把推理引擎收紧,把感知能力外推,靠速度和调用策略去补齐规模的差距。
过去行业内习惯把Flash模型看作一种“够用就好”的选择,但Step 3.7 Flash的这个成本数字和它配套的多模态、搜索、工具调用能力组合在一起,指向了另一种可能性:在未来以Agent为核心的工作流里,Flash模型可能不再是旗舰模型的廉价替代品,而是生产效率最高的基座模型。
从航海时代的福禄特商船,到今天的AI模型竞争,工程逻辑的残酷和优雅都在同一个地方:最终能跑通航线的,不是参数最大的那条船,而是能在风暴里稳定往返的那条。
热门跟贴