大家好,我是微笑哥。

大家应该感觉到了,最近这一两年,大模型更新的速度实在太快了。

每天打开技术社区,几乎都能看到各种新的排行榜、新的跑分。

但说实话,作为技术人员,我其实反倒不太关注这些分数了。

相反,我认为思考如何让AI真正落地到实际工作里,对技术人来说更实在点。

就以程序开发最常见的场景来说。

AI的作用,不该仅仅是完成一个固定函数或优化某段代码,而是能从零去理解项目,分析代码结构,定位Bug,给出方案,修改代码,最后自我验证等这一整套任务。

面对这一整条任务链,谁能又快、又稳、又便宜地跑完整个流程,这才是关键。

不得不说,在我最近的一些测试中,Step 3.7 Flash整体表现很值得推荐。

接下来,给大家看一些实际案例,这些案例都来自开发的真实工作场景。

案例1:老系统遇到新Bug

下图展示的是我合伙人之前开发的一个软件项目,用于管理我们团队社群会员积分的一个系统。

打开网易新闻 查看精彩图片

之前一直是合伙人在维护,但前阵子他离岗了,现在有用户提出bug,我就得安排新同事去研究,这就挺耽误时间。

老系统遇到新Bug,这种情况在开发日常工作场景中非常常见。

现在,我尝试使用Step 3.7 Flash模型来解决这个问题。

Bug具体描述如下:

当管理员登录系统,创建新用户,用户列表的头像默认为会员名程的缩写,但当管理员修改某个用户的名称后,用户列表中的头像却还是保持原样。

打开网易新闻 查看精彩图片

这个Bug本身不算很复杂。

但要成功解决Bug,需要依次完成几件事:

先快速梳理代码框架结构,了解项目各个模块之间的关系 找到Bug描述问题对应的代码文件,搞清楚代码逻辑 分析并定位问题原因 修改代码 测试修改效果,如果仍存在问题,继续修改,直到修好为止

这就是开发人员面对Bug的常规处理流程。

那现在,我们把这个问题交给AI,它完成的效果如何呢?

我使用的是工具是VsCode、ClaudeCode插件、配置了Step 3.7 Flash模型。

我上传了对应界面截图,并给出提示词如下:

如图所示,当管理员登录系统后,用户列表头像默认为会员名程的缩写,但当管理员修改某个用户的名字后,头像却还是保持原样,请分析这个问题出现的原因,并找出对应代码所在文件,给出解决方案,我确认后你再修改。
打开网易新闻 查看精彩图片

PS:为了操作更可控,我并没有让AI直接去自动修改,而是先让AI分析代码,找到问题原因后先给出具体方案。

如下图所示,AI只用了11秒,就完成了问题的定位、分析、并给出了解决方案。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

可以看出,这个分析过程非常清晰,具体修改方案也非常具体,让人一目了然。

人工确认方案无误,开始修改:

提示词:

没问题,按照这个方案完成修改

如下图所示,AI用时19秒,完成了前后端代码修改和自我测试验证。

打开网易新闻 查看精彩图片

最终,经我实际测试,Bug已经修复完成。

打开网易新闻 查看精彩图片

总结一下,针对这个Bug,Step 3.7 Flash的端到端总耗时是30秒左右,完成了问题定位、给出方案、修复Bug、测试验证的全过程。

对于这种两次会话,均是一次性完成,稳定性在线。

我查看后台的实际花费,解决该问题,花费了0.1362元。

当然,为了对比效果,同样的问题,我也用同级别的deepseek-v4-flash做了横向对比。

按Deepseek官方介绍,作为DeepSeek最新一代Flash模型,deepseek-v4-flash 在常规任务上与其旗舰模型 deepseek-v4-pro 旗鼓相当,但在高难度任务上存在差距。

以下是执行过程。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

下图是DeepSeek api的成本花费。

打开网易新闻 查看精彩图片

结果上来看,deepseek-v4-flash确实也没让人失望,与Step 3.7 Flash一样,都只用了一次会话就精准定位、给出方案并解决了问题。

但在多维度对比上存在一些差异,具体实测如下:

Step 3.7 Flash

deepseek-v4-flash

端到端任务耗时

30秒左右

45秒左右

Token成本

0.1362元

0.17元

多轮调用稳定性

多模态链路

未涉及

未涉及

First-pass可用性

在案例1中,整体来说差异不算明显,但效率上Step 3.7 Flash表现得相对更经济一些。

案例2:草稿图到Demo展示

这个案例,其实也是开发者经常会面对的真实场景。

我给模型一张比较简单的产品草图,希望它自己完成代码输出,还原产品草图效果的Demo。

这类任务其实涉及多模态,先识别图片,获取完整图片信息,然后进入后面的开发流程。

我们举例说明,假设草图效果如下:

打开网易新闻 查看精彩图片

和案例1同样的操作环境,我上传草图图片,配合如下提示词:

这是一张网页界面手绘稿。请用 React + Tailwind CSS 复刻这个页面。 要求: 先描述页面结构、布局和主要视觉元素 再给出可运行的 React 组件代码 使用语义化命名,不要依赖截图中的真实品牌资产 对无法确认的图片或图标,用占位元素表示 保持移动端和桌面端都有合理布局

从执行结果来看,Step 3.7 Flash完成的是比较准确且高效的。

AI先完成了图片的识别,精准捕获了草稿图中的信息(包括页面布局和文字信息),然后根据这些信息完成了代码输出。

打开网易新闻 查看精彩图片

下图是实际生成代码的展示效果,可以看出还原度非常高。

打开网易新闻 查看精彩图片

移动端也完成了适配。

打开网易新闻 查看精彩图片

从草图理解到demo完成,端到端时间共花费40秒左右,相对于人工处理,效率不知道高了多少倍。

Token成本花费0.3046元。

同样案例2,我也用deepseek-v4-flash做了测试。

但测试刚开始,我就知道结果可能会波动较大。

原因在于deepseek-v4-flash目前对多模态支持能力有限。

如下图,如果直接上传图片附件,deepseek-v4-flash无法直接识别,需要用户告知图片的本地路径。

打开网易新闻 查看精彩图片

虽说不能直接识别图片,但deepseek-v4-flash具备其较强推理能力,会不断寻找替代方案。

打开网易新闻 查看精彩图片

通过多轮思考,最终使用Python代码对图片进行了解析,也生成了页面代码。

下图是deepseek-v4-flash生成的demo效果页面。

打开网易新闻 查看精彩图片

可以看得出,虽然页面能够正常运行,但显然没有按要求对设计草图进行还原。

本次任务具体成本如下,虽然花费较少,但完成度很低。

打开网易新闻 查看精彩图片

我们这里算一下成本。

Step 3.7 Flash的官方定价为:

按照输入Token每百万1.35元,缓存命中每百万0.27元,输出每百万8.1元。

deepseek-v4-flash的官方定价为:

按照输入Token每百万1元,缓存命中每百万0.02元,输出每百万2元。

如果按这个综合定价来看,Deepseek的Tokens单价更为便宜。

但从本案例我们看得出,决定成本这件事,单价并不是唯一因素,前提还是得把事情完成好。

如果单价低但却需要多轮返工,最终成本依旧会上去,这个账大家自己算算就明白了。

这一轮对比结果如下:

Step 3.7 Flash

deepseek-v4-flash

端到端任务耗时

40秒左右

100秒左右

Token成本

0.3046元

0.07元

多轮调用稳定性

多模态链路

支持

局限性大

First-pass可用性

未成功

综合从以上两个案例,可以看得出Step 3.7 Flash在 Agent 任务中完成率还是比较高的。

我看到的不是单点能力的爆发,而是多维能力的高效整合。

多模态能力、需求整理能力、项目阅读能力、代码生成能力、自测检查能力等。

这些单点能力高效的串起来,价值一下就体现出来了。

很多朋友可能会问,那旗舰模型是不是就没有优势了?

当然也不是。

像Claude Opus、GPT5.5这类旗舰模型,在复杂规划、深度推理、关键决策上依然是有优势的。

如果回到工程实践,大量重复、高频执行、持续调用工具的Agent任务,其实更需要的是效率。

所以,从工程实践的角度来说,作为面向生产级 Agent 的高效率 Flash 模型,我认为Step 3.7 Flash是更合适的选择。

毕竟对于开发者来说,这种稳定、持续、可落地的能力,比一次惊艳的回答可重要多了。

测完之后,一个感受还是挺明显的。

可以确信,Agent效率,正在为下一阶段模型竞争的关键。

Step 3.7 Flash,给我的印象就是,它真很适合干活啊!

在解决实际问题过程中,确实做到了更快、更稳、更省。

就如上面的两个案例,同样的事情,如果是找个人类同事来接手,很可能一下午都不一定能把项目搞清楚,但对于AI工具来说,只是几十秒钟的事情。

这当然就大幅提升了我们的工作效率。

还是那句老话,眼过千遍,不如手过一遍。

看到这里,不妨带着你的项目,去接入Step 3.7 Flash的API试试看,相信你会有惊喜!

API接入入口:

https://platform.stepfun.com/