我用30秒修好一个老项目 Bug，Step 3.7 Flash 是真出活呀！

纯洁的微笑

2026-06-24 15:43 ·陕西 ·微笑科技创始人

大家好，我是微笑哥。

大家应该感觉到了，最近这一两年，大模型更新的速度实在太快了。

每天打开技术社区，几乎都能看到各种新的排行榜、新的跑分。

但说实话，作为技术人员，我其实反倒不太关注这些分数了。

相反，我认为思考如何让AI真正落地到实际工作里，对技术人来说更实在点。

就以程序开发最常见的场景来说。

AI的作用，不该仅仅是完成一个固定函数或优化某段代码，而是能从零去理解项目，分析代码结构，定位Bug，给出方案，修改代码，最后自我验证等这一整套任务。

面对这一整条任务链，谁能又快、又稳、又便宜地跑完整个流程，这才是关键。

不得不说，在我最近的一些测试中，Step 3.7 Flash整体表现很值得推荐。

接下来，给大家看一些实际案例，这些案例都来自开发的真实工作场景。

案例1：老系统遇到新Bug

下图展示的是我合伙人之前开发的一个软件项目，用于管理我们团队社群会员积分的一个系统。

之前一直是合伙人在维护，但前阵子他离岗了，现在有用户提出bug，我就得安排新同事去研究，这就挺耽误时间。

老系统遇到新Bug，这种情况在开发日常工作场景中非常常见。

现在，我尝试使用Step 3.7 Flash模型来解决这个问题。

Bug具体描述如下：

当管理员登录系统，创建新用户，用户列表的头像默认为会员名程的缩写，但当管理员修改某个用户的名称后，用户列表中的头像却还是保持原样。

这个Bug本身不算很复杂。

但要成功解决Bug，需要依次完成几件事：

先快速梳理代码框架结构，了解项目各个模块之间的关系找到Bug描述问题对应的代码文件，搞清楚代码逻辑分析并定位问题原因修改代码测试修改效果，如果仍存在问题，继续修改，直到修好为止

这就是开发人员面对Bug的常规处理流程。

那现在，我们把这个问题交给AI，它完成的效果如何呢？

我使用的是工具是VsCode、ClaudeCode插件、配置了Step 3.7 Flash模型。

我上传了对应界面截图，并给出提示词如下：

如图所示，当管理员登录系统后，用户列表头像默认为会员名程的缩写，但当管理员修改某个用户的名字后，头像却还是保持原样，请分析这个问题出现的原因，并找出对应代码所在文件，给出解决方案，我确认后你再修改。

PS：为了操作更可控，我并没有让AI直接去自动修改，而是先让AI分析代码，找到问题原因后先给出具体方案。

如下图所示，AI只用了11秒，就完成了问题的定位、分析、并给出了解决方案。

可以看出，这个分析过程非常清晰，具体修改方案也非常具体，让人一目了然。

人工确认方案无误，开始修改：

提示词：

没问题，按照这个方案完成修改

如下图所示，AI用时19秒，完成了前后端代码修改和自我测试验证。

最终，经我实际测试，Bug已经修复完成。

总结一下，针对这个Bug，Step 3.7 Flash的端到端总耗时是30秒左右，完成了问题定位、给出方案、修复Bug、测试验证的全过程。

对于这种两次会话，均是一次性完成，稳定性在线。

我查看后台的实际花费，解决该问题，花费了0.1362元。

当然，为了对比效果，同样的问题，我也用同级别的deepseek-v4-flash做了横向对比。

按Deepseek官方介绍，作为DeepSeek最新一代Flash模型，deepseek-v4-flash 在常规任务上与其旗舰模型 deepseek-v4-pro 旗鼓相当，但在高难度任务上存在差距。

以下是执行过程。

下图是DeepSeek api的成本花费。

结果上来看，deepseek-v4-flash确实也没让人失望，与Step 3.7 Flash一样，都只用了一次会话就精准定位、给出方案并解决了问题。

但在多维度对比上存在一些差异，具体实测如下：

Step 3.7 Flash

deepseek-v4-flash

端到端任务耗时

30秒左右

45秒左右

Token成本

0.1362元

0.17元

多轮调用稳定性

多模态链路

未涉及

未涉及

First-pass可用性

在案例1中，整体来说差异不算明显，但效率上Step 3.7 Flash表现得相对更经济一些。

案例2：草稿图到Demo展示

这个案例，其实也是开发者经常会面对的真实场景。

我给模型一张比较简单的产品草图，希望它自己完成代码输出，还原产品草图效果的Demo。

这类任务其实涉及多模态，先识别图片，获取完整图片信息，然后进入后面的开发流程。

我们举例说明，假设草图效果如下：

和案例1同样的操作环境，我上传草图图片，配合如下提示词：

这是一张网页界面手绘稿。请用 React + Tailwind CSS 复刻这个页面。要求：先描述页面结构、布局和主要视觉元素再给出可运行的 React 组件代码使用语义化命名，不要依赖截图中的真实品牌资产对无法确认的图片或图标，用占位元素表示保持移动端和桌面端都有合理布局

从执行结果来看，Step 3.7 Flash完成的是比较准确且高效的。

AI先完成了图片的识别，精准捕获了草稿图中的信息（包括页面布局和文字信息），然后根据这些信息完成了代码输出。

下图是实际生成代码的展示效果，可以看出还原度非常高。

移动端也完成了适配。

从草图理解到demo完成，端到端时间共花费40秒左右，相对于人工处理，效率不知道高了多少倍。

Token成本花费0.3046元。

同样案例2，我也用deepseek-v4-flash做了测试。

但测试刚开始，我就知道结果可能会波动较大。

原因在于deepseek-v4-flash目前对多模态支持能力有限。

如下图，如果直接上传图片附件，deepseek-v4-flash无法直接识别，需要用户告知图片的本地路径。

虽说不能直接识别图片，但deepseek-v4-flash具备其较强推理能力，会不断寻找替代方案。

通过多轮思考，最终使用Python代码对图片进行了解析，也生成了页面代码。

下图是deepseek-v4-flash生成的demo效果页面。

可以看得出，虽然页面能够正常运行，但显然没有按要求对设计草图进行还原。

本次任务具体成本如下，虽然花费较少，但完成度很低。

我们这里算一下成本。

Step 3.7 Flash的官方定价为：

按照输入Token每百万1.35元，缓存命中每百万0.27元，输出每百万8.1元。

deepseek-v4-flash的官方定价为：

按照输入Token每百万1元，缓存命中每百万0.02元，输出每百万2元。

如果按这个综合定价来看，Deepseek的Tokens单价更为便宜。

但从本案例我们看得出，决定成本这件事，单价并不是唯一因素，前提还是得把事情完成好。

如果单价低但却需要多轮返工，最终成本依旧会上去，这个账大家自己算算就明白了。

这一轮对比结果如下：

Step 3.7 Flash

deepseek-v4-flash

端到端任务耗时

40秒左右

100秒左右

Token成本

0.3046元

0.07元

多轮调用稳定性

多模态链路

支持

局限性大

First-pass可用性

未成功

综合从以上两个案例，可以看得出Step 3.7 Flash在 Agent 任务中完成率还是比较高的。

我看到的不是单点能力的爆发，而是多维能力的高效整合。

多模态能力、需求整理能力、项目阅读能力、代码生成能力、自测检查能力等。

这些单点能力高效的串起来，价值一下就体现出来了。

很多朋友可能会问，那旗舰模型是不是就没有优势了？

当然也不是。

像Claude Opus、GPT5.5这类旗舰模型，在复杂规划、深度推理、关键决策上依然是有优势的。

但如果回到工程实践，大量重复、高频执行、持续调用工具的Agent任务，其实更需要的是效率。

所以，从工程实践的角度来说，作为面向生产级 Agent 的高效率 Flash 模型，我认为Step 3.7 Flash是更合适的选择。

毕竟对于开发者来说，这种稳定、持续、可落地的能力，比一次惊艳的回答可重要多了。

测完之后，一个感受还是挺明显的。

可以确信，Agent效率，正在为下一阶段模型竞争的关键。

Step 3.7 Flash，给我的印象就是，它真很适合干活啊！

在解决实际问题过程中，确实做到了更快、更稳、更省。

就如上面的两个案例，同样的事情，如果是找个人类同事来接手，很可能一下午都不一定能把项目搞清楚，但对于AI工具来说，只是几十秒钟的事情。

这当然就大幅提升了我们的工作效率。

还是那句老话，眼过千遍，不如手过一遍。

看到这里，不妨带着你的项目，去接入Step 3.7 Flash的API试试看，相信你会有惊喜！

API接入入口：

https://platform.stepfun.com/

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴