一个7万行代码的桌面应用,2400多个测试用例,跨4个仓库,只有1个开发者。他一边打《万智牌》竞技场,一边让AI在后台自动提交Bug报告。
这不是未来场景,是Anthropic员工Beyang Liu正在做的事。他开发的Manasight是个游戏辅助工具,技术栈混搭得相当典型:Tauri框架、Rust后端、TypeScript前端,再加一个Astro写的官网。传统认知里,这种项目至少需要前端、后端、QA、运维各一人。他用Claude Code全包了。
真正让人意外的不是写代码速度。Liu原本期待的是AI帮他更快敲键盘,实际收获的却是测试和调试流程的重构。
从"写完再测"到"边玩边测"
单人开发者的测试困境很具体:写代码和测代码是两种思维模式,每次切换都要重新加载上下文。游戏辅助工具更麻烦——你没法一边打游戏一边盯Overlay有没有错位。
Liu的解法是把Claude Code的两个功能串起来用。
Slash commands(斜杠命令)是可复用的提示脚本。他写了一系列Markdown文件,定义好工作流:读哪些文件、调什么工具、输出格式长什么样。运行时敲/command-name就行。他做了/debug-game、/triage-feedback、/code-review、/issue-to-pr四个命令,覆盖从调试到发版的全流程。
Agents(后台代理)则是真正改变游戏规则的设计。父对话可以派生独立Claude实例去执行任务,比如"追踪这段代码的执行路径,汇报你发现了什么"。代理干完活自动回报,你不用等。
这两个功能组合的效果,相当于给单人开发者配了一支随时待命的QA团队。
/debug-game的具体用法很直观:启动游戏,打开Overlay,正常打牌。发现卡牌没显示、面板位置不对、有卡顿,直接描述问题或者说"看最新截图"。Claude已经知道截图文件夹在哪,不需要你复制路径。
关键约束:QA会话期间不写代码。Claude会派生多个后台代理并行排查——一个追踪从游戏事件到Overlay的完整代码路径,一个查Manasight的应用日志,一个读《万智牌》客户端的Player.log看原始数据。代理各自独立干活,父对话保持响应,你继续打牌、继续报问题。
一场QA下来,得到一张跟踪表。每条记录带类型标签(Bug/性能问题/UI问题)、严重程度、根因分析、修复建议。Liu说,这相当于把传统QA团队的工作流压缩进一个斜杠命令。
2400个测试的维护成本去哪了
Manasight有2400多个测试,覆盖4个操作系统。手动维护这个规模的测试套件,单人开发者基本不可能持续迭代。
Liu的做法是测试即代码(test-as-code)。不是让AI生成测试然后不管了,而是把测试逻辑本身也纳入版本控制,用斜杠命令管理。
/platform-validate是个典型例子。它负责跑41个测试用例的跨平台验证协议。命令会检查当前分支状态,确认测试环境,按优先级队列执行测试,收集结果,生成报告。整个过程不需要人盯着,你可以去干别的。
测试失败时的处理更关键。Liu设计了/debug-test命令,Claude会自动读取失败日志、定位到具体代码、分析失败模式,然后给出修复方案或标记需要人工介入。他把这比作"给测试套件配了个专职调试工程师"。
测试维护从"负担"变成了"可自动化管理的资产"。
用户反馈的处理也被重构了。Manasight收到的问题报告格式混乱,有Discord留言、GitHub Issue、邮件截图。/triage-feedback命令会统一解析这些输入,提取关键信息(复现步骤、环境、错误日志),分类优先级,生成标准化的内部工单,甚至直接转成带初步分析的GitHub Issue。
Liu统计过,这个流程把反馈处理时间从平均45分钟压到5分钟以内。
AI辅助开发的隐藏成本
这套工作流不是零成本的。Liu在博客里坦诚列了几条。
提示工程需要持续投入。斜杠命令不是写好就一劳永逸,项目演进时要跟着调整。他建议把命令文件也当代码维护,版本控制、定期重构、积累最佳实践。
代理任务的调试比同步交互更复杂。后台代理偶尔"迷路"——任务描述不够清晰时,会花很长时间做无关探索。Liu的应对是给代理更明确的边界条件,比如"最多追溯3层调用栈"或"5分钟内必须返回"。
最隐蔽的成本是信任校准。AI给出的分析看起来总是很自信,但错误率不为零。Liu养成了习惯:关键结论必须能追溯到具体代码行或日志片段,不能只看摘要。
他把这个过程比作"带实习生"——初期需要手把手教,教对了就能独立干活,但永远要抽查关键产出。
还有一个发现:AI在测试领域的表现比在编码领域更稳定。Liu推测是因为测试任务的目标更明确("找出这个Bug" vs "设计这个模块"),反馈循环更短(跑测试就有结果),错误更容易定位。
单人团队的边界在哪
Liu的实验指向一个被低估的趋势:AI工具正在重新定义"单人开发者"能触及的复杂度上限。
传统意义上,7万行代码、跨平台、2400测试的项目,至少需要一个小团队。现在一个人可以hold住,不是因为写代码更快,而是因为测试、调试、反馈处理这些原本耗人的环节被大幅压缩。
他提到一个细节:以前发版前要专门留出一两天做回归测试,现在/platform-validate跑完就能发。时间成本从"天"降到"小时",心理成本降得更多——不需要再担心"是不是漏测了什么"。
但这种模式有前提条件。项目架构得支持模块化排查,日志系统得足够完善,CI/CD管道得提前搭好。AI是放大器,不是从零开始的替代方案。
Liu的博客结尾放了一张截图:他在打《万智牌》,终端里三个代理任务同时运行,父对话显示"已收集12条待确认问题"。
热门跟贴