7万行代码,2400多个测试用例,横跨4个代码仓库,只有1个开发者。这不是什么大厂的配置,是一个独立开发者用Claude Code搞出来的MTG Arena游戏辅助工具Manasight。更魔幻的是,他边打万智牌边做QA——AI在后台自己跑测试、自己提bug报告。
作者叫Nicholas,产品经理出身,现在全职搞这个桌面覆盖层工具。他在技术博客里写了一句让我愣住的话:「我玩万智牌竞技场的时候,后台代理在提交bug报告。」(I play Magic the Gathering Arena while background agents file bug reports.)
这句话的离谱程度,相当于说「我睡觉的时候我的人在加班」。但这不是比喻,是字面意思。
Claude Code的两种武器:可执行手册和后台分身
先搞清楚他在用什么。Claude Code是Anthropic出的终端AI编程助手,你给代码库权限,它能读文件、写代码、跑命令、用工具,全程对话式交互。
Nicholas用到两个核心功能。
第一个是斜杠命令(slash commands)。你可以理解成「可执行的标准作业程序」——用markdown写一份工作流:读哪些文件、用什么工具、遵守什么规则、输出什么格式。存成/debug-game这种名字,需要的时候敲一下就能跑。他手头有专门做调试、分拣用户反馈、代码审查、把GitHub issue转成PR的命令脚本。
第二个是代理(agents)。这是Claude实例的后台分身。父对话派它们出去干活,比如「追踪这段代码路径,汇报你发现了什么」,然后它们做完自己回来报告。你不用等,继续干你的。
这两个功能的组合,把「一个人+AI」变成了「一个人+一支小队」。
单人开发的QA死局:要么跳测,要么停更
传统单人开发的测试体验是什么德行?写代码→切到测试模式→找bug→切回去修→再测。每次切上下文都是时间和注意力的损耗。
游戏覆盖层工具把这个痛苦放大了十倍。你不可能一边打自己的游戏一边调试覆盖层——两只手在打牌,眼睛在看牌桌,哪来的第三只手看日志?你也不可能自己跑完41个测试用例的跨平台验证协议,覆盖四个操作系统。你更不可能一边写新功能一边分拣用户反馈。
单人开发者面对这个局面, historically 只有两个选择:跳过QA,或者停止发布。Nicholas选了第三条路。
他写了一个叫/debug-game的斜杠命令,专门用于实时QA会话。流程是这样的:启动MTG Arena,启动Manasight,开一局。发现问题了——卡牌没进追踪器、卡顿了、面板位置歪了——就在对话里描述,或者说「看最新的截图」。Claude知道他截图文件夹在哪,不需要手动传文件、复制路径。
关键规则:QA会话期间不写代码。Claude会启动后台代理去调查:一个追踪从游戏事件到解析器再到覆盖层的代码路径,一个检查Manasight应用日志找错误,一个去读Arena的Player.log看游戏客户端实际报了什么。三个代理并行工作,父对话保持响应。Nicholas继续打牌,继续发现问题,继续汇报。
会话结束,他拿到一张追踪表。每个发现都有类型(bug、性能问题、UI问题)、严重程度、复现步骤、相关代码引用、建议修复方案。整个过程他没有写过一行调试代码,没有切过一次上下文。
从「我测」到「它们测」:测试范式的转移
Nicholas原本预期AI辅助开发能让他写代码更快。确实快了。但他没料到的是测试和调试的方式被彻底改写。
他举了个具体例子。用户反馈说「追踪器在对手回合没更新」。以前的路径:自己复现→翻日志→猜代码哪有问题→改→再测。现在的路径:把反馈扔给Claude,代理自动读相关代码、跑测试、定位到是一个竞态条件——游戏事件和UI更新之间的时序问题。修复建议一起给出来。
更夸张的是回归测试。2400多个测试用例,以前跑一遍要盯着看,现在写成斜杠命令,Claude自动跑、自动读失败输出、自动分类失败原因(代码变更导致/测试本身脆弱/环境波动)。Nicholas只需要看最后的汇总报告。
他形容这种感觉像「从手动挡换成自动驾驶」——你不是不开车了,是车自己会看路、会换挡、会避障,你负责指方向。
一个人怎么变成四个人
Nicholas在博客里算过一笔账。传统团队做这个项目需要什么人:一个Rust后端工程师、一个TypeScript前端工程师、一个QA工程师、一个运维/工具工程师。四个人。
现在他一个人干。不是因为他更拼命,是因为Claude Code承担了其他三个角色的执行层工作。他仍然是产品经理、架构师、最终决策者,但编码、测试、调试、工具链维护这些高时间成本的任务,被AI代理分摊了。
这个模式有个前提:代码库结构必须对AI友好。Nicholas花了大量时间设计清晰的模块边界、写详细的注释、维护一致的命名规范。他说这是「给未来的AI同事写入职手册」。代码不是写给人看的,是写给AI和人一起看的。
他也承认边界。Claude Code不擅长创造性架构设计,不擅长判断「这个功能用户真的需要吗」,不擅长处理模糊的伦理或商业权衡。这些仍然是人的领地。
但在这个领地之外,AI代理的性价比已经高到离谱。7万行代码、4个仓库、跨平台桌面应用——这个工作量放在五年前,没有小团队敢碰。
现在一个人,边打牌,边 ship。
Nicholas在博客结尾问了一个问题:「当测试不再是瓶颈,开发的节奏会变成什么样?」他没有给答案。但Manasight的GitHub仓库还在更新,最新release是三天前。
热门跟贴