我用Gemma 4造了个视觉修Bug机器人：看图就能改代码|git|上下文|代码|机器人|源码|视觉

前端调试有个老毛病：眼睛看到了问题，手却不知道往哪改。布局溢出、响应式断裂、z-index覆盖——这些视觉bug在浏览器里一目了然，但你要手动翻遍CSS选择器、DOM节点、JS组件才能定位根源。更糟的是，传统AI编程助手是"瞎子"：它们读得懂源码，却读不懂一张报错截图。

我基于Google新发布的Gemma 4模型，搭了一套闭环视觉修复Agent。它能同时"看"截图和"读"代码，自动定位缺陷根因，生成标准git diff补丁，还能在浏览器里实时验证修复效果。Demo已上线：https://multimodal-visual-regression-patch-agent.vercel.app，视频演示见YouTube。

核心流程分四步：拖拽上传bug截图和源码文件 → 模型分析视觉缺陷与代码关联 → 生成统一格式的git补丁 → 语法校验+应用性检查 → 交互式前后对比滑块+像素级热力图验证。整个闭环不依赖人工介入。

选Gemma 4有三个硬理由。第一，原生多模态架构：传统方案要把截图喂给独立的视觉编码器，再转文本描述给大模型，空间精度损耗大；Gemma 4在单一空间内同时处理文本token和像素token。第二，上下文窗口够长：塞入原始代码模块、样式表、base64编码的密集图像映射，token消耗极高，Gemma 4能轻松吞下。第三，输出结构化：它直接生成标准unified git diff格式（--- a/ 和 +++ b/），可程序化校验。

模型选型上，Gemma 4 31B Dense是推荐配置，平衡了输出质量、复杂推理和长上下文需求。4B适合快速原型，27B MoE在特定任务有优势，但31B Dense在Agent场景下表现最稳。部署可选OpenRouter、Hugging Face免费API，或完全本地化。

技术实现上，我重点解决了三个坑。一是客户端视觉diff引擎：用Canvas像素级对比，生成热力图高亮差异区域，避免服务端泄露敏感截图。二是补丁验证层：语法检查用tree-sitter，应用性检查模拟git apply --check，双重拦截无效补丁。三是可复现基准：设计了10组覆盖flexbox、grid、z-index、响应式断点的测试用例，目前成功率100%——当然，这个数据集还很小，是刻意筛选过的理想场景。

这套方案的真正价值不在替代程序员，而在压缩"看到bug→定位代码→验证修复"的循环时间。视觉-代码的断层被多模态能力填平了，闭环验证让AI生成的补丁不再是一纸黑箱。Gemma 4的开源可本地部署特性，也意味着企业敏感代码不用出内网。