打开网易新闻 查看精彩图片

Claude Code用户平均每天切换30次窗口去生成图片。这个数字来自一位开发者的真实计数——他在终端里写代码,需要配图时得打开Google AI Studio,重写一遍prompt,再手动把图拖回项目目录。

他最后写了个工具解决这个问题。发布4天后,npm下载量破1000。

30次上下文切换,换来一个MCP服务器

30次上下文切换,换来一个MCP服务器

这位开发者叫Shawn,他的日常workflow几乎完全在Claude Code里完成:写代码、review、部署。唯独图像生成这件事,像一根刺扎在流程里。

「每次都要把上下文丢掉,去另一个平台重新解释我要什么。」他在项目文档里写道。 Claude Code原本理解整个项目的架构、变量名、设计意图,但这些信息在切换平台时全部清零。

他造的解药叫mcp-imagenate。MCP(Model Context Protocol,模型上下文协议)是Anthropic去年推出的开放标准,让AI助手能调用外部工具。 Shawn把它做成了图像生成的统一接口——Gemini、OpenAI、FLUX三家模型,全塞进Claude的对话窗口。

安装方式极简:配好API密钥,往Claude Desktop或Claude Code的配置文件里加几行JSON。没有UI,没有新窗口,没有学习成本。

三种真实用法:从架构图到道歉猫

三种真实用法:从架构图到道歉猫

Shawn公开了自己的三个日常场景,没有演示视频,只有文字描述和代码路径。

第一种是系统架构图。 他在Claude Code里设计完一套系统,直接说「给这个系统生成架构图」。Claude自己拼凑prompt,调用Gemini的nano-banana-2模型,把图存进项目目录。全程不用离开终端,项目上下文完整保留。

第二种是日记配图。 他用Claude+Notion MCP写每日笔记,现在加上mcp-imagenate后,Claude会自动给每条日记生成插图。配合Claude Code的Skills功能,他能在同一段对话里反复迭代prompt——「把色调调冷一点」「换成水彩风格」——真正的prompt engineering发生在聊天窗口里。

第三种是前端开发时的即时素材。 写到一个错误页面,他说「生成一只道歉的可爱猫咪插图」。Claude生成图片、存到正确目录、在代码里引用好。没有浏览器标签页,没有拖拽操作,没有「等等我找个图」。

打开网易新闻 查看精彩图片

这三种用法有个共同特征:图像生成被折叠进已有的工作流,而不是创建一个新流程。

模型解耦:聊天用Claude,画图用Gemini

模型解耦:聊天用Claude,画图用Gemini

mcp-imagenate的一个设计细节值得注意:它把「对话模型」和「图像模型」彻底分开。

你可以一边用Claude聊天,一边让Gemini画图。或者FLUX。或者OpenAI的DALL-E。选最强的文本模型做思考,选最适合的图像模型做输出——不再需要为了画图能力而牺牲对话质量。

配置层面支持分辨率、宽高比、输出目录的自定义。Google的模型还支持带参考图的编辑功能,比如「把这张图里的汽车换成红色」。

但有个限制被明确标注:由于Claude Desktop应用的限制,生成的图片不能内嵌显示在对话里。Claude会输出文件路径,用户需要手动打开查看。Shawn在README里写了这个 caveat,没有回避。

alpha版本,个人项目,风险自负

alpha版本,个人项目,风险自负

项目文档开头就有加粗声明:This is an alpha release, built as a personal project. Use at your own risk.

没有公司背书,没有SLA承诺,没有客服渠道。1000次下载发生在4天内,靠的是开发者之间的口口相传——同样被上下文切换折磨过的人,看到解决方案自然会试。

Shawn没有预测这个项目的未来走向。他在文档结尾只写了一句话:These are just my workflows — I'm sure there are plenty more possibilities with MCP.

那些可能性会是什么?给代码review自动生成流程图?根据commit message生成版本封面?还是把Figma设计稿直接转成可运行的前端组件?工具已经摆在那里,用法还没有被穷尽。

你现在的工作流里,有没有那个每天重复30次的上下文切换?