Claude的推理能力能打9分,但画图功能至今是0分。
这是Anthropic官方文档里都没写的缺口,却被一个开发者用MCP(模型上下文协议)补上了。他没等官方更新,直接把Google的Gemini塞进了Claude的后台。现在Claude能自己调用Gemini生成图片,还能继续用原来的脑子做规划。
为什么非要"嫁接"而不是等官方?
Claude 3.5 Sonnet发布时,Anthropic反复强调它的代码能力和长文本理解。但用户问"能生成图片吗",得到的永远是那句"Claude目前不支持图像生成"。
这个缺口存在了3年。从2022年Claude 1.0上线,到2025年4月的今天,官方路线图里始终没有多模态输出的时间表。
开发者Ismail9k的选择很产品经理思维:不解决"为什么不做",只解决"怎么做到"。他在博客写道:「I can fix her. Not by waiting for an official feature drop, but by wiring Claude into something that already does it well.」
这个方案的核心是责任拆分——Claude负责推理和 orchestration(编排),Gemini负责画图,MCP负责传话。
类比一下:Claude是项目经理,Gemini是外包设计师,MCP是钉钉群。项目经理在群里发需求,设计师返图,项目经理再拿着图继续往下推进。三方各干各的强项,不互相抢活。
具体怎么搭?三步走但有坑
第一步拿Gemini的API key。去Google AI Studio申请,注意必须开通billing(计费),免费额度调不通图像生成接口。这是新手卡壳最多的地方——key拿到了,请求返回403,回头发现没绑信用卡。
第二步改Claude Desktop的配置文件。路径是Settings → Developer → Edit Config,打开claude_desktop_config.json,插入一段MCP server的配置:
"args": ["@houtini/gemini-mcp"], "GEMINI_API_KEY": "你的key"
第三步是排错。Ismail9k自己踩过的坑:Node.js版本低于18会报错,API key没绑billing会报错,MCP server和Claude版本不匹配也会报错。他的解法是把日志丢给Claude Code,让Claude自己修自己的配置——"as expected it fixed everything in minutes"。
这套方案目前有个小门槛:Claude不会主动调用工具,你得明确说"用Gemini MCP生成一张图"。指令模糊的时候,它会继续用文字描述,而不是动手调接口。
MCP是什么?为什么它能"缝合"不同模型?
MCP全称Model Context Protocol,Anthropic在2024年底开源的标准。设计目标很简单:让AI应用能统一调用外部工具和数据源,不用每家都写一套适配代码。
以前想让Claude查数据库、调API、读本地文件,得写一堆胶水代码。MCP把这套接口标准化了,工具提供方按协议封装,Claude按协议调用。Gemini MCP server就是Google Gemini的MCP封装,Claude Desktop 0.5版本以上原生支持。
这个协议现在已经有200+社区实现,从Slack、Notion到PostgreSQL、GitHub,都能接进Claude。Ismail9k的图像生成方案,其实是MCP能力的自然延伸——既然能接数据库,当然也能接另一个模型。
关键洞察:多模型协作正在变成默认架构。
单个模型的能力边界越来越清晰。Claude强在推理和指令遵循,Gemini强在多模态和Google生态,GPT-4强在工具生态和代码生成。用MCP把它们串起来,比等一个"全能模型"更现实。
Ismail9k的博客评论区有个细节:有人问他"为什么不直接用Gemini",他回了一句「Claude的system prompt控制力和上下文管理,目前还是独一档」。这不是品牌忠诚,是工程权衡——用对的工具做对的事,然后用协议把它们粘在一起。
这套方案能撑多久?
风险很明显:Anthropic随时可能官方上线图像生成,这套MCP方案就变成过渡补丁。但Ismail9k的视角是过渡补丁也有价值——"a limitation turned into a capability",在官方补齐之前,用户不需要干等。
更深一层,MCP协议本身可能比任何单点功能都活得久。它解决的是AI时代的"系统整合"问题,类似HTTP之于互联网、USB之于硬件。今天接Gemini画图,明天接Midjourney、接Stable Diffusion、接自家训练的LoRA,接口不变,换配置就行。
GitHub上这个Gemini MCP项目的star数在48小时内从200涨到1400。不是因为它代码多优雅,是因为它戳中了一个集体痛点:我们都想用Claude的脑子,但不想接受它的残疾。
现在的问题是——当官方终于补上图像生成,这些"民间补丁"会迅速被遗忘,还是进化成更复杂的编排层?你的Claude Desktop装了几个MCP server?
热门跟贴