出品 | 网易智能

作者 | 小小

编辑 | 王凤枝

2月26日深夜,谷歌正式发布Nano Banana 2,核心优势就是便宜。

它兼顾了出图速度与专业画质,在维持生成质量不掉线的前提下,将单张成本直接砍半。

打开网易新闻 查看精彩图片

根据AI模型评测平台Arena.ai的榜单显示,Nano Banana 2以1279分的文本转图像得分,超越了GPT-Image-1.5和自家老大哥Nano Banana Pro;单图编辑拿下1407分,与ChatGPT-Image-Latest持平。每张图的生成成本约为0.067美元(约合人民币0.46元),比Nano Banana Pro便宜一半。

打开网易新闻 查看精彩图片

资深用户在抢先体验后表示,虽然模型还不完美,但它是第一个能相对稳定处理复杂图表和指令跟随的产品。

网友普遍认为,Nano Banana 2并非那种让人惊呼颠覆的创新,它在做的是让AI生图从偶尔玩票的创意玩具,彻底变成每天能跑几千张的生产工具。

01 Nano Banana 2到底是什么?

Nano Banana 2的正式名称是Gemini 3.1 Flash Image。它并非Nano Banana Pro的续作,而是初代Nano Banana(Gemini 2.5 Flash Image)的深度升级版,直接换上了Gemini 3 Flash的核心引擎。

谷歌的思路是把Pro级别的核心能力,比如世界知识、文本渲染、主体一致性等,全部整合进Flash产品线。速度保持Flash级别,能力向Pro看齐。

对企业用户来说,这意味着以前需要为高质量图像生成支付Pro级价格,每张1K分辨率(百万像素级)图像成本约0.134美元。现在同样的质量需求,完全可以用Flash级价格满足,成本降到0.067美元。对于每天生成数千张图像的应用场景,这个差距直接决定项目能否从概念验证走向规模化部署。

打开网易新闻 查看精彩图片

宾夕法尼亚大学沃顿商学院教授、生成式AI实验室联合主任伊桑·莫利克(Ethan Mollick)提前体验后表示,这款模型还不完美,但已经是第一个能相对稳定处理复杂图像和图表的模型,文本准确性和复杂指令的跟随能力提升明显。

打开网易新闻 查看精彩图片

Nano Banana 2最核心的升级是“世界知识”能力的落地。

传统AI图像生成依赖训练数据中的记忆。让它画世界贸易中心一号楼,轮廓或许可以画对,但要画出塔身上某个特定时期的细节或者某个品牌的Logo,它就无能为力了,因为这些细节并不存在于训练数据中。

Nano Banana 2的解决方案是:在生成图像的同时可以实时调用网络搜索。它先搜索相关信息,理解目标对象长什么样,然后再进行生成。

打开网易新闻 查看精彩图片

这意味着,让它画“2026年超级碗中场秀舞台”,它会去搜索当时的现场照片并基于真实信息生成。让它为某个品牌设计海报,它能准确还原Logo细节,因为它真的去“看”了。

谷歌CEO桑达尔·皮查伊(Sundar Pichai)在发布时演示了一个“靠窗座位”功能:模型获取当地实时天气信息,从世界任何一扇窗户生成窗外的精准画面,支持2K/4K分辨率。窗外的阴晴雨雪,都能在画面中得到真实的体现。

打开网易新闻 查看精彩图片

这个能力在信息图场景下尤其有用。硅谷风险投资公司Andreessen Horowitz的合伙人贾斯汀·摩尔(Justine Moore)在测试中发现,Nano Banana 2可以用搜索快速生成篇幅较长、内容扎实的信息图。她试了“解释麦当劳冰淇淋机工作原理以及为什么总坏”的提示,生成结果图文匹配,逻辑通顺。

打开网易新闻 查看精彩图片

02文本渲染:终于能看清图里的字了

AI生图领域有个老问题:让模型在图像里生成能看的文字,比画个人难得多。以前很多图远看还行,放大一看招牌上的字母全是乱码,菜单上的文字像外星符号。这导致商业场景根本无法直接使用。

Nano Banana 2在这个问题上做了针对性优化。

摩尔用杂志封面做了测试。生成的封面里,每一行文字都准确清晰,没有乱码且没有字体扭曲。对比Nano Banana Pro,后者虽然也能生成文字但偶尔会出错,而且画面总带点3D渲染的塑料感。摩尔评价称,Nano Banana 2的结果更像真实照片,而非渲染图。

打开网易新闻 查看精彩图片

莫利克也提到,复杂的图表标注以前是AI的难点,现在Nano Banana 2能正确显示详细标签,虽然偶尔还会出问题,但已经是明显的进步。

翻译功能也被整合进来了。一张英文海报可以要求它直接转成日文、法文或印地语,文本在图像内直接替换,构图保持不变。对于跨国营销团队而言,这个功能可以节省大量重复设计的时间。

另一个让创作者高度关注的升级是主体一致性。

根据谷歌提供的信息,Nano Banana 2可以在单个工作流中,维持最多5个角色的长相一致,同时保持14个物体的视觉特征不变。

摩尔用一个8格漫画做了测试,主题是“Sam Altman在OpenAI被解雇又复职的过程”。以前的模型画到第三四格人物就开始变形,服装乱飘且场景失控。Nano Banana 2跑完8格,人物从头到尾都保持着同一张脸。

打开网易新闻 查看精彩图片

她还测试了产品摄影场景。上传一张橄榄油瓶的照片,要求生成“一位女士在厨房拿着这瓶油”的画面。生成的图像里,瓶子的标签、颜色和形状都与参考图高度一致。输出结果看起来就像是精心拍摄的照片,AI生成的感觉极淡。

打开网易新闻 查看精彩图片

对于广告公司和内容工作室来说,这个能力意味着可以用更短的时间完成故事板、产品陈列、品牌资产积累等需要极强视觉连续性的工作。

03创意风格:动作片、黏土风都能玩

除了硬核的生产力功能,Nano Banana 2在创意风格上也有一些新尝试。

体育摄影一直是AI的重灾区。运动员发力时的肌肉状态以及运动中的物理规律,稍微差一点画面就会显得极假。摩尔测试了动作照片生成,结果远超预期。有些图甚至可以直接拿去做广告,只需加点文案效果就能被市场接受。

打开网易新闻 查看精彩图片

Gemini应用里还预置了一批风格模板,点一下就能直接套用。她试了“哥特式黏土”和“珐琅徽章”两个选项,上传普通照片后,一键转换出来的效果堪比艺术品。

她还测试了用户生成内容场景。让模型生成TikTok创作者的屏幕截图,完美复刻了那种拿着产品在厨房或浴室自拍的风格。只需提供一张产品照片配上简短提示,生成的截图就能以假乱真。

04亲测体验:速度、质量、成本的平衡

综合多位早期体验者的反馈,Nano Banana 2在产品定位上确实踩中了一个关键点。

速度方面,测试者普遍反馈生成时间被明显缩短。有测试者让Nano Banana 2生成一个完整的比特币历史时间线,包括搜索研究和最终图像输出,整个过程所用的时间与Nano Banana Pro单独生成图像的时间差不多。紧接着再加一个以太坊时间线的任务,几乎没有增加任何额外时间。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

质量方面,文本处理和主体一致性是最受好评的两大核心能力。杂志封面、复杂图表、多格漫画,这些以前极易翻车的场景,现在的成功率得到了显著提高。

成本方面,每张0.067美元的价格比Pro级便宜了一半,这让更多边缘应用场景具备了商业化的可能。

当然问题依然存在。有测试者尝试让Nano Banana 2编辑真实照片把服装换成内衣,模型经过长时间推理后直接拒绝了请求,而换成泳装则可以正常生成。审查机制的存在和边界限制,是需要企业用户提前了解的合规要点。

打开网易新闻 查看精彩图片

05竞争对手:阿里和字节也在出牌

Nano Banana 2发布的时间点,正好撞上了两个强大竞争对手的动作。

2月10日,阿里Qwen团队发布Qwen-Image-2.0,70亿参数量比上一代的200亿参数轻了三分之二,但能力并未缩水。它原生支持2K分辨率,采用统一架构同时处理生成和编辑任务,在AI Arena的盲测排行榜上生成和编辑双双排进前三。

打开网易新闻 查看精彩图片

更关键的是它具备开源的预期。Qwen-Image v1当初就是在发布一个月后开源的,开发者圈子里已经有大量声音在期待v2.0走同样的路。如果开源成真,企业就可以在自己的服务器上运行一个能力接近Nano Banana Pro的模型,每张图的API调用费用将彻底省下。

同一周,字节跳动的Seedream 5也悄然亮相。

打开网易新闻 查看精彩图片

这款产品在创作者社区里的口碑一直极佳。原因有三:灵活、便宜(API每张0.035美元,约谷歌三分之一的价格)、内容审核相对宽松。那些想用真人照片做视觉创作的开发者,被谷歌的安全机制拒绝后,往往会果断转向Seedream。

Seedream 5同样把实时搜索整合进了生成流程,不仅推理能力升级、参考一致性加强,还支持在单轮编辑里使用14张参考图,实现2K/4K分辨率秒出。它甚至支持本地运行,这在谷歌封闭的生态里是绝对不被允许的。

06企业怎么选:三条路径各有利弊

对于正在搭建AI图像生成能力的企业来说,当下有三条路径可以仔细评估。

第一条,继续走谷歌路线。如果团队已经深度绑定了谷歌云,Nano Banana 2绝对是顺理成章的选择。价格比Pro级砍半,且产品线全面铺开,包括Gemini应用、Google搜索的AI模式和镜头、AI Studio、Vertex AI、Google Cloud以及Flow等,无需修改架构就能直接用上生产级能力。强大的文本渲染能力对于营销素材和本地化场景来说更是刚需。

第二条,赌一把开源路线。如果公司具有严格的数据主权顾虑,或者每天生成的图像量过大导致按张计费成本无法承受,再或者就是单纯想要摆脱API依赖,那么Qwen-Image-2.0值得高度关注。参数少意味着自托管的GPU成本极低,统一架构能省掉模型串接的繁琐,且输出质量并不掉队。唯一的风险在于阿里是否会按时放出权重。

第三条,保留Pro级通道。Nano Banana Pro并没有退场,Google AI Pro和Ultra订阅者依然可以在Gemini应用里通过“重新生成”菜单调用它。对于极高端的创意项目,或者每张图都需要精细定制调性的场景,Pro级模型依然是不可替代的天花板。

最后一个容易被忽略的致命因素是水印和出处。

Nano Banana 2出厂就强制打上了SynthID水印,同时完美兼容C2PA内容凭证标准。自去年11月在Gemini应用上线以来,SynthID验证功能已经被高频使用了2000多万次。对于金融、医疗等受严格监管行业的企业来说,这个功能绝不是可有可无的加分项,而是业务生存的合规必选项。如果企业自己部署的开源模型在水印和凭证这一关过不去,业务流转同样会陷入彻底的停滞。

结语:中间地带的战争

综合来看,Nano Banana 2不是那种让人惊呼颠覆的产品。它做的是更致命的事:融合Flash的速度与Pro的能力,成本砍半且质量不掉线,彻底夯实了其作为高频生产工具的地位。

Arena.ai的榜单把它推到了第一。莫利克验证了它对复杂图表的掌控力,摩尔则在全场景实测后给出了“重大升级”的定语。但另一边,Qwen-Image-2.0在开源侧翼严阵以待,Seedream 5在灵活性和价格上持续死磕。

这场竞争的结果,可能不是谁家模型画得最漂亮,而是谁家模型画得够快、够便宜、够稳,能让企业放心把它塞进生产流程。Nano Banana 2占据的,正是大多数企业真正需要的中间地带:不需要天花板级的画质,但要足够好的效果、足够快的速度和足够低的成本。