智东西7月1日消息,今天,谷歌宣布开放两款新模型:图像生成模型Nano Banana 2 Lite和视频生成编辑模型Gemini Omni Flash。
▲谷歌推出Nano Banana 2 Lite和Gemini Omni Flash(图源:X)
今年2月,谷歌推出Nano Banana 2,在保持较低延迟的同时提升图像生成质量,支持更强的推理能力和搜索能力。今年5月,谷歌在I/O大会上首次展示Gemini Omni Flash,定位为原生多模态的视频生成编辑模型,但当时并未向开发者开放。
此次更新的模型Nano Banana 2 Lite是初代Nano Banana的推荐替代模型,主打近实时、较高质量图像生成,单张1K分辨率图像生成延迟约4秒、价格0.034美元(约合人民币0.23元)起;Gemini Omni Flash则首次面向开发者公开预览,支持文本、图像和视频输入,可用自然语言进行多轮视频编辑,目前支持10秒视频生成,视频输出价格为每秒0.10美元(约合人民币0.68元)。
评测结果显示,Nano Banana 2 Lite在图像生成和图像编辑Elo分数上略低于Nano Banana 2,但速度更快,成本更低;Gemini Omni Flash在视频编辑模型对比中,整体偏好和指令遵循两项Elo评分均位列第一,领先HappyHorse、Kling v3 Pro、Seedance 2.0等模型。
两款模型现已登陆Google AI Studio、Gemini API和Gemini Enterprise Agent Platform,其中Gemini Omni Flash还可在Gemini app和Google Flow中使用。
此次更新后,用户可以先用Nano Banana 2 Lite快速生成图像,再通过Gemini Omni Flash将静态图像转化为可继续编辑的视频内容。谷歌还推出了Anywhere、Space Lift、Omni Product Studio等演示应用,展示从自拍换地标、室内设计预览到电商视频生成等图像到视频工作流。
一、Nano Banana 2 Lite替代初代模型,速度快性价比高
谷歌称,Nano Banana 2 Lite(gemini-3.1-flash-lite-image)是当前使用初代Nano Banana(gemini-2.5-flash-image)的推荐替代模型,在图像质量、生成速度和成本等维度都有明显提升。
虽然该模型优先强调速度,谷歌仍称其保留了较稳定的提示词遵循能力、角色一致性和图中文字渲染能力。谷歌列出了Nano Banana 2、Nano Banana 2 Lite与多款竞品AI图像模型的性能对比,评估维度包括图像生成和图像编辑的Elo分数、单张1K分辨率图像的生成延迟,以及对应价格。
▲Nano Banana 2 Lite与其他图像生成模型评测对比(图源:谷歌)
Nano Banana 2 Lite图像生成Elo分数为1251,略低于Nano Banana 2的1270,高于Flux 2 Klein 9B、Grok Imagine Image和Seedream v5 Lite等对照模型;在图像编辑上,Nano Banana 2 Lite得分为1308,在对照模型中位列中等水平。
速度和成本是Nano Banana 2 Lite最突出的优势。生成一张1K分辨率图像的延迟约为4.0秒,明显快于Nano Banana、Nano Banana 2和Seedream v5 Lite等模型。价格方面,Nano Banana 2 Lite每张1K图像约0.034美元(约合人民币0.23元)起,成本低于谷歌其他图像模型,价格与Seedream v5 Lite的0.035美元(约合人民币0.24元)接近,高于Flux 2 Klein 9B、Grok Imagine Image。
为了便于消费者理解Nano Banana产品线,谷歌也列出表格在延迟、成本、视觉质量、推理能力四大方面对其模型进行对比。
▲Nano Banana系列三款模型对比(图源:谷歌)
(1)Nano Banana 2 Lite(Gemini 3.1 Flash Lite Image)生成速度快,主打近实时、高流量工作流;
(2)Nano Banana 2(Gemini 3.1 Flash Image)为通用型模型,在性能与成本之间取得平衡,以较低延迟维持较高的生成质量;
(3)Nano Banana Pro(Gemini 3 Pro Image)则面向复杂专业场景,强调控制能力和高级推理;
(4)Nano Banana(Gemini 2.5 Flash Image)则被归为旧款模型,建议开发者升级到Nano Banana 2 Lite,追求更高的质量、更低延迟和更低的成本。
除开发者平台外,Nano Banana 2 Lite也会进入谷歌消费端产品,包括搜索中的AI Mode、Gemini应用、NotebookLM、Google Photos、Stitch、Google Flow和Google Ads。
X上部分网友测试了这一模型,称Nano Banana 2 Lite生成质量与Nano Banana 2接近,但速度明显更快。
▲海外网友测试Nano Banana 2 Lite(图源:X)
二、Gemini Omni Flash开放公测,支持10秒视频生成,每秒0.10美元
前段时间,视频生成编辑模型Gemini Omni Flash曾在谷歌I/O大会上亮相,但尚未开放;此次谷歌正式开启公开预览,用户现在可以通过Gemini API和Google AI Studio使用该模型。
▲Gemini Omni Flash根据原视频生成魔术特效(图源:谷歌)
该模型把Gemini的多模态推理能力与视频生成、编辑能力结合起来,支持从文本、图像和视频输入中生成或编辑视频,并可通过自然语言进行多轮修改。每秒视频输出为0.10美元(约合人民币0.68元),与Veo 3.1 Fast相同。
Gemini Omni Flash核心能力包括对话式视频编辑、多模态参考输入、调用Gemini知识构建视频内容,以及通过提示词让文字、图形和视频动作实现同步。
谷歌列出了Gemini Omni Flash与多款竞品视频编辑模型的Elo评分对比。无论是整体表现还是指令遵循,Gemini Omni Flash都具备较高领先优势。
▲Gemini Omni Flash与其他视频模型评测对比(图源:谷歌)
从整体偏好看,Gemini Omni Flash得分为1087,位列第一,高于HappyHorse的1044、Kling v3 Pro的1020、Seedance 2.0的946和Wan 2.7的902。在指令遵循能力上,Gemini Omni Flash同样排名第一,得分为1082,领先HappyHorse的1036、Kling v3 Pro的1022、Seedance 2.0的960和Wan 2.7的900。
不过,该模型目前仍有限制。谷歌称,Omni Flash当前支持10秒视频生成,后续会推出更长时长;Gemini API暂不支持上传音频参考和场景扩展;API schema虽可接受最长3秒的视频参考,但模型现阶段还不能正确处理;在切换场景或平移动作时,角色一致性仍有局限。
三、两款模型可串联使用,先快速出图再生成视频
谷歌此次同步更新了图像与视频生成能力,因而用户可以先用Nano Banana 2 Lite快速出图,再通过Gemini Omni Flash将静态图像转化为可继续编辑的视频内容。用户可通过Interactions API保留会话历史和上下文,最多可叠加三次连续编辑。
为展示这一路径,谷歌推出了几个演示应用,供用户体验。
Anywhere应用可以把用户“带到”世界各地。用户上传照片后,Nano Banana 2 Lite能将图像背景换成世界知名地标,之后Gemini Omni Flash还能把生成的图像变成该地点的动画短片。
▲Anywhere根据用户照片生成动态视频(图源:谷歌)
Space Lift面向室内设计,可根据房间照片,利用Nano Banana 2 Lite生成不同装修风格,并利用Gemini Omni Flash生成动态展示视频。
▲Space Lift根据照片生成房间动态展示视频(图源:谷歌)
Omni Product Studio则可把Nano Banana 2 Lite生成的静态图,用Gemini Omni Flash转成电商风格视频。
▲Omni Product Studio生成的电商视频(图源:谷歌)
结语:谷歌加速补齐可编辑视频生成能力
此次更新后,谷歌的生成式媒体能力进一步延伸到视频编辑工作流。用户可以先用Nano Banana 2 Lite快速生成图像素材,再通过Gemini Omni Flash把静态图像转化为可继续修改的视频内容,多轮编辑、提示词同步和多模态参考输入成为这次更新的核心看点。
随着Nano Banana系列图像模型进一步分层,谷歌也在把类似思路延伸到视频生成领域。谷歌此次推出视频编辑模型Gemini Omni Flash,有助于尽快收集应用场景和反馈,并推动图像、视频、自然语言编辑在Gemini生态内形成更连贯的创作链路。
来源:谷歌
热门跟贴