打开网易新闻 查看精彩图片

今日凌晨,谷歌在此狙击 OpenAI—— 宣布推出全新视频生成模型 Veo 2 和最新版本的图像生成模型 Imagen 3,称两款模型在视频与图像生成上达到了 SOTA,能够为用户带来更高质量、更细致的创作体验。

Veo 2:SOTA 视频生成

Veo 2 是谷歌最新的视频生成模型,在多个主题和风格下展现出了高质量的生成效果。据人类评价者对比测试结果,Veo 2 在 画质、细节和真实性 上均达到 SOTA 水准。

打开网易新闻 查看精彩图片

Veo 2 对现实物理、人体动作及表情的细微差异有更深入的理解,使生成内容更加真实。它能够识别电影语言,支持用户通过提示词定制场景效果,例如指定镜头类型、画面风格或电影特效。

Veo 2 可生成 分辨率高达 4K时长延长至数分钟 的视频。无论是要求一个穿过场景中间的低角度跟踪镜头,或者一个通过显微镜观察的科学家面部特写镜头,Veo 2 都能完美呈现。在提示中建议“18mm 镜头”,Veo 2 就会知道如何制作这种镜头所擅长的广角镜头,或者通过在提示中输入“浅景深”来模糊背景并聚焦于拍摄对象。

 再度狙击OpenAI!“谷歌版”Sora深夜上线,4k视频生成时代来了
打开网易新闻 查看更多视频
再度狙击OpenAI!“谷歌版”Sora深夜上线,4k视频生成时代来了

视频|由 Veo 2 生成,未经修改。

同时,Veo 2 极大 降低了生成视频中产生“幻觉”即不必要细节 (如多余的手指或意外物体)的问题,增强了输出的真实性。

为了确保生成技术的安全性和负责任的使用,Veo 2 继续采用 SynthID 无形水印技术,有助于识别内容为 AI 生成,从而有效降低误导性信息传播和错误归因的风险。

研究团队表示,Veo 2 的功能将逐步通过 VideoFX 、YouTube、Vertex AI 等工具面向更多用户开放,并计划于明年拓展至 YouTube Shorts 等产品。

Imagen 3 :图像生成模型再升级

谷歌还对 Imagen 3 图像生成模型进行了全面升级,现在该模型的生成效果更加明亮、构图更精美,并支持更多样化的艺术风格,从写实主义到印象派,从抽象风格到动漫风格。升级后的模型在细节和材质表现上更为丰富,并且对提示词的响应更为准确。

在人类评价者的对比测试中,Imagen 3 在生成质量上超过了多个领先图像生成模型,达到了 SOTA 水准。

从今日起,Imagen 3 已通过 ImageFX 工具在全球 100 多个国家开放。用户可访问 ImageFX 平台,立即体验最新的图像生成技术。

打开网易新闻 查看精彩图片

图|Imagen 3 的丰富细节和图像质量构图示例。

此外,谷歌也推出了一款基于图像的创意可视化工具 Whisk,其允许用户输入或创建图像,传达心中的主题、场景和风格。然后,用户可以将它们组合在一起,重新混合,创造出独一无二的作品,从数字毛绒玩具到珐琅徽章或贴纸,Whisk 可满足各种创意需求。

Whisk 的技术核心结合了最新 Imagen 3 模型和 Gemini 模型的视觉理解能力。Gemini 模型自动为用户上传的图像生成详细描述,并将这些描述输入 Imagen 3,从而实现对场景、风格和主体的灵活重新混合,为创意带来全新可能。

 再度狙击OpenAI!“谷歌版”Sora深夜上线,4k视频生成时代来了
打开网易新闻 查看更多视频
再度狙击OpenAI!“谷歌版”Sora深夜上线,4k视频生成时代来了

视频|Whisk 可让用户快速地将想法形象化并重新混合。

如需转载或投稿,请直接在公众号内留言