谷歌更新生成式AI，推出视频模型VEO 2和最新版Imagen3

多知

2024-12-18 16:52 ·北京

多知12月18日消息，谷歌公告称，发布了视频生成模型 Veo 2，官方声称新模型可以更好地理解现实世界物理、人类运动及表达的细微差别，进一步提升整体细节和逼真度。

谷歌 Veo 2 模型可以生成分辨率最高 4K(4096 x 2160 像素)，时长为 2 分钟的视频片段，分辨率是 OpenAI 的 Sora 模型的 4 倍，时长是Sora 的 6 倍。

不过目前在 Google 的实验性视频创建工具 VideoFX 中，Veo 2 模型分辨率上限为 720p，长度为 8 秒。

DeepMind 产品副总裁 Eli Collins 表示：" 在接下来的几个月里，我们将根据用户的反馈继续进行迭代。"

与 Veo 一样，Veo 2 可以在给定文本提示或文本和参考图像的情况下生成视频，还可以更真实地模拟运动、流体动力学和光的属性。据 DeepMind 称，这包括不同的镜头和电影效果。

谷歌表示，虽然视频生成模型往往会生成不需要的细节，例如多余的手指或物体等，但Veo 2在这一方面的表现更为真实，生成错误的频率较低。

Deepmind 表示，为了降低 Deepfake 的风险，利用专有的水印技术 SynthID，它将隐形标记嵌入到 Veo 2 生成的帧中。

谷歌还改进了Imagen 3图像生成模型，现在该模型可以生成更明亮、构图更好的图像。它现在可以更准确地渲染更多不同的艺术风格——从照片写实主义到印象派，从抽象到动漫。此次升级还可以更忠实地遵循提示，并渲染更丰富的细节和纹理。

（ Imagen 3生成的图像）

最新的 Imagen 3 模型将在全球 100 多个国家/地区推出。

此外，谷歌还推出了Whisk，这是一款结合了Imagen 3和Gemini视觉分析能力的创意工具。允许用户输入或创建能够表达您心中主题、场景和风格的图像。然后，您可以将它们组合在一起并重新混合，以创建属于用户自己的独特物品，从数字毛绒玩具到珐琅别针或贴纸。

《教育科技这一年·2022》+《培训行业这一年·2021》+《教育科技行业图谱2022-2023》，重磅发售！套装优惠价169元，闭眼入！迅速点击文末“阅读原文”购买，手慢无！

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴