字节模型更新！最新OmniHuman数字人模型即将上线即梦

四木相对论

2025-02-07 20:33 ·美国,加利福尼亚州 ·记者，行业分析师，AI产品经理优质科技领域创作者

字节跳动的模型又上新了！

这两天「四木相对论」发现，即梦AI在官方社交媒体上发布了一条预告片。预告片中的信息显示，采用了全新的多模态视频生成模型OmniHuman马上要在即梦中上线。

效果听起来也是有点炸裂——有了这个模型，用户仅需输入一张图片和一段音频，就可以生成一条生动的视频。

一段音频+一张图片，生成风格灵活的视频

一段音频+一张图片，生成风格灵活的视频

OmniHuman的技术报告（地址：https://omnihuman-lab.github.io/）展示了它的各种效果。

技术主页信息显示，OmniHuman为字节跳动自研的闭源模型，能够支持肖像、半身以及全身等不同尺寸的图片输入，并根据输入的音频，在视频中让人物生成与之匹配的动作，包括演讲、唱歌、乐器演奏以及移动。

其他的case展示出，人物视频生成中常见的手势崩坏，也有显著的改善。此外，它对动漫、3D卡通等非真人图片输入的支持效果也不错，生成的视频能保持特定风格和原有的运动模式。

整体来看，OmniHuman的生成效果已经具有较高的自然度。

更安全的使用方式

更安全的使用方式

有一些出乎意料的是，为防止该项技术被不当利用，字节跳动技术团队在主页中特别标注称，OmniHuman将不会对外提供下载。

看来只能蹲一波即梦了。

即梦AI的相关负责人透露，这个模型目前已具备较好的表现，但在生成影视真实级别的视频上仍存在一定提升空间。

所以，由即梦支持的多模态视频生成功能，会在即梦上以小范围内测的形式进行调优调整，并逐步开放。

该负责人同时表示，即梦还会对这一功能设置严格的安全审核机制，并且对输出的视频标注水印以作提醒，确保AI发挥正面、积极的作用，助力视频创作者更好地实现想象力的表达。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴