打开网易新闻 查看精彩图片

作者|王玄

编辑|星奈

媒体|AI大模型工场

鹅厂这次真是大手笔,上线即开源!参数量达130亿,是目前参数量最大的开源视频生成模型!!!

昨天,腾讯混元大模型正式上线视频生成能力,目前该模型已上线腾讯元宝APP,大家可在AI应用中的“AI视频”板块申请试用。企业客户可通过腾讯云提供服务接入,API同步开放内测申请。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

半个月前,元宝刚完成2.0版的大更新,新增AI应用专属板块,将搜索、生图还有腾讯文档、搜狗输入法等打通,这次又将视频的内容整合到一起,来了把大的。

腾讯官方也第一时间上传了由混元生成企鹅短片,只能说前有妻子的浪漫旅行,后有大鹅的环球旅行。。。。

打开网易新闻 查看精彩图片

在前有Sora,后有可灵、Vidu等视频生成模型的夹击下,混元实际效果如何呢?

下面就来看看AI大模型工场跑了一圈的视频内容吧~

一、多风格元素下的真实质感

首先在腾讯混元输入一段提示词,就能生成 5 秒的视频,支持中文、英文输入。

风格上面包含写实风格、动画风格、电影风格、黑白风格、赛博朋克风格,多种风格实现文生视频的转换。除此之外还延伸了指令功能,在景别、光线、镜头运动等方面都可进行精准的细节调整。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

此次混元视频模型的优势主要有4点:

1、超写实风格,混元视频模型具有强大的写实能力与对细节的精细处理处理。

2、强语义理解能力,模型能够准确理解用户的多元化指令和需求。

3、多镜头转换,能够在不同的镜头之间丝滑切换,增强视频的叙事性。

4、连续动作生成,混元视频模型不仅能够做到单一视频主体的多动作连续生成,且在多主体场景下也可生成大幅度合理运动。

在写实风格这块,混元可以说是狠狠拿捏了。

比如在这段小女孩徒步视频中,我们可以看到,混元对冲锋衣、徒步等场景进行精准理解和高度还原,尽管提示词中并没有提到“登山杖”,但在徒步场景中,登山杖是不可或缺的,视频中也有所体现,并且在细节处理方面,尤其是手部肢体、面部表情也相当到位。

打开网易新闻 查看精彩图片

提示词:写实风格,一个女孩穿着冲锋衣在徒步,迎面向镜头走来,徒步环境左侧是高山,右侧是悬崖,悬崖底部是湍急的河水。

打开网易新闻 查看精彩图片

提示词:写实风格,两个清朝格格装的女孩在地铁上,其中一个女孩拿着相机在拍摄另一个女孩。

两段画面中生成的人物表情自然,肢体动作和谐。同时,腾讯混元在生成国内外人物视频的细节上都有精准拿捏,包括各种人造场所的表现也尤为出色。

此外,腾讯混元自研 3D 视觉编码器,支持混合图片和视频训练/先进的图像视频混合 VAE(3D 变分编码器)。这一技术特别适用于混合图片和视频训练场景,优化了编码器训练算法,大幅提升了在快速运行和纹理细节压缩重建方面的表现。结果表明,视频生成模型在细节呈现上,尤其是在小人脸和高速动作场景中,实现了质的飞跃。

打开网易新闻 查看精彩图片

提示词:黑白风格,三个人围坐在一张大木桌旁讨论,桌子上摆放着一张地图,其中一个人手拿放大镜仔细检查地图。

可以看到,在多人物镜头状态下,每个人的面部识别都没有模糊变形,动作也很连贯。这才是真本事啊!对比之前尝试的生成视频下,一旦涉及多人物场景,难免会有模糊感,混元这一技术的运用,让我感觉是相当丝滑~

二、接近满分的阅读理解能力

其实我们每个人的脑海,都有很多未被电影和电视剧拍摄出来的画面,当我们输入提示词时,就是让大模型做“阅读理解”。那么,当我构思好画面的同时,再组织好提示词,就是我们脑洞照进现实的场景。

打开网易新闻 查看精彩图片

提示词:电影风格,夜晚男孩和女孩坐在靠近窗户的位置,窗户上有水珠,外面车子的车灯闪烁着印在玻璃上

电影风格下的人物状态,真的很有故事感!

打开网易新闻 查看精彩图片

关键词:超现实主义风格,写字楼场景,切换到一个办公室里面,只身穿格子衬衫的猴子在电脑前打字办公

我称之为生活不易,吗喽卖命哈哈哈哈哈。。。。

据了解,之所以能有如此强大的语义理解能力,相较于行业内普遍采用的上一代语言模型,混元视频生成模型通过适配最新一代大语言模型 MLLM(Multimodal Large Language Model),在处理文本和理解文字方面展现出了卓越的能力。

三、导演模式下的镜头转换

此外,腾讯混元的模型架构使用了130亿参数的全注意力机制(DIT)和双模态ScalingLaw,能够在视频生成中有效利用算力和数据资源,增强时空建模能力,并优化视频生成过程中的动态表现。此架构支持原生转场,可实现了多个镜头间的自然切换,并保持主体一致性。也就是说,他具备自动生成多视角同主体的镜头切换画面。

打开网易新闻 查看精彩图片

提示词:赛博朋克风格,未来都市,霓虹灯闪烁,镜头切换到雨夜中一个男人朝着城市中心走去

偷偷感慨一下,这个AI生成的男人居然还挺帅嘿嘿。。。。

打开网易新闻 查看精彩图片

提示词:赛博朋克风格,一位身着机械战甲的神秘人物,周围是广袤无垠的雪景和远方是冰雪覆盖的山脉,中央立着一座巨大的金字塔,神秘人物缓步向金字塔的另一个机甲人走去,呈现超现实主义的科幻风格,自然的冷色调光线,全景到近景的转换。

混元这镜头感转换,甚至让我一度有点恍惚,这是学过编导吗?

打开网易新闻 查看精彩图片

关键词: 周围房屋都是圣诞节装饰,切换一个小男孩在房子里面布置圣诞树

四、超自然连续动作生成

连续动作生成在视频生成方面一直都是一大挑战,主体一致性以及在大幅度运动过程中的变形等因素具有极高的不确定性。

拿滑雪这一运动幅度较高的场景测试下混元,场面没有崩并且滑雪的女孩还浅浅地秀了下“铲雪”。

打开网易新闻 查看精彩图片

关键词:雪山脚下,阳光洒落。女子身着鲜艳滑雪服,戴着护目镜,手持滑雪杖,从雪坡优雅滑下,雪花飞扬。

狗狗“走到”、“跳到怀里”、“嫌弃地跳开”,一连三个动作确实出乎意料。本来以为它只会理解到“跳到怀里”这一步,没想到还有“嫌弃地跳开”这一动作,混元还是有点子东西在的。

打开网易新闻 查看精彩图片

提示词:一只狗狗摇着尾巴走向一个男人身边,然后跳到男人怀里嫌弃地跳开了。

最后,要提到的一点是,视频生成的画质目前仅支持720P,但是相信以鹅厂的速度,后面可以生成更高的画质也是指日可待的!感兴趣的朋友们都可以去试试,对新手也很友好哦,目前正处于内测中,用户每天都有6次免费畅想机会!