腾讯混元版Sora，鹅厂简直“泰裤辣”！|sora|写实|动作|混元|知名企业|编码器|腾讯

作者｜王玄

编辑｜星奈

媒体｜AI大模型工场

鹅厂这次真是大手笔，上线即开源！参数量达130亿，是目前参数量最大的开源视频生成模型！！！

昨天，腾讯混元大模型正式上线视频生成能力，目前该模型已上线腾讯元宝APP，大家可在AI应用中的“AI视频”板块申请试用。企业客户可通过腾讯云提供服务接入，API同步开放内测申请。

半个月前，元宝刚完成2.0版的大更新，新增AI应用专属板块，将搜索、生图还有腾讯文档、搜狗输入法等打通，这次又将视频的内容整合到一起，来了把大的。

腾讯官方也第一时间上传了由混元生成企鹅短片，只能说前有妻子的浪漫旅行，后有大鹅的环球旅行。。。。

在前有Sora，后有可灵、Vidu等视频生成模型的夹击下，混元实际效果如何呢？

下面就来看看AI大模型工场跑了一圈的视频内容吧~

一、多风格元素下的真实质感

首先在腾讯混元输入一段提示词，就能生成 5 秒的视频，支持中文、英文输入。

风格上面包含写实风格、动画风格、电影风格、黑白风格、赛博朋克风格，多种风格实现文生视频的转换。除此之外还延伸了指令功能，在景别、光线、镜头运动等方面都可进行精准的细节调整。

此次混元视频模型的优势主要有4点：

1、超写实风格，混元视频模型具有强大的写实能力与对细节的精细处理处理。

2、强语义理解能力，模型能够准确理解用户的多元化指令和需求。

3、多镜头转换，能够在不同的镜头之间丝滑切换，增强视频的叙事性。

4、连续动作生成，混元视频模型不仅能够做到单一视频主体的多动作连续生成，且在多主体场景下也可生成大幅度合理运动。

在写实风格这块，混元可以说是狠狠拿捏了。

比如在这段小女孩徒步视频中，我们可以看到，混元对冲锋衣、徒步等场景进行精准理解和高度还原，尽管提示词中并没有提到“登山杖”，但在徒步场景中，登山杖是不可或缺的，视频中也有所体现，并且在细节处理方面，尤其是手部肢体、面部表情也相当到位。

提示词：写实风格，一个女孩穿着冲锋衣在徒步，迎面向镜头走来，徒步环境左侧是高山，右侧是悬崖，悬崖底部是湍急的河水。

提示词：写实风格，两个清朝格格装的女孩在地铁上，其中一个女孩拿着相机在拍摄另一个女孩。

两段画面中生成的人物表情自然，肢体动作和谐。同时，腾讯混元在生成国内外人物视频的细节上都有精准拿捏，包括各种人造场所的表现也尤为出色。

此外，腾讯混元自研 3D 视觉编码器，支持混合图片和视频训练/先进的图像视频混合 VAE（3D 变分编码器）。这一技术特别适用于混合图片和视频训练场景，优化了编码器训练算法，大幅提升了在快速运行和纹理细节压缩重建方面的表现。结果表明，视频生成模型在细节呈现上，尤其是在小人脸和高速动作场景中，实现了质的飞跃。

提示词：黑白风格，三个人围坐在一张大木桌旁讨论，桌子上摆放着一张地图，其中一个人手拿放大镜仔细检查地图。

可以看到，在多人物镜头状态下，每个人的面部识别都没有模糊变形，动作也很连贯。这才是真本事啊！对比之前尝试的生成视频下，一旦涉及多人物场景，难免会有模糊感，混元这一技术的运用，让我感觉是相当丝滑~

二、接近满分的阅读理解能力

其实我们每个人的脑海，都有很多未被电影和电视剧拍摄出来的画面，当我们输入提示词时，就是让大模型做“阅读理解”。那么，当我构思好画面的同时，再组织好提示词，就是我们脑洞照进现实的场景。

提示词：电影风格，夜晚男孩和女孩坐在靠近窗户的位置，窗户上有水珠，外面车子的车灯闪烁着印在玻璃上

电影风格下的人物状态，真的很有故事感！

关键词：超现实主义风格，写字楼场景，切换到一个办公室里面，只身穿格子衬衫的猴子在电脑前打字办公

我称之为生活不易，吗喽卖命哈哈哈哈哈。。。。

据了解，之所以能有如此强大的语义理解能力，相较于行业内普遍采用的上一代语言模型，混元视频生成模型通过适配最新一代大语言模型 MLLM（Multimodal Large Language Model），在处理文本和理解文字方面展现出了卓越的能力。

三、导演模式下的镜头转换

此外，腾讯混元的模型架构使用了130亿参数的全注意力机制（DIT）和双模态ScalingLaw，能够在视频生成中有效利用算力和数据资源，增强时空建模能力，并优化视频生成过程中的动态表现。此架构支持原生转场，可实现了多个镜头间的自然切换，并保持主体一致性。也就是说，他具备自动生成多视角同主体的镜头切换画面。