有深度 有广度

就等你来关注

打开网易新闻 查看精彩图片

编辑:Yuki | ID:YukiYuki1108

字节跳动近日正式宣布进军AI视频生成领域。9月24日,旗下火山引擎在深圳举行的AI创新巡展上,发布了两款面向企业市场的豆包视频生成大模型——PixelDance和Seaweed,开启了邀测阶段。

现场展示的视频生成效果令人惊叹,无论是语义理解、复杂的主体互动,还是多镜头切换的一致性,豆包模型都达到了行业先进水平。

打开网易新闻 查看精彩图片

火山引擎总裁谭待指出,视频生成面临许多挑战,豆包模型将不断演进,探索更多可能性,助力AI视频创作的拓展。 豆包视频生成模型突破了以往只能执行简单指令的局限,实现了自然流畅的多拍动作与复杂互动。

创作者在体验中发现,生成的视频不仅遵循复杂指令,还能让不同人物完成多项动作,且人物外观、服装细节在不同镜头下保持一致,效果接近实拍。

火山引擎介绍,豆包模型基于DiT架构,通过高效的DiT融合计算单元,实现了动态与运镜的自由切换,具备变焦、环绕、平摇、缩放和目标跟随等多种镜头语言能力。

此外,创新的扩散模型训练方法成功解决了多镜头切换的一致性问题,在镜头转换时能够同时保持主体、风格和氛围的一致性,这使得豆包视频生成模型在技术上独树一帜。

经过剪映和即梦AI等业务场景的不断打 磨,豆包视频生成模型具备了专业级的光影布局和色彩调和,呈现出极强的美感与真实感。

深度优化的Transformer结构大幅提升了模型的泛化能力,支持3D动画、2D动画、国画、黑白、厚涂等多种风格,能够适配电影、电视、电脑、手机等不同设备的比例。

这不仅使其适用于电商营销、动画教育和城市文旅等企业场景,还能为专业创作者和艺术家提供创作辅助。

目前,豆包视频生成模型正在即梦AI的小范围内测中,未来将逐步向所有用户开放。剪映和即梦AI市场负责人陈欣然认为,AI能够与创作者深度互动,共同创作,带来诸多惊喜和灵感。即梦AI期待成为用户最智慧的创作伙伴。

在此次活动中,豆包大模型不仅推出了视频生成模型,还发布了豆包音乐模型和同声传译模型,全面覆盖语言、语音、图像和视频等多模态,满足不同行业的需求。

打开网易新闻 查看精彩图片

伴随着产品能力的不断提升,豆包大模型的使用量也在迅速增长。火山引擎透露,截至9月,豆包语言模型的日均tokens使用量已超过1.3万亿,相比于5月发布时激增十倍,同时多模态数据处理量达到了每天5000万张图片和85万小时语音。

豆包大模型以行业最低的定价引领了降价潮,谭待表示,大模型价格不再是创新的障碍,随着企业应用的扩大,支持更大并发流量已成为行业发展的关键。

谭待指出,目前行业内大部分模型的TPM(每分钟token数)普遍不高,难以满足企业生产环境的需求。例如,某科研机构的文献翻译场景TPM峰值为360K,汽车智能座舱的TPM峰值为420K,而某AI教育公司的TPM峰值甚至达到630K。

为此,豆包大模型默认支持800K的初始TPM,远超行业平均,客户还可根据需求灵活扩容。

“通过我们的努力,大模型的应用成本已得到有效解决。未来,大模型将从价格竞争走向性能竞争,提升模型的能力与服务。”谭待如是说。

打开网易新闻 查看精彩图片