2024火山引擎AI创新巡展，字节推出最强豆包视频生成大模型

智渊览界

2024-09-25 12:57 ·北京

有深度有广度

就等你来关注

编辑：Yuki | ID：YukiYuki1108

字节跳动近日正式宣布进军AI视频生成领域。9月24日，旗下火山引擎在深圳举行的AI创新巡展上，发布了两款面向企业市场的豆包视频生成大模型——PixelDance和Seaweed，开启了邀测阶段。

现场展示的视频生成效果令人惊叹，无论是语义理解、复杂的主体互动，还是多镜头切换的一致性，豆包模型都达到了行业先进水平。

火山引擎总裁谭待指出，视频生成面临许多挑战，豆包模型将不断演进，探索更多可能性，助力AI视频创作的拓展。豆包视频生成模型突破了以往只能执行简单指令的局限，实现了自然流畅的多拍动作与复杂互动。

创作者在体验中发现，生成的视频不仅遵循复杂指令，还能让不同人物完成多项动作，且人物外观、服装细节在不同镜头下保持一致，效果接近实拍。

火山引擎介绍，豆包模型基于DiT架构，通过高效的DiT融合计算单元，实现了动态与运镜的自由切换，具备变焦、环绕、平摇、缩放和目标跟随等多种镜头语言能力。

此外，创新的扩散模型训练方法成功解决了多镜头切换的一致性问题，在镜头转换时能够同时保持主体、风格和氛围的一致性，这使得豆包视频生成模型在技术上独树一帜。

经过剪映和即梦AI等业务场景的不断打磨，豆包视频生成模型具备了专业级的光影布局和色彩调和，呈现出极强的美感与真实感。

深度优化的Transformer结构大幅提升了模型的泛化能力，支持3D动画、2D动画、国画、黑白、厚涂等多种风格，能够适配电影、电视、电脑、手机等不同设备的比例。

这不仅使其适用于电商营销、动画教育和城市文旅等企业场景，还能为专业创作者和艺术家提供创作辅助。

目前，豆包视频生成模型正在即梦AI的小范围内测中，未来将逐步向所有用户开放。剪映和即梦AI市场负责人陈欣然认为，AI能够与创作者深度互动，共同创作，带来诸多惊喜和灵感。即梦AI期待成为用户最智慧的创作伙伴。

在此次活动中，豆包大模型不仅推出了视频生成模型，还发布了豆包音乐模型和同声传译模型，全面覆盖语言、语音、图像和视频等多模态，满足不同行业的需求。

伴随着产品能力的不断提升，豆包大模型的使用量也在迅速增长。火山引擎透露，截至9月，豆包语言模型的日均tokens使用量已超过1.3万亿，相比于5月发布时激增十倍，同时多模态数据处理量达到了每天5000万张图片和85万小时语音。

豆包大模型以行业最低的定价引领了降价潮，谭待表示，大模型价格不再是创新的障碍，随着企业应用的扩大，支持更大并发流量已成为行业发展的关键。

谭待指出，目前行业内大部分模型的TPM（每分钟token数）普遍不高，难以满足企业生产环境的需求。例如，某科研机构的文献翻译场景TPM峰值为360K，汽车智能座舱的TPM峰值为420K，而某AI教育公司的TPM峰值甚至达到630K。

为此，豆包大模型默认支持800K的初始TPM，远超行业平均，客户还可根据需求灵活扩容。

“通过我们的努力，大模型的应用成本已得到有效解决。未来，大模型将从价格竞争走向性能竞争，提升模型的能力与服务。”谭待如是说。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴