字节发布视频生成大模型：从价格竞争迈向性能突破|价格竞争|大模型|字节|引擎|性能突破|模态|算法|翻译|视频生成|豆包

文/张德帅

AI视频生成领域迎来了又一重大里程碑事件。9月24日，火山引擎AI创新巡展在深圳举行。会上，火山引擎发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款视频生成大模型，面向企业市场开启邀测。

除了视频生成大模型，火山引擎还发布了音乐模型以及同声传译模型，并对通用语言模型、文生图模型、语音模型进行了全面升级，豆包全模态大模型家族整齐亮相。

会上，火山引擎总裁谭待表示，“视频生成有很多难关亟待突破。豆包两款模型会持续演进，在解决关键问题上探索更多可能性，加速拓展AI视频的创作空间和应用落地。”

火山引擎总裁谭待

字节发布豆包视频生成模型

在当天的巡展中，字节跳动发布的豆包视频生成模型无疑是全场焦点。其视频生成质量不仅达到了业界领先水平，更是在多个维度上实现了对传统视频生成技术的全面超越。

豆包视频生成模型的一大亮点在于其精准的语义理解能力。相比市面上大多数只能完成简单指令、单一动作的视频生成模型，豆包视频生成模型能够遵从更复杂的prompt，解锁时序性多拍动作指令与多个主体间的交互能力。

为了攻克多镜头切换时难以保持一致性的难题，豆包视频生成模型采用了全新的扩散模型训练方法。该技术成功实现了在一个prompt的多个镜头切换时，保持主体、风格、氛围和逻辑的一致性，使得用户能够在短短10秒内讲述一个起承转合的故事。

针对高动态的复杂场景视频和多样化表达的文本指令，豆包视频生成模型基于高效的DiT融合计算单元，实现了更充分的压缩编码视频与文本。这使得生成的视频动作更加灵动，镜头语言更加丰富多样，表情和细节也更加丰满。

在视觉效果上，豆包视频生成模型同样表现出色。它支持影视级视频生成，细节层次丰富，逼真度极高。同时，该模型还具备专业级色彩调和和光影布局能力，大幅提升了画面的视觉审美。

此外，豆包视频生成模型还深度优化了Transformer结构，提升了视频生成的泛化能力。它支持包括黑白、3D动画、2D动画、国画、厚涂等多种风格以及多种视频尺寸比例，满足用户多样化的创作需求。

字节跳动在推出豆包视频生成模型时，遵循了其一贯的大模型发展路径：即先通过面向消费者的产品打磨模型能力，待模型具备竞争优势后再向企业市场拓展。

这一策略在豆包语言模型上已得到验证——该模型于2023年8月在国内首批通过备案，经过近一年的低调打磨后于2024年5月正式发布。同样地，豆包视频生成模型的早期版本也已在即梦（Dreamina）等平台上进行了长时间的应用与迭代优化，最终才正式推向企业市场。

此外，字节跳动之所以能够在视频生成模型领域取得如此成果，离不开其丰富的业务场景积累。

据了解，字节跳动的业务场景涵盖了短视频、社交媒体、在线教育、电商等众多领域。这些多元化的业务场景为视频生成模型的研发和训练提供了海量的数据和丰富的应用场景，使其能够更好地理解和满足用户的多样化需求。

同时，字节在算法领域积累深厚，拥有一支强大的研发团队，不断推动算法的创新和优化，为豆包视频生成模型的卓越性能提供了坚实的技术支撑。

豆包全模态大模型家族亮相

豆包大模型自今年5月发布以来，语言模型日均tokens使用量猛增10倍，图片、语音等多模态数据处理量也大幅增加。据QuestMobile数据，截至7月，豆包月活用户规模达到3042万，是国内用户量最大的AI原生应用之一。

除了视频生成模型外，火山引擎还发布了豆包音乐模型。用户只需通过简单的描述或上传一张图片，就能轻松生成一首包含旋律、歌词和演唱的1分钟高品质音乐作品。

豆包音乐模型的高品质音乐生成能力得益于其先进的算法和丰富的音乐库。模型能够精准地理解用户输入的歌词内容或图片情感，并生成与之高度契合的旋律和节奏。同时，模型还支持10余种不同的音乐风格和情绪表现，如民谣、流行、摇滚、国风等，满足不同用户的多样化需求。

在演唱方面，豆包音乐模型同样表现出色。它能够根据歌曲风格匹配适合的音色进行演唱，真实呈现气口和真假音转换等细节，让用户仿佛置身于专业的录音棚之中。此外，模型还支持高质量音质的听感体验，让用户在创作过程中就能享受到音乐的魅力。

在全球化日益加深的今天，跨语言沟通的重要性不言而喻。火山引擎发布的豆包同声传译模型正是为了解决这一难题而诞生的。该模型具有超低延时、边说边译的特点，能够在实时翻译的过程中保持流畅自然、准确率高的优势。据测评显示，在办公、法律、教育等场景下，豆包同声传译模型的翻译水平接近甚至超越人类同传水平。

值得一提的是，豆包同声传译模型还支持音色克隆功能。这意味着在跨语言翻译的过程中，模型能够保持原始声音的音色和表现力，从而打破沟通壁垒，为跨国会议、国际论坛、线上直播等场景下的沟通提供便利。

除了上述视频生成模型、音乐模型、同声传译模型三款新发布的模型外，火山引擎还对通用语言模型、文生图模型、语音模型进行了全面升级。

通用语言模型在综合能力、数学、代码、专业知识等维度上均有不同幅度的提升。文生图模型2.0在推理效率和性能上实现了大幅提升，能够更精确地呈现复杂场景并极速出图。

语音模型的升级则引入了超强混音功能，用户可以自由组合不同的音色来打造独特的音效体验。这一功能不仅为音频创作领域带来了更多的可能性，也为语音交互、智能家居等场景下的用户体验带来了质的飞跃。

从“价格战”到“性能战”

当前，大模型为云服务带来重要变革和发展机遇。火山引擎正成为AI时代云服务的一股重要力量：引领了大模型降价，并且发起智能终端、汽车、零售大模型联盟，推动行业AI应用创新。

在产品能力日益完善的同时，豆包大模型的使用量也在极速增长。

据火山引擎披露，截至9月，豆包语言模型的日均tokens使用量超过1.3万亿，相比5月首次发布时猛增十倍，多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

大模型发展的初期，价格竞争是市场关注的焦点之一。此前，豆包大模型公布低于行业99%的定价，引领国内大模型开启降价潮。

谭待认为，大模型价格已不再是阻碍创新的门槛，随着企业大规模应用，大模型支持更大的并发流量正在成为行业发展的关键因素。

据谭待介绍，业内多家大模型目前最高仅支持300K甚至100K的TPM（每分钟token数），难以承载企业生产环境流量。例如某科研机构的文献翻译场景，TPM峰值为360K，某汽车智能座舱的TPM峰值为420K，某AI教育公司的TPM峰值更是达到630K。为此，豆包大模型默认支持800K的初始TPM，远超行业平均水平，客户还可根据需求灵活扩容。

“在我们的努力下，大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能，卷更好的模型能力和服务。”谭待表示。