大模型这一年，豆包跑出来了|大模型|火山|盘和林|算法|豆包|黑马

大模型时代的“抖音”

撰文/陈邓新

编辑/李觐麟

排版/Annalee

大模型之争，进入关键时刻。

2024年，字节跳动旗下的豆包大模型实现了逆袭，凭借“更强模型、更低成本、更易落地”的打法迅速出圈。

以至于，资本热捧“豆包概念”，赚足了2.2亿股民的眼球。

特别是火山引擎Force冬季大会之后，豆包大模型全面升级，从感知信息走向感知世界，“豆包概念”一跃成为A股最靓的仔，引得字节跳动官方出面发布过度炒作的风险提示。

不难看出，豆包大模型正在成为大模型时代的“抖音”。

更强模型，崭露头角并非偶然

豆包大模型，上演了一场后发先至的好戏。

2020年5月15日，豆包大模型才正式下场，虽然姗姗来迟，却迅速打开了局面，成为大模型赛道最大的“黑马”。

关于此，从豆包的使用数据，就可见一斑。

官方资料显示，豆包大模型5月的日均tokens使用量为1200亿，到了12月日均tokens使用量超过4万亿，增长超过33倍。

而在2024年11月的AI产品全球月活跃排行榜上，豆包APP的MAU高达5998万，仅次于OpenAI的ChatGPT，位居全球第二。

之所以如此，与模型能力强悍息息相关。

在权威机构智源研究院的最新评测中，豆包大模型在重点考察语言模型中文能力的主观评测中排名第一，在多模态的视觉理解、视频生成、图像生成三个赛道均排名全球第二。

以豆包用户青睐的AI语音为例，豆包大模型在ASR和超自然的TTS音色上下了狠功夫，通过超拟人达到类似和真人对话的效果，从而有了差异化竞争力。

豆包战略研究负责人周昊表示：“英语口语练习是大家很喜欢的教育场景。用户反馈说，豆包的发音、词汇量、句型都远远超过他自己。通过豆包实时语音通话功能，和豆包一来一回练英语，毫不尴尬，也省了请老师辅导的开销。”

由此可见，豆包大模型崭露头角，并非偶然。

这次全面焕新，豆包通用模型pro新版本全面对齐GPT-4o，使用价格仅为后者的1/8；综合任务处理能力较5月提升32%，在推理上提升13%，在指令遵循上提升9%，在代码上提升58%，在数学上提升43%，在专业知识领域能力提升54%。

此外，豆包音乐模型4.0版从生成60秒的片段迭代为生成3分钟作品，具备制作一首完整音乐的能力；豆包文生图模型2.1版，首次实现精准生成汉字和一句话P图的能力。

简而言之，豆包大模型的大模型能力更强了，可以满足更多的复杂任务需求以及创新应用场景。

一名互联网观察人士告诉锌刻度：“大模型是一个重资产赛道，考验企业在资金、生态、技术、人才等方面的底蕴，Scaling Law之下强者恒强。”

通俗易懂地说，只要模型能力不断迭代、不断变强，豆包大模型就可以实现“一步领先，步步领先”。

于是乎，资本市场沸腾了。

机构踏破了“豆包概念”关联的上市公司门槛，单单中科蓝讯一家上市公司，2024年11月以来就累计接待了96家机构调研。

北京艾文智略投资管理有限公司首席投资官曹辙表示：“豆包的成功是字节跳动技术实力和市场定位的体现，随着AI大模型在各领域的应用逐渐深入，市场对AI应用端的关注度也将不断提升。”

更低成本，技术创新是关键

更强模型之外，更低成本是豆包大模型弯道超车的另外一个关键因素。

秉持“好的模型就是要让每一家企业都用得起”的理念，豆包大模型上线之初，就将通用模型的行业定价降低了99%，拉开了大模型集体降价的序幕。

如此一来，豆包大模型走上了“高质低价”之路，成功占领用户的心智。

尝到甜头之后，豆包大模型在新上架的视觉理解模型上，再次祭出降价打法：每千tokens的价格为0.003元，比行业平均定价低了85%，相当于一块钱可以处理284张720P的图片；同时，火山引擎额外提供更高的初始流量，RPM达到了15000次，TPM达到120万。

这意味着，继通用模型之后，豆包大模型推动视觉理解也进入了“厘时代”。

需要注意的是，价格战并非豆包大模型的本意，只是技术创新带来的结果，是一个正反馈的良性循环。

抖音集团副总裁李亮表示：“豆包大模型通过技术创新来降低成本，在算法、软件工程和硬件方案上做了非常多优化，3厘/千tokens的定价也有可观的毛利，而且这是一步到位的透明价格，并不是‘刊例价+折扣’的玩法。”

事实上，技术降本一直是豆包大模型的底色。

譬如，新一代的火山引擎GPU实例，通过vRDMA 网络，支持大规模并行计算和P/D分离推理架构，显著提升训练和推理效率，降低成本。

再譬如，新推出的EIC弹性极速缓存，能够实现GPU直连，使大模型推理时延降低至1/50；成本降低20%。

这么一来，豆包大模型才有了推动价格普惠的底气。

火山引擎总裁谭待表示：“企业之所以用豆包更多，还是因为使用体验较好，而不是没有尝试过其他的产品。这个市场就是要充分竞争，最关键的是能不能把自己的东西做好，能不能把成本做低，能不能把方案的落地应用性做好。”

换而言之，豆包大模型推崇的是良性竞争。

“对于企业级市场来说，商业模式是建立在可持续发展的基础上，任何商品必须是盈利的，不能靠补贴来降价。如果降价是亏损的，规模越大亏得越多，这就不是合理的商业模式。”谭待如是说。

良性竞争之下，视觉理解进入大浪淘沙阶段，由于门槛降低令更多开发者涌入，刺激更多的应用创新，从而催生繁荣的AICG生态。

出国旅游，可以快速看懂外文的菜单、标签、指示牌、滚动显示，可以识别著名地标建筑的背景知识等；家庭辅导，可以快速批改作文写得好不好，可以数学题做得判断对错等；网购求知，可以拍照找同款快速进入相关的推荐界面……

以上可见，视觉理解可以全面赋能应用场景，进一步加速大模型落地。

更易落地，打通“最后一公里”

更低成本之外，更易落地是豆包大模型另外一个核心竞争力。

公开资料显示，豆包大模型已经与八成主流汽车品牌合作，汽车行业日均tokens消耗增长了50倍，稳坐汽车行业大模型服务商第一梯队；接入到多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长100倍。

此外，一个好汉三个帮，豆包大模型落地离不开HiAgent、扣子、火山方舟三大平台的支持，借此第三方企业才可以快速提升AI能力与AI应用开发效率。

以HiAgent为例，定位为低代码平台，大幅降低了基于大模型开发AI应用的门槛，扩大了受众范围，加速AI普惠。

火山引擎副总裁张鑫表示：“如果把豆包大模型比作 Android，那么HiAgent就是企业调度系统能力开发应用的SDK（软件开发工具包）。”

通俗易懂地说，开发者可以像拼乐高一样搭建AI应用。

此背景下，HiAgent上线7个月，成为火山引擎增长最快的企业服务产品之一，客户涉及华泰证券、宁德时代、浙江大学等不同领域的佼佼者。

更为重要的是，迭代至1.5版之后，HiAgent提供100种行业的开发“样板间”，企业一键复刻，可以使用模板轻而易举地开发AI应用。

由此一来，解决了低代码平台“专业客户看不上，小白客户不会用”的传统痛点。

一名业内人士告诉锌刻度：“业务端与开发端往往需要深度沟通与反复交流，不然容易出现功能不完整、需求不匹配等情况，低代码平台可以让业务端直接上手开发，省去烦琐的中间过程，开发端也可以将工作重心转向非标应用”。

另外，扣子平台拥有100万个活跃开发者，发布超过200万个智能体；火山方舟的全域AI搜索，将企业的信息、业务和用户需求紧密结合，帮助企业实现“发现更多，推荐更准，搜索无限可能”。

值得一提的是，豆包大模型也在对内赋能。

这其中，AIGC应用即梦表现得可圈可点，借助其制作的科幻短剧《觉醒》，成为首部单日点赞破40万的AI短剧。

工信部信息通信经济专家委员会委员盘和林在接受媒体采访时表示：“即梦AI目前在国内（视频）生成领域，还是比较领先的。”

这意味着，即梦大大降低了短剧的创作门槛以及影视创作的试错成本。

总而言之，豆包大模型采用高举高打的策略，围绕“数据、场景、生态”全面迭代，一跃成为大模型时代的领先者。

因此，豆包大模型有了更大的盼头。