“3厘/千tokens也有可观的毛利”，豆包开启多模态“厘时代” 目前最关键的还不是竞争？|kimi|大模型|李亮|模态|毛利|算法|豆包

12月日均tokens（处理文本最小单位）使用量超过4万亿，较5月发布时增长了33倍；价格仅为3厘/千tokens，1元就可以处理284张720P的图片，比行业平均价格降低了85%。

12月18日，“2024火山引擎FORCE原动力大会•冬”上，字节跳动正式发布豆包视觉理解模型，无论性能升级还是价格下降，都再次引发行业巨震。

“视觉是人类了解这个世界最重要的成分，对于大模型来说也是如此。”火山引擎总裁谭待在发布现场如是介绍。据称，该模型具备更出色的内容识别、理解和推理，以及视觉描述和创作等能力。而该价格的推出，也标志着继通用大模型后，多模态模型价格迈入“厘时代”。

图片来源：每经记者杨昕怡摄

此前的5月份，豆包刚一亮相就以比行业便宜99.3%的价格带动了行业的“降价潮”，而此次多模态的“低价”难免让外界猜测，多模态模型的价格战要来了？

针对外界争议，12月19日，抖音集团副总裁李亮在微博直接发声回应：“这不是价格战。”他解释称，豆包大模型通过技术创新来降低成本，在算法、软件工程和硬件方案上做了非常多的优化。“3厘/千tokens的定价也有可观的毛利。而且这是一步到位的透明价格，并不是‘刊例价+折扣’的玩法。”

现阶段，国内大模型厂商在人才、算力、性能和产品获客等方面的竞争日趋激烈。对于大模型产品的市场竞争，谭待对《每日经济新闻》记者表示：“我现在不太关心竞争，因为（大模型）这个市场还在很早期，可能才开发出千分之一。这个时候其实不用关心竞争的问题，关心的（应该）是用户的需求到底哪些没有被满足。”

视觉理解模型上线豆包刷新多模态定价新低

12月18日的上海世博中心，豆包大模型再次成为这里的焦点——更多展台、更多模型、更多前来的观众以及更多关于豆包的讨论，足以显示出过去7个月中豆包大模型在性能以及市场声量上的进步。

记者在发布会现场了解到，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较7个月前首次发布时增长了33倍。

日均tokens使用量上涨的同时，豆包也在快速成为一名“六边形战士”。发布会上，豆包视觉理解模型正式发布，豆包大模型家族再次扩容。

据谭待介绍，豆包视觉理解模型不仅能精准识别视觉内容，还具备出色的理解和推理能力，可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。此外，该模型有着细腻的视觉描述和创作能力。

发布会上的演示视频展示，该模型可以识别视频画面中的物体、解释杂志内页的天文图片、分析体检报告内的具体指标、读懂电脑屏幕上的代码，甚至还能记得桌面物品的摆放位置、给用户提供穿搭意见和为用户识别地标、提供出行建议等。

图片来源：每经记者杨昕怡摄

“好的模型，就是要让每一家企业都用得起。”发布会上，谭待公布了豆包视觉理解模型的价格，宣布多模态定价正式迈入“厘时代”。

“这不是价格战。”李亮在微博发声回应称，“豆包大模型通过技术创新来降低成本，在算法、软件工程和硬件方案上做了非常多优化，3厘/千tokens的定价也有可观的毛利。”

谭待在发布会后接受采访时表示：“我们的算力储备肯定是非常够的，而且我们在工程技术上做了非常多的优化。这也是我们有信心去大规模、低价格、高吞吐地承接业界服务上很重要的一点。”

“To C、To B不再割裂” 豆包怎么面对市场获客竞争？

“未来，金融、医疗、建筑、教育、体育和物流等诸多行业里将涌现出新的大模型应用场景案例。”在谭待看来，豆包视觉理解模型将极大地拓展大模型应用的场景边界，为更多行业企业提供具有性价比的多模态大模型能力。

记者从火山引擎方面了解到，在B端市场上，豆包大模型目前已与八成主流汽车品牌合作，并接入多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长了100倍。

12月19日，有报道称，苹果公司正与腾讯、字节跳动商谈，将两家公司的人工智能模型整合到在中国销售的iPhone中，但谈判仍处于早期阶段。截至发稿，字节跳动对此暂未回应。

不过，随后，字节跳动官方账号发布风险提示称，近期，资本市场出现炒作“豆包概念股”现象，流传着众多夸大其词甚至是虚构的内容，涉及字节跳动资本开支、数据中心花费、AI硬件、应用合作等多方面。请投资者切勿轻信市场传言，以免遭受不必要的投资损失。

“目前，国内安卓手机大部分都在和豆包合作。”被问及与苹果合作一事时，谭待也没有正面回复，而是提及了豆包和国内多家手机厂商的合作。

“手机的场景很多，所以对手机厂商来说，会在某些场景用豆包，某些场景用其他的大模型，或者某一个场景混合使用。对企业来说，肯定也需要一个多云或多模型的策略，这个我觉得很正常。最终还是谁能力更好、成本更低，（手机厂商）就会用谁，这笔账就很好算。”谭待表示。

图片来源：每经记者杨昕怡摄

同时，他向《每日经济新闻》记者指出，区别于以往的技术产品，大模型在B端和C端获客上不再割裂，而是齐头并进。

“大家天天刷抖音，但会天天用火山引擎的云吗？这两者没有必然关系。因为你看重抖音的价值和你看重火山引擎的价值是完全不一样的，你个人用云没有这个需求。但大模型不一样，大模型的C端和B端背后都是同一个东西，就是模型本身。”谭待以一个细节举例，在被企业问及如何进行AI转型时，他有时会直接建议企业CEO下载豆包App试用，以便于去想象哪些企业场景需要大模型的应用。

时至今日，以技术为中心的“百模大战”筛选出了一批能够进入新赛程的选手，而变现压力也逐渐显现。

不可忽视的是，国内大模型产品在B端、C端获客上的竞争日趋激烈。

今年11月，月之暗面创始人杨植麟在接受《每日经济新闻》记者采访时指出，目前Kimi最为核心的任务是提升留存，“（令自己满意的留存）永无止境”。

先于豆包2天，Kimi在12月16日发布了视觉思考模型k1。据介绍，在数学、物理、化学等基础科学学科的基准能力测试中，初代k1模型的表现超过了OpenAI o1、GPT-4o以及Claude 3.5 Sonnet。

今年10月，《每日经济新闻》记者也从月之暗面方面证实，业界顶尖的语音技术专家——微软亚洲研究院前首席研究经理谭旭已正式加入月之暗面。不难看出，豆包的对手们也在大力投入，坚定追逐多模态。

“从我的角度，现在不太关心（市场）竞争，因为这个市场还在很早期，可能才开发出千分之一。”面对大模型领域的战况，谭待显得淡然。“肯定有竞争，但这不是最关键的。最关键的是，能不能把自己的东西做好、把成本做低、把方案的落地应用性做好，让企业和用户真正能用起来。”