关键里程碑、行业最优解：豆包大模型的价值逻辑|大模型|模态|视觉|豆包

ChatGPT发布之后，AI大模型快速向前迭代发展，变得更加智能。可以说，这是一条看不到尽头的进击之路。

前段时间，上海人工智能实验室一位科学家也表示，大模型再演化，“一定是朝一些更高级的智能能力演化”。

而现实中，“智能能力演化”有了最新注解。

12月18日，火山引擎在上海举行“FORCE2024原动力大会·冬”，现场发布了豆包视觉理解大模型，其对视觉内容有更强的识别能力，具有更强的理解和推理能力以及更细腻的视觉描述等能力。

更重要的是，不只有豆包视觉理解大模型，大会还发布了升级的通用语言模型、音乐模型、文生图模型等。结合起来，字节跳动由此构建出国内最全面的大模型家族，媒体称之为“豆包全家桶”。

与此相应的背景是，在此之前，豆包大模型已然展现强悍实力：在11月的全球月活跃排行榜上，豆包APP的MAU达到5998 万，仅次于ChatGPT，位列全球第二；豆包海外版Cici的MAU也达到1267万，位居第22位；根据AI产品榜，豆包已经成为用户最多的ToC AI产品。

而从本次大会的角度看，全新豆包大模型的发布堪称关键里程碑，能力最全面的大模型家族的构建，为满足用户多元需求以及带来AI的持续价值，提供了行业最优解。虽然AI圈三天两头就会出现“王炸”，但豆包是真的炸到了普通人的生活里。

关键里程碑：豆包视觉理解模型凭实力“点睛”

今年以来，大模型等智能助手表现得越来越像“人”。

之所以有这样的朴素追求，是因为人类可以借助各种模态，包括但不限于视觉、语言、声音等来感知、理解这个世界。其中，最关键的当属视觉，研究显示，人类接受的信息超过80%来自视觉，而人类的视觉高度依赖眼睛。

在大模型领域，视觉理解即是大模型的“眼睛”，其依托识别、理解、推理等能力，拓展大模型的能力边界，同时降低人类和大模型的交互门槛，为大模型落地、解锁丰富的应用场景打下坚实基础。

以上述逻辑审视最新发布的豆包视觉理解模型，我们会发现，说它是大模型“智能能力演化”的最新注解可谓名副其实。

这是因为，豆包视觉理解模型某种程度上真正做到了为大模型点亮“眼睛”。

在发布会现场，火山引擎总裁谭待介绍称，豆包视觉理解模型不仅可以精准识别视觉内容，还拥有出色的理解和推理能力，可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。同时，还具备细腻的视觉描述和创作能力。

比如，给豆包一张动物影子的照片，它能根据轮廓识别出这是一只猫；当用户给出一张地标建筑照片时，豆包可以介绍背后的历史和文化细节，相当于“随叫随到”的优秀讲解员。

而在推理层面，当尺度商业要求“求解方程x^3-3x+2=0的根，需要通过泰勒展开、洛必达法则等高级技巧”时，豆包很快给出清晰的思路和解法，包括用泰勒展开法解题，最后还指出洛必达法则不适合直接用于求解多项式方程的根。而事实正是如此，洛必达法则主要用于求解不定式极限。

发布会上的实测视频也显示，解答微积分题和今年的高考物理题时，豆包视觉理解模型都能正确理解题意，并根据提示给出清晰解题思路。

至于创作能力，尺度商业给出一张石雕佛像图，要求豆包创作一首有禅意的古诗，得到一首《观佛崖刻》：“青山壁上佛身留，岁月沧桑刻韵悠。云卷云舒天际外，禅心不动忘春秋。”不得不说，这首诗基于准确的图片内容识别，写出了禅意，超出预期。

不难看出，豆包视觉理解模型实现的“视觉理解+语言生成”，凭业界领先的实力为大模型“点睛”，进而高效满足不同用户在生活、学习和工作等各类场景中的需求。

从行业视角看，这是大模型发展的关键里程碑，接下来，则是加速落地应用的广阔天地。

多模态交互：更低成本更低门槛，力拓AI应用边界

豆包视觉理解模型的发布，增强了豆包大模型多模态交互的能力。

事实上，用户遇到问题，会第一时间选择豆包，主要原因是“问问豆包最快”，而“豆包最快”的一大关键，是在产品设计上注重多模态。

比如，视觉理解之外，还有语音，豆包语音能快速、准确转录各种语音信号，识别不同语言、方言、口音，也能对人名、生词进行准确识别，且能结合上下文做出准确分析。也就是说，用户输入更快更方便，得到结果快而准确。

正因为多模态交互能释放各方面的能力优势，因此被视为大模型发展的趋势，不少企业希望能“做趋势的朋友”。

谭待直言：“今年是大模型高速发展的一年。当你看到一列高速行驶的列车，最重要的事就是确保自己要登上这趟列车。”

问题在于，这趟“列车”票价如何？是否能助力自己达到预期的“目的地”？对于这两个核心问题，豆包大模型提供了业界瞩目的解决方案。

首先，从价格看，豆包视觉理解模型千tokens输入价格仅为3厘，一元钱即可处理284张720P的图片，比行业价格便宜85%。换句话说，继大语言模型之后，视觉理解模型也迎来“厘时代”。

需要注意的是，豆包视觉理解模型的低价格并不是不计成本地“内卷”。据谭待介绍，3厘/千tokens的价格，对于豆包视觉理解模型来说仍有合理的毛利。

其背后的逻辑在于：对于To B的业务，如果毛利是负的，规模越大亏损越多，商业模式是不成立的。能做到低价，是豆包大模型技术能力、工程能力、软硬件结合能力整合的结果。比如算法上，预训练阶段的特别优化，工程上的错峰和混部，大规模的P/D推理分离等。

实际上，这便是以更高的效率，以实现对应更低的成本，同时，在技术先行下，进而实现更高的智能。

其次，从使用门槛看，豆包不断降低AI应用落地的门槛，火山引擎推出了一系列平台和工具，包括火山方舟、扣子专业版、HiAgent、AI 全栈云等产品，助力企业更快落地应用。

以扣子专业版为例，它拥有丰富的AI交互形态，Chatbot之外，还可以直接在扣子上闭环实现具有AI能力的小程序、网页等应用形态，支持接入各类硬件生态，更包含海量精品模板，覆盖智能客服、内容营销、聊天陪伴等业务场景，企业可一键复制使用，门槛极低。

与此类似，作为火山引擎推出的一款企业专属AI应用创新平台，HiAgent发布了100种行业“样板间”，企业客户可以一键复刻，使用模板开发属于自己的应用。

成本更低，门槛更低，大模型进入“价值创造阶段”便水到渠成。据了解，豆包大模型已经在消费、教育、电商、旅游、金融、医疗、汽车等领域落地，不断拓展AI应用的场景和边界。

以消费行业龙头飞鹤为例，和火山引擎合作，飞鹤搭建了智能问答机器人，完善了知识库，打造出“鹤小飞”企业形象，用户体验和业务管理效率跃升。数据显示，销售预测、供应链物流预测准确率提高85%，消费者问答场景响应率提升100%，消费者问答场景准确率提升95%。

在智能终端行业，获得火山引擎助力后，OPPO推出四个 AI 智能体，在新发布的OPPO Find X8手机中，豆包大模型显著提升了其用户的使用体验；小米旗下的“小爱同学”也运用豆包大模型提升自身能力，既精准把握用户需求，又快速响应、全面满足。

企业能用得起、用得好，带来实实在在的价值，豆包大模型因此成为各行业头部公司和成长型公司的心水之选。

当然，这只是开始，当算力价格不断降低，AI技术更加普惠，大模型在各行各业的应用将从拓展边界逐渐变成“无界”，产生更多反馈，激活更多创新，B端、C端共享AI繁荣，全民AI时代将照进现实。

豆包领跑行业背后：与行业一起炼成最优解

除了豆包视觉理解模型，发布会上，豆包3D生成模型也首度亮相。该模型与火山引擎数字孪生平台veOmniverse结合使用，支持文生3D、图生3D及多模态生成，1分钟精准生成高保真高质量3D资产，是一套支持 AIGC 创作的物理世界仿真模拟器。

与此同时，豆包大模型多款产品升级发布：豆包通用模型pro全面对齐GPT-4o，使用价格仅为后者的八分之一；音乐模型从生成60秒的简单结构，升级到生成3分钟的完整作品，而用户只需要简单的描述或上传一张图片；文生图模型2.1版本，在业界首次实现精准生成汉字和一句话P图的产品化能力，该模型已接入即梦AI和豆包App。

这些模型的发布和升级，使“豆包大模型家族”拥有领先而最全面的能力，加上广泛的落地应用，豆包大模型得以在行业中强势领跑。

从C端看，截至12月中旬，豆包通用模型的日均tokens使用量已超过4万亿，较七个月前首次发布时增长了33倍之多。特别是在多模态方面，截至今年9月，豆包的日均生成图片量已经达到5000万张。这些数据，力证豆包大模型能力之强。