作者 | 邓咏仪

编辑 | 苏建勋

本周可以说是大模型领域的又一次激战——前有谷歌和OpenAI的相互狙击,国内也不甘落后。

一直低调的字节AI,全面出击。5月15日,火山引擎在每年例行的“原动力大会”上,从基座模型到上层应用,都抛出了一系列更新。

打开网易新闻 查看精彩图片

△来源:火山引擎

首先,品牌名称统一了。原来的“云雀”大模型,如今改名为“豆包大模型”。火山引擎甚至搬出了“豆包大模型家族”的名头,包括基座模型在内,豆包一口气推出了共9款模型。

和友商多尺寸、全性能的“大而全”路线,豆包的基座模型思路更简炼一些。

其中,豆包主力模型分为通用模型pro和lite两个版本,分别适配不同用户的使用需求。

除此之外,还有7款功能性模型,涵盖角色扮演、语音识别、语音合成、声音复刻、文生图等方面。

打开网易新闻 查看精彩图片

△来源:Dreamina

除了基础模型,火山引擎还放出了这一年的成绩单:

目前,豆包大模型日均处理1200亿Tokens文本,生成3000万张图片。

“豆包App”是字节跳动重点投入的大模型应用,同样基于豆包大模型构建,这是国内AI应用的“顶流”。火山引擎表示,在苹果App Store和各大安卓应用市场,豆包App的下载量在AIGC类应用中排名第一。

据字节跳动产品和战略副总裁朱骏透露,豆包上已有超过800万个智能体被创建,月度活跃用户达到2600万。

此外,字节也不改“App工厂”的本色。过去一年里,除了主打的豆包App外,字节跳动还基于大模型,推出了互动娱乐应用“猫箱”,以及星绘、即梦等AI创作工具。

打开网易新闻 查看精彩图片

△来源:火山引擎

基座模型的“地板价”,还能再降

在发布会中,火山引擎可以说是胸有成竹。这体现在,在展示豆包模型家族的时候,火山引擎甚至没有提及多少参数、性能相关的信息,而是一上来就亮出价格:0.0008元/千Tokens。

这可以说是一个“地板价”。

以OpenAI发布的全新模型GPT-4o为例,GPT-4o的价格已经来到输入5美元 / 百万 Token(约为0.035 元/千tokens),输出15美元 / 百万 Tokens(0.1元/千tokens)。

而国内的大模型厂商,均价在0.12元/千Tokens左右——豆包大模型的价格,比上述的模型都要便宜很多。

“大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。据火山引擎负责人谭待表示,按现在豆包大模型在企业市场的定价,0.8厘就能处理1500多个汉字的价格,比行业便宜99.3%。

打开网易新闻 查看精彩图片

△直接点名友商价格 来源:火山引擎

他还强调,这次降价是豆包的主力模型降价,而不是用小模型降价来混淆视听。以豆包通用模型pro-32k版为例,模型推理输入价格仅为0.0008元/千Tokens。市面上,同规格模型的定价一般为0.12元/千Tokens,是豆包模型价格的150倍。

这也意味着,大模型行业从“以分计价”到“以厘计价”的时代。

为何能够做到大幅降价?“一个是我们能够做到,第二是我们需要这么做。”谭待表示。

一个原因在于,从ChatGPT爆发到现在,如今基座大模型已经进入了稳定迭代的阶段。无论是在模型训练和推理使用上,都还有长足的优化空间,成本下降得很快。

就以火山引擎为例,谭待表示,在训练上,豆包的模型结构做了不少优化调整;而在模型工程上,比如以前使用的是单机推理方法,如今豆包采用的是分布式推理——可以理解为,不同的AI计算需求可以用底层的不同芯片来进行处理,从而让算力效率大幅提升。

在会后的采访中,谭待表示,0.0008元/千Tokens“并不是一个意在‘打价格战’的价格”。作为字节跳动To B的重要的载体,火山的定价会遵循正常的商业逻辑,亏钱补贴,并不能换来长久的商业合作。

现在,AI应用市场仍在发展早期,之前的大模型使用价格还是太贵,明显制约了应用的发展,这也是模型厂商降价的原因所在。

就以国内市场情况来说,字节的豆包App已经是第一梯队的AI应用,但2600万月度活跃用户,也还远未达到“杀手级应用”的级别。“大模型领域远未到竞争激烈的阶段,大家都很早期。”谭待说。

QuestMobile数据显示,截至今年3月,基于大模型的AIGC行业用户量为7380万,尽管同比增长了8倍,也仅占移动互联网用户量的6%。

从其他玩家的动作来看,阿里云和腾讯云在2024年Q1都宣布了一波大降价,但主要针对的还是CPU为主的通用算力,AI相关的GPU算力价格降价不多。

相较之下,字节并不是国内唯一打“降价牌”的厂商,但却是对AI算力降价强调最多的。这其中的潜在原因是:作为云计算市场的后起之秀,字节对AI所带动的增量需求也更加渴求。

此时,选择用低价来降低用户使用AI的门槛,覆盖更多市场,也是情理之中。

而可以预见的是,在今年,国内基座大模型的降价趋势还会持续。推理侧成本还有巨大的下降空间,国产模型厂商其实有不少技术储备。

比如,近期一个值得关注的消息是,国内私募量化巨头“幻方量化”发布的Deepseek大模型第二代,就基于构架创新大幅降低推理成本,把API定价直接打到了竞品的1/10甚至1/100,每百万token的输入仅需1元。

“豆包”更像人了,To B落地加速

不约而同地,今年大厂所发布的To C应用,已经越来越像“人”。这背后透露的信息是:AI助理,正在以比我们想象中更快的速度向我们走来。

本周的几场大厂发布会都是如此。先是OpenAI发布的GPT-4o,对话已经几乎没有延时——用户可以随时打断、随时接话,如同电影《Her》中的超级人工智能,它甚至能通过“看”和“听”,判断用户的情绪、状态,给出回应。

而在昨天的谷歌发布会上,Project Astra作为谷歌首个AI Agent产品,可以基于手机摄像头、实时语音做交互,还拥有“记忆”,意味着和人类的交互能够更加深度。

在火山引擎这场发布会上,豆包App所释出的信息,也多有共通之处。

字节产品和战略副总裁朱骏就表示,“我们为豆包这类产品定义了三个产品设计原则,第一条就是“拟人化”。为了让产品更像人,豆包团队在大模型的ASR和超自然的TTS音色上下了不少功夫,尽量做到类似和真人对话的感觉。

他以生活场景举例,在“五一”假期,豆包就真的像朋友一样,陪伴他去旅行——在旅途中,豆包不仅根据恐龙博物馆、自贡井盐的形成提供了详细讲解。在饭桌上,被问到“怎么剥皮皮虾”,豆包不仅回答了问题,还同时推过来一个抖音视频——让他直观地看到了剥皮皮虾的技巧。

不过,就如今国产模型的进度来看,如今展现的能力,只是AI智能体的第一步。

“大模型的能力目前很多维度上让人惊叹,但也在很多维度上有缺陷,同时又在快速演进,每隔三个月、半年都会发生很大的变化。”朱骏表示:“去年,去年上半年大模型回答问题时10道题可能错6道,但到了今年,幻觉就已经大幅降低,再配合搜索引擎做知识增强,已经达到可用状态,当然,后面提升的空间还非常非常大。”

如今应用落地更多的,还在B端。

随着“豆包模型家族”的亮相,现在的字节的AI版图已经颇具雏形:火山引擎负责基座模型、开发者生态的构建。原来的To B服务,也是如今输出AI服务的抓手。同时,这个基座也支撑着字节内部的众多AI应用生长。

从原有的To B服务来看,火山引擎在大模型应用上的业务思路,大致可以分为三块:

首先是确定性高、行业天花板也高的场景,比如手机、汽车,这部分火山会和行业合作伙伴一起共创。

其次,对于一些不是特别清晰的创新方向,火山会作为服务方,支持创业团队来做。

最后,开发者是火山尤为看重的板块,火山不仅提供成套的AI开发工具,还提供了高自由度的模型开发模式,以及垂直场景里需要的功能,比如语音功能的高互动、低延迟等等,字节都有优势

在今天的发布会上,火山引擎就分别成立了手机、汽车两个生态联盟。汽车领域的合作伙伴包括吉利汽车、长城汽车、捷途汽车、赛力斯、智己汽车等20余家厂商。

而在手机领域,火山引擎的推进速度更快。大模型服务已经悄悄进驻到不少合作伙伴的产品当中,比如OPPO小布助手、荣耀智慧办公智能助手、小米“小爱同学”,以及华硕笔记本电脑的豆叮AI助手等等。

以Oppo的小布助手为例,在和豆包大模型合作之后,通过业务数据精调+Prompt,Oppo构建了多个垂域大模型,真正让模拟面试、英语教学、情感陪聊等场景达到可用状态。

在更广泛的企业场景里,火山的大模型服务,已经迅速让AI从POC(内部试点)阶段,走到真实的生产系统里。

一个典型例子是智能驾驶、智能座舱的交互。传统的自动驾驶方案里,人类和汽车的交互还是会有延迟、听不准的情况出现。

但在汽车搭载了豆包lite大模型后,汽车厂商可以在低延迟下实现对话,支持闲聊、搜索、娱乐、导航、车控等多个座舱智能助手场景,效果要比传统语音处理高达50%以上。

打开网易新闻 查看精彩图片

△搭载大模型的车机系统,询问附近美食,会自动推送相应的抖音视频 来源:作者拍摄

而在字节内部,在过去一年,字节已经有50多个业务大量使用豆包进行AI创新,包括抖音、头条、番茄小说等多个产品。

接下来,火山引擎还会继续拓展企业端的场景。面向开发者的AI开发平台“扣子”,在今日就推出了企业专业版,企业版的扣子会提供API、事件推送、甚至纯代码的接入方式,让开发者能够将AI Bot部署在飞书等办公平台上。

在企业端,现在招商银行、海底捞火锅、超级猩猩、猎聘等企业,已在扣子上搭建了智能体。

超级猩猩的智能体,就是用无代码的方式,开发了一个约课助手“猩同学的小同桌”,给用户提供个性的健身建议,并且帮助用户约课。

打开网易新闻 查看精彩图片

△“猩同学的小同桌” 来源:火山引擎

在会议的展台上,字节也预告了未来的一些新功能——比如,在会场展台就运行着边缘云的Bot,当AI Bot和场馆中的摄像头联动,就可以告诉观众,会场中有多少人,以及哪个展台的热度最高。而很快,AI大模型也可以接入到硬件里,比如机器人等各类智能设备。