在大语言模型领域的竞争日趋激烈之际,字节跳动将战火延续到了多模态大模型领域,以极低的价格和高性能的产品,推动AI技术的普惠和应用发展。
近日,在字节跳动旗下火山引擎Force大会上,字节跳动正式发布了豆包视觉理解模型,标志着企业在多模态大模型领域的技术与产品进展。
产品逻辑上,豆包视觉理解模型视觉内容识别能力、理解和推理能力、视觉描述和创作能力、多模态输入支持等特点。同时以其极具性价比的优势,为企业提供强多模态大模型能力。具体表现为千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,这无疑将视觉理解模型带入了“厘时代”。
火山引擎总裁谭待在接受第一财经记者采访时表示,行业内的视觉模型之前未能很好地满足用户需求,模型本身不够好用,价格又昂贵。字节跳动此次推出的视觉模型,旨在一次性解决这些问题,就像当初推出的语言模型一样——推出一个足够好的模型,并将价格一次性做到位,让更多人使用起来,从而获得更多反馈和创新。谭待强调,这是非常重要的一步。
图:火山引擎总裁谭待
低价策略引领多模态领域
豆包视觉理解模型的发布,不仅代表了字节跳动在多模态大模型领域的技术突破,也意味着公司正式公开其在该领域的技术与产品进展。
在字节跳动内部看来,视觉理解是大模型的眼睛,能够拓展人类与大模型的交互形式和应用场景,促进AI的应用创新和落地。豆包视觉理解模型具备业界领先的内容识别能力,包括图像知识、动作情绪、位置状态、中国传统文化、文字信息等,对图表、数学、逻辑、代码等内容的理解和推理能力,以及更细腻的视觉描述能力,包括细节描述、指令遵循、多种文体创作等。
借助火山算力基础与字节跳动的流量大盘,豆包视觉模块可以通过更低成本、更低门槛的多模态交互,在教育、电商、旅游、门店管理、金融、医疗等领域极大地拓展AI应用的场景和边界,在各行业加速推动大模型的落地。
产品端方面,豆包视觉理解模型已经接入豆包App和PC端产品。豆包战略研究负责人周昊表示:“豆包一直在努力,让用户的输入更快更方便”。为此,豆包产品非常注重多模态的输入和打磨,包括语音、视觉等能力,这些模型都已通过火山引擎开放给企业客户。
目前行业内已有的多模态模型包括OpenAI GPT-4V、OpenAI DALL-E 3、Google Gemini、Meta ImageBind、Anthropic Claude 3.5 Sonnet、GLM-4V-Flash等。对于目前多模态模型领域的格局现状,谭待表示,先让大家用起来是最重要的事,局部战争当然存在,但并不是关键的核心。企业产品的关键在于能否将技术做好、将成本做低、将方案落地应用,真正让企业与用户用起来。
豆包大模型发布之后,谭待表示,最直观的反馈就是用户调用量的提升。数据显示,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。大模型应用正在向各行各业加速渗透。目前,在行业垂类场景,豆包大模型获得了众多企业客户青睐:最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景也有大幅增长;在终端场景,字节跳动表示,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在半年时间内增长100倍。
“AI将来一定是普惠的,我们一直也在做这个事情,包括一次性把模型成本做到位,就是希望更多的人,特别是中小企业、创业公司还有个人能用起来,用得好。”谭待表示。
除了视觉理解模型的降价,火山引擎宣布提供更高的初始流量,RPM达到了15000次,TPM达到120万,让企业和开发者用好视觉理解模型,找到更多创新场景。此外,火山引擎还发布并升级了多个其他模型。例如,豆包通用模型pro完成新版本迭代,综合任务处理能力较5月份提升32%,在推理上提升13%,在指令遵循上提升9%,在代码上提升58%,在数学上提升43%,在专业知识领域能力提升54%。大模型家族成员进一步丰富,大模型能力再次提升,进一步加速赋能AI应用落地。
多款AI产品落地多行业
此次字节跳动宣布的大模型降价动作,最先享受的是体系内的模型产品。在公布豆包视觉理解模型超低定价的同时,字节跳动官宣发布了视觉理解大模型和3D生成模型,升级了通用模型pro、文生图模型、音乐模型等。其中视觉理解大模型,具备更强的内容识别能力、视觉描述能力,预计可以应用于教育、电商营销、旅游等场景。
升级的通用模型pro作为豆包大模型家族的大语言模型,模型综合能力较5月首次发布时提升了32%,专业能力较首次发布时提升了54%,数学能力较首次发布时提升了43%,多个指标已经与GPT4O对齐,部分复杂场景还有所超越,但豆包基础模型pro的使用价格只有GPT4O的1/8。此外,升级的文生图模型实现了一键P图和一键海报等实用功能。豆包大模型能力的持续优化,正在赋能企业生产力的提升。
火山引擎宣布升级火山方舟、扣子和HiAgent三款平台产品,帮助企业构建好自身的AI能力中心,高效开发AI应用。其中,火山方舟发布了大模型记忆方案,并推出prefix cache和session cache API,降低延迟和成本。火山方舟还带来全域AI搜索,具备场景化搜索推荐一体化、企业私域信息整合等服务。
字节跳动的“火山方舟”(VolcanoArk)是火山引擎旗下的大模型服务平台,提供模型训练、推理、评测、精调等全方位的平台服务(MaaS,即Model-as-a-Service)。火山方舟旨在为企业级AI应用落地提供支持,通过稳定可靠的安全互信方案,保障模型提供方的模型安全与模型使用者的信息安全,加速大模型能力渗透到千行百业,助力模型提供方和使用者实现商业新增长。
采访中,谭待表示,火山在工程技术方面进行了非常多的优化,如通过混合调度提升算力效率、推理支持PD分离等。团队对MaaS平台火山方舟非常重视,为其储备的算力是足够的,因此火山有信心大规模、低价格、高吞吐地去承接业界服务。
经过一年试水,豆包大模型在金融行业逐渐落地,智能体作为连接模型和应用的“中介”被普遍认为是一个重要方向。目前,火山引擎凭借扣子专业版和Hiagent两大智能体工具,加上豆包App等生态,支撑了华泰证券、国信证券、招商银行等典型客户的大模型落地,也支持了银行、券商、消费金融等十余家客户的智能体创新探索,如“华泰股市助手”10月底已在豆包APP及扣子上线,截至目前对话人数已超7.5万人;招商银行是业内第一家把智能体放入豆包App的金融机构;国信证券也已完成智能体平台建设。
“提效”是目前客户群体的主要诉求,据官方数据,豆包大模型信息处理领域的调用量较发布时增长了39倍,客服与销售领域的调用量增长了16倍,硬件助手、AI工具场景分别增长了13倍和9倍。火山引擎方面大会上表示,豆包大模型多模态的能力正在快速提升,其语音输入功能利用其速度优势,大幅提升了输入效率,而且能够导入多种语音信号,识别不同语言方言和口音。同时,为推动豆包应用的开发,火山引擎宣布了对火山方舟、扣子和HiAgent三款平台产品的升级,以帮助企业更好地构建自身的AI能力中心,高效开发AI应用。
字节跳动在大模型领域的技术投入和算力支持是其产品能够快速落地的关键。火山引擎作为字节跳动的企业级智能科技服务平台,提供了强大的技术支持和算力保障。火山引擎通过混合调度提升算力效率、推理支持PD分离等技术优化,确保了大模型的高效运行和应用。
火山引擎的算力基础不仅支持了豆包大模型的运行,还为火山方舟等平台产品提供了稳定的算力支持。火山方舟作为MaaS平台,集成了多家AI科技公司及科研院所的大模型,提供了模型训练、推理、评测、精调等全方位的平台服务。在算力支持方面,火山引擎通过技术创新,实现了算力的高效利用。例如,通过混合调度技术,火山引擎能够提升算力效率,降低延迟和成本。此外,火山引擎还推出了prefix cache和session cache API,进一步降低延迟和成本,提升用户体验。
谭待表示,To B领域不存在先烧钱获取市场、再靠其他业务收费的商业模式。如果厂商不进行成本优化、只是模仿低价策略,这种路径将不可持续。
热门跟贴