机器之心原创

作者:张倩

「现在每家公司都是 AI 公司,但引入 AI 之后,利润真的能提高吗?」

在针对 Transformer 作者、Cohere CEO Aidan Gomez 的一次采访中,播客主持人 Harry Stebbings 问出了这样一个问题。

打开网易新闻 查看精彩图片

Stebbings 提到,现在很多公司都在往产品中引入 AI,比如提供客户支持的 Zendesk、笔记记录软件 Notion、提供设计服务的 Canva…… 但是选择维持产品价格不变的 Canva 等公司却担心,自己的利润不升反降,因为他们现在要为每个查询付出更高的成本。Canva 甚至在最近的节目中直言不讳地表示,他们的利润正在压缩。

对于这一问题,Gomez 提到,其实企业不必过于担心,因为 AI 的成本正在迅速下降,在提升客户体验的同时维持产品价格不变会是一个不错的选择,有利于扩大企业的用户基数。

如果观察一下国内外的 AI 市场,我们会发现 Aidan Gomez 的预测是有依据的。很多 AI 公司,尤其是技术实力雄厚的大厂,都在通过技术升级来降低模型成本、提高模型可用性,从而让企业以更低的门槛使用 AI。

在国内,腾讯混元大模型走的就是这样一条路线。这个从亮相时就强调「实用」标签的大模型一直在持续进化。在刚刚过去的腾讯全球数字生态大会上,我们不仅看到了训练、推理效率提升 1 倍多,但推理成本降低 50% 的新模型混元 Turbo,还看到了升级版的大模型知识引擎、图像创作引擎、视频创作引擎等大模型产品。

对于那些还在怀疑自己是否有能力引入 AI,以及引入 AI 之后能否保住利润的企业来说,这些高性价比的模型以及低门槛、易用的大模型产品或许可以提供一个答案。

距 GPT-4o 仅 1.29%

混元 Turbo 拿下国内第一,价格还降了一半

效率提升,但成本不升反降的混元 Turbo 听上去似乎很有吸引力,但模型质量怎么样呢?第三方中文大模型基准测评机构 SuperCLUE 发布的《中文大模型基准测评 2024 年 8 月报告》提供了一个客观的参考。

这个报告聚焦通用能力测评,测评方案由理科、文科和 Hard 三大维度构成。理科能力包括计算、逻辑推理和代码能力;文科任务覆盖知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用;Hard 任务则侧重于精确指令遵循以及复杂任务高阶推理。

报告显示,混元 Turbo 在理科、文科均居于第一名,在 Hard 任务上表现也相当出色,是国内唯一超过 70 分的大模型,仅与 ChatGPT-4o 有微小差距。

打开网易新闻 查看精彩图片

腾讯混元在 8 项核心任务上排名国内第一。

更重要的是,在这个模型发布后,国内 TOP 1 大模型在中文领域的通用能力与国外领先模型的差距缩小到了 1.29%(总分相差 1 分左右)。而去年 5 月,这一数字还高达 30.12%。

打开网易新闻 查看精彩图片

所以,单从性能上来看,混元 Turbo 是可以满足很多企业对模型能力的高要求的。

那训练、推理效率提升超过 1 倍,推理部署成本下降 50% 是怎么做到的呢?简单总结就是:技术创新

混元技术团队介绍说,相较于上一代混元 Pro MoE 大模型,Turbo 模型在数据优化之外自研了全新的万亿级分层异构 MoE 结构,在模型不同层采用不同的专家个数和不同的激活参数量,最终用更多的专家数、更少的激活参数量实现了更好的效果。

打开网易新闻 查看精彩图片

混元 Turbo 推理速度对比前代有明显提升。

这样的技术创新创造了更多的让利空间,使得混元 Turbo 的定价(输入和输出价格)仅为混元 Pro 版的一半。目前,该模型已经在腾讯云上线,企业和开发者可以通过 API 接入。

此外,腾讯混元的技术团队还在研究中发现,其实 MoE 架构不只适用于语言模型,用来构建多模态大模型也是最佳选择,因为它能够更好地兼容更多模态和任务,确保不同模态和任务之间是互相促进而非竞争的关系。

按照这个思路,他们构建了国内首个基于 MoE 架构的多模态大模型,而且以简单、合理、可规模化的原则来设计这个模型。比如,该模型支持原生任意分辨率,最高可支持的分辨率达到 7K,而不是采用业界主流的固定分辨率或切子图方法。此外,它采用的简单 MLP 适配器也能比主流的 Q-former 适配器损失更少的信息。这些实用的升级无疑是在为进入产业应用场景做好充分的准备。

打开网易新闻 查看精彩图片

腾讯混元多模态大模型是业内首个支持超过 7K 分辨率和任意长宽比图片理解的多模态模型。

模型之外,产品实用性也升级到 Next Level

模型本身不是完整的产品,要搭很多能力。用户要用得爽,不是简单的『模型吐东西』。」在前段时间的一次采访中,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生分享了这样一个观点。

基于这种认知,腾讯云其实不止打造了腾讯混元系列大模型,还围绕这个大模型打磨了一系列精调工具链(基于 TI 平台)和开箱即用的产品,包括大模型知识引擎、图像创作引擎、视频创作引擎等。

打开网易新闻 查看精彩图片

这些工具链、产品看似分散,其实组合到一起能解决很多问题。

就拿要求最苛刻的医疗场景来说。当下,很多人吐槽医生人心冷漠 —— 病人背着大包小包、坐了十几个小时火车去看病,结果只能跟医生沟通五分钟,失落的心情可想而知。

但其实,医生也很无奈,尤其是负责重症病人的医生。因为他们每天要花大量时间去理清多维度、连续变化的患者数据,还要书写病历和病程记录,分不出时间和精力去精细化地关怀每个病人。

打开网易新闻 查看精彩图片

为了解决这一问题,为重症医疗提供器械和解决方案的迈瑞医疗和腾讯一起打造了首个重症大模型瑞智 GPT,并基于该模型开发了「病历撰写、患者个体化病情查询、重症知识检索」三个面向重症科室的大模型智能应用。

这些应用可以帮助医生灵活查询患者的病情变化、自动撰写病历,还能为低年资医生提供高年资医生的重症知识和诊疗建议,极大地降低了医生解读大量连续变化的临床数据的难度,缓解了撰写病历和病程记录的工作负担。

这个解决方案要打通医院的病历、生理参数、医学影像、检验、护理、医嘱等多个数据接口,还要把这些数据充分利用起来,因此涉及腾讯为行业打造的多个工具和产品。

比如数据准备环节要用到数据清洗、标注等多项 TI 平台上的能力,病历的识别、数据的检索离不开知识引擎中的 OCR 识别、语义切分、RAG、复杂表格处理等子能力(关于知识引擎,请参见《大模型进入「实用」时代!腾讯助力「销冠」量产,5 分钟创建智能助手》)。

在生态大会上,这些工具链、产品也迎来了新一轮升级,在「实用」维度上又上了一个台阶。

其中,TI 平台上线了多模态数据标注,支持文生文、图生文、图文改写、图文混合问答等全部细分任务类型。高质量的训练数据是精调出一个可落地大模型的前提条件。TI 平台的多模态数据集管理和数据标注能力,可大幅提升数据准备效率,提升最终效果。此外,针对 OCR 和工业质检等相对成熟且使用广泛的垂直场景,TI 平台也进行了升级,比如可智能反馈出模糊、反光等场景下的误识别,可实现超复杂场景「0 漏检」等。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

TI 平台的多模态数据标注功能。

知识引擎在用户需求识别与理解、企业知识处理等能力上都有很大的升级。比如,技术团队综合运用向量检索、摘要检索、text2sql 多种技术手段,显著提升了复杂大表的检索及问答准确率。同时,他们升级了多模态知识解析、检索、阅读理解能力,实现读懂文中的「数据图」、「自然场景图」、「图文关系」。

打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/XjhpVG1hxL4imxcIQooyog

知识引擎的复杂大表检索及问答准确率显著提升。

图像创作引擎的图像风格化通过算法升级大幅降低了人脸瑕疵;AI 写真实现了免训练技术突破,支持输入一张照片,一键生成高清写真艺术照,整体出图耗时缩短 75%;商品背景生成的背景画面真实度、商品分割细腻度、实物融合自然度大幅提升;模特换装场景采用 3D 先验方案,提升了重建人像效果。

打开网易新闻 查看精彩图片

图像创作引擎生成的风格化图像。

打开网易新闻 查看精彩图片

图像创作引擎生成的高清 AI 写真照。

打开网易新闻 查看精彩图片

图像创作引擎生成的商品背景图,实现了商品在不同场景的逼真效果展示。

打开网易新闻 查看精彩图片

图像创作引擎生成的模特换装图,高度保持了模特脸部和手部的细节,同时精确地将服装版型与模特身体特征对齐,确保换装后的效果逼真自然,能直接用于电商等生产场景。

视频创作引擎新增了图片跳舞、图片唱演和视频转译等能力。其中,在图片跳舞中,单段舞蹈的生成时间从 10 分钟下降至 1 分钟级别,同时支持转身、侧身等复杂舞蹈动作。图片唱演可以支持一张人像图片生成一段唱演视频。视频转译支持 15 + 小语种,覆盖主流外语翻译,可应用于视频本地化、跨境电商等场景。

打开网易新闻 查看精彩图片

人物跳舞自然度的提升得益于技术团队基于 3D 身体重建技术进一步优化了算法,画面的真实度和自然度也有了明显提升。

打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/XjhpVG1hxL4imxcIQooyog

唱演视频生成的人物的面部表情和情绪演绎都更加自然灵动。

打开网易新闻 查看精彩图片

视频链接:https://mp.weixin.qq.com/s/XjhpVG1hxL4imxcIQooyog

转译后的视频能够保留说话人的音色特征,同时实现说话人口型与目标语种一致的视听效果。

引入最强 AI,做最有用的产品

回到文章开头的问题 —— 企业引入 AI 真的是一个具有经济效益的选择吗?在生态大会现场,易车研发平台部总经理孙佑时分享了他们的经验。

就拿看车这个常见的场景来说。以往,用户线上看车基本就是打开图片或录制好的视频,被动听里面的讲解,缺乏现场看车的沉浸感。为了解决这个问题,易车和腾讯合作,基于内置在 TI 平台的大模型,使用大模型精调工具链,精调训练出「易车大模型」。这个大模型能为用户提供 3D 看车、AI 解读、AI 对比问答和 AI 搜索等服务,增强了用户获取信息的效率。据统计,这些功能上线后,用户的停留时长有了 大幅提升

此外,我们看到,已经引入 AI 的企业也已经在下一个维度开卷。比如前文提到的 Zendesk 改变了传统的 SaaS 收费模式,提出只有在聊天机器人独立完成任务、不需要员工介入时,才会向企业收费。相信这会给还未引入 AI 或者引入的 AI 不够强的同行造成一些压力。

正如 Gomez 所说,如果你想扩大用户群体,那就为他们提供目前最有用的产品。一旦用户体验提升,利润自然就会随之而来。更何况,AI 的成本确实在下降,能做的事情也越来越多。

而且,除了经济效益,引入 AI 所带来的社会价值是短期内难以衡量的,正如迈瑞医疗所做的事情一样。

当然,这件事做起来没有那么容易,腾讯也是处在摸索阶段。他们深知,「要搭建一套有用的智能系统,大模型可能只是其中一个模块。」所以他们向着「开箱即用」的方向打磨大模型相关产品,致力于让企业以最小的必要输入来获得最佳的大模型应用实践。与此同时,他们也在从内部产品和外部客户业务中努力找场景,让技术和产品解决真问题。

大模型的未来也是一样,技术仍然在持续迭代,而价值的产生一定是在真实的落地场景中。