先讲个WPS海外版大模型选型的故事。

据金山办公全球业务副总经理张宁介绍,金山办公2023年初宣布 All in AI。WPS海外版在AI应用方面,确定了两个方向,一是拼写检查,一是自动生成PPT。

AI应用方向、应用场景确定了,接下来非常重要的就是大模型的选择。

一开始,团队选择了在参数、长文本处理等各个技术特性方面都表现非常优秀的大模型,但从应用效果来看,却非常不好。例如,没有出错的、不该删除的语句,却被“拼写检查”认为是错的。

接下来,团队又开始针对各个知名或重要大模型,进行各种测试,每个模型和测试都要花去不少时间。

直到他们遇到亚马逊云科技中国区行业集群总经理沈涛。

他的核心观点是:当下,各类基础模型层出不穷,其中并不存在最好或最差的基础模型,最重要的是企业需要找到最匹配自身业务场景的基础模型。

亚马逊云科技正致力于不断降低生成式AI技术的应用门槛,并推出了基于全托管的生成式AI服务Amazon Bedrock。企业可以通过API访问从文本到图像的一系列强大的基础模型,实现模型的快速选择与部署,加速生成式AI应用落地,推动业务创新与商业变革。

WPS海外版AI应用开发团队开始采用亚马逊云科技的MaaS服务——Amazon Bedrock。一下子使大模型的测试和选择变得非常容易。

WPS Office AI应用大模型的选择过程,是现在很多AI应用开发过程经常遇到的典型问题。它的选型过程,其实反映出了当前AI应用开发商在大模型选择时存在的几个重大误区。

AI应用的大模型误区

当前AI应用正在不断涌现。但海比研究院调查发现,各种AI应用在选择自己的大模型时,普遍存在三个误区。

第一,按大模型的评测排名来选,得分越高、排名越前越好。或者,看哪个模型的参数越大、训练数据量越多、文本窗口越长、多模型能力越好,版本越新,就觉得哪个好。

但WPS的实践表明,用这种方式选出来,往往和自己的应用匹配度并不理想,不能满足自己的应用场景。

第二,直接和重要的大模型厂商一个一个分别进行接触,通过其官方渠道进行API调用、测试。

WPS的实践也表明,用这种方式进行大模型选型,其选择成本非常高,花的时间非常多,人力投入非常高,测试成本也不低。

最重要的是,时间成本非常高。

第三,为大模型的不可能三角所困。大模型存在不可能三角,即通用性、可靠性和经济性,一个大模型只能同时占有两个。

很多AI应用开发者面对这种情况,开始陷入纠结,不知道到底该怎么决策。

海比研究院认为,产生这这些误区的根本原因在于,很多AI应用的开发者,不清楚以下大模型选择的两大要素:

第一, AI应用的大模型选择框架,应该考虑哪些重要方面?

第二, 大模型的选择实施路径,是从每个大模型厂商直接进行测试比较,还是从MaaS平台进行测试比较?

AI应用的大模型选择框架

大模型是一个战略性、基础性的数智化产品,它的选型是需要综合考虑多方要素,而不能简单地唯参数论、唯产品论。

海比研究院在中国软件行业协会、清华大学、北京大学、国家应用软件产品质量监督检验检测中心等的支持与指导下,推出了“数智产品六力选型框架”。

对于大模型的选择,海比研究院“数智产品六力选型框架”同样适应。

数智产品六力选型框架

打开网易新闻 查看精彩图片

资料来源:海比研究院

对于任何AI应用的研发,在选择大模型时,要综合考虑大模型厂商的品牌能力、产品能力、技术能力、服务能力、安全能力、价值能力。

品牌能力主要考察大模型厂商的公司实力。最重要的是考虑大模型厂商的可持续性,能否陪伴自己健康持续发展。如果自己选择的大模型厂商中途倒闭了、产品不更新了,都会对自己的AI应用产生巨大影响。

现在国内大模型市场是“百模大战”,未来肯定会有很多厂商的大模型将退出市场。因此,大模型品牌的选择就尤为重要。

产品能力主要考察大模型产品本身的符合度、性能和体验。评估大模型的产品,不能唯技术论、唯排名论,一定要注意和自己AI应用的应用场景相匹配。排名高的大模型不一定适合自己的应用场景。每个大模型厂商都有自己的核心能力,这个核心能力往往和应用场景关系非常紧密。

就像前面提到的WPS的拼写检查,一些排名靠前、技术上很惊艳的大模型就不适合。例如,在文档中,经常会有一些英文或其他语言原文的引用,但原文可能存在一些表达不够完善或语病方面的问题。很多大模型就会把这种情况当作“问题”替换或处理掉,但这是不对的。

技术能力主要考察大模型厂商在技术上的成熟度,同时对先进、前沿技术的跟进情况。既要在技术保证大模型产品的稳定性、可靠性,要有支撑商业应用的足够的成熟度;又要保证大模型厂商能随时跟上最新的技术迭代,不会被新技术的迭代所淘汰。

服务能力主要考察大模型厂商在AI应用开发时能否提供深度的技术支持。大模型和AI应用对接时,往往需要做很多优化、精调等各方面的工作,如果没有大模型厂商的深度支持,可能会造成很多不必要的损失。

安全能力主要考察大模型厂商在AI应用时的数据安全。AI应用往往会涉及到开发者的很多数据资产,以及使用者的隐私信息,大模型厂商需要这些方面给予严格的保护。同时,AI应用的合规性要求也越来越高,大模型厂商的合规能力也要高度重视。

价值能力主要考察大模型厂商的标杆用户,适合的目标客户,以及投入产出。每个厂商都有自己的目标客户群,也会涉及到不同的投入成本。

AI应用开发者可以通过海比研究院“数智产品六力选型框架”对大模型产品和厂商进行深度比较。要说明一点的是,每个能力的权重,可以根据自身的实际情况进行调整。

例如,当前的AI应用最看重产品快速实现,则可以把产品能力的权重放大,重点考察大模型产品本身和AI应用场景的匹配度。

AI应用的大模型选择路径

在当前阶段,大模型的选择路径也AI应用开发商需要注意的问题。

海比研究院调查发现,当前大模型的选择主要存在两种路径。第一,对市场上主流的大模型厂商,每个大模型厂商直接测试、评估,最终进行决策;第二,找类似亚马逊云科技Amazon Bedrock这样的MaaS(模型即服务)平台,在平台上一站式对各种大模型进行测试、评估。

海比研究院认为,在当前阶段,从MaaS平台进行大模型的选择是比较好的路径。

因为这种路径能比较好地解决大模型选择的三大挑战:第一是如何实现生成式AI的快速部署;第二是如何降低生成式AI技术的应用门槛;第三是如何确保使用生成式AI时代的数据隐私与安全性。

并且,第二种路径能为AI应用开发商大大节省大模型的选型成本,尤其是时间成本。

现在的MaaS服务基本提供了市场上的主流大模型,可以一站式地得到,不用一个一个花时间去找。并且,MaaS平台还提供了非常方便的API接口,可以快速选择和切换大模型;为AI应用的测试、精调、工程化等也提供了很多服务。这些都可以为AI应用开发商测试和评估大模型节省大量时间。