大模型那么多，该怎么选|ai|可靠性|大模型|选型

先讲个WPS海外版大模型选型的故事。

据金山办公全球业务副总经理张宁介绍，金山办公2023年初宣布 All in AI。WPS海外版在AI应用方面，确定了两个方向，一是拼写检查，一是自动生成PPT。

AI应用方向、应用场景确定了，接下来非常重要的就是大模型的选择。

一开始，团队选择了在参数、长文本处理等各个技术特性方面都表现非常优秀的大模型，但从应用效果来看，却非常不好。例如，没有出错的、不该删除的语句，却被“拼写检查”认为是错的。

接下来，团队又开始针对各个知名或重要大模型，进行各种测试，每个模型和测试都要花去不少时间。

直到他们遇到亚马逊云科技中国区行业集群总经理沈涛。

他的核心观点是：当下，各类基础模型层出不穷，其中并不存在最好或最差的基础模型，最重要的是企业需要找到最匹配自身业务场景的基础模型。

亚马逊云科技正致力于不断降低生成式AI技术的应用门槛，并推出了基于全托管的生成式AI服务Amazon Bedrock。企业可以通过API访问从文本到图像的一系列强大的基础模型，实现模型的快速选择与部署，加速生成式AI应用落地，推动业务创新与商业变革。

WPS海外版AI应用开发团队开始采用亚马逊云科技的MaaS服务——Amazon Bedrock。一下子使大模型的测试和选择变得非常容易。

WPS Office AI应用大模型的选择过程，是现在很多AI应用开发过程经常遇到的典型问题。它的选型过程，其实反映出了当前AI应用开发商在大模型选择时存在的几个重大误区。

AI应用的大模型误区

当前AI应用正在不断涌现。但海比研究院调查发现，各种AI应用在选择自己的大模型时，普遍存在三个误区。

第一，按大模型的评测排名来选，得分越高、排名越前越好。或者，看哪个模型的参数越大、训练数据量越多、文本窗口越长、多模型能力越好，版本越新，就觉得哪个好。

但WPS的实践表明，用这种方式选出来，往往和自己的应用匹配度并不理想，不能满足自己的应用场景。

第二，直接和重要的大模型厂商一个一个分别进行接触，通过其官方渠道进行API调用、测试。

WPS的实践也表明，用这种方式进行大模型选型，其选择成本非常高，花的时间非常多，人力投入非常高，测试成本也不低。

最重要的是，时间成本非常高。

第三，为大模型的不可能三角所困。大模型存在不可能三角，即通用性、可靠性和经济性，一个大模型只能同时占有两个。

很多AI应用开发者面对这种情况，开始陷入纠结，不知道到底该怎么决策。

海比研究院认为，产生这这些误区的根本原因在于，很多AI应用的开发者，不清楚以下大模型选择的两大要素：

第一， AI应用的大模型选择框架，应该考虑哪些重要方面？

第二，大模型的选择实施路径，是从每个大模型厂商直接进行测试比较，还是从MaaS平台进行测试比较？

AI应用的大模型选择框架

大模型是一个战略性、基础性的数智化产品，它的选型是需要综合考虑多方要素，而不能简单地唯参数论、唯产品论。

海比研究院在中国软件行业协会、清华大学、北京大学、国家应用软件产品质量监督检验检测中心等的支持与指导下，推出了“数智产品六力选型框架”。

对于大模型的选择，海比研究院“数智产品六力选型框架”同样适应。

数智产品六力选型框架

资料来源：海比研究院

对于任何AI应用的研发，在选择大模型时，要综合考虑大模型厂商的品牌能力、产品能力、技术能力、服务能力、安全能力、价值能力。

品牌能力主要考察大模型厂商的公司实力。最重要的是考虑大模型厂商的可持续性，能否陪伴自己健康持续发展。如果自己选择的大模型厂商中途倒闭了、产品不更新了，都会对自己的AI应用产生巨大影响。

现在国内大模型市场是“百模大战”，未来肯定会有很多厂商的大模型将退出市场。因此，大模型品牌的选择就尤为重要。

产品能力主要考察大模型产品本身的符合度、性能和体验。评估大模型的产品，不能唯技术论、唯排名论，一定要注意和自己AI应用的应用场景相匹配。排名高的大模型不一定适合自己的应用场景。每个大模型厂商都有自己的核心能力，这个核心能力往往和应用场景关系非常紧密。

就像前面提到的WPS的拼写检查，一些排名靠前、技术上很惊艳的大模型就不适合。例如，在文档中，经常会有一些英文或其他语言原文的引用，但原文可能存在一些表达不够完善或语病方面的问题。很多大模型就会把这种情况当作“问题”替换或处理掉，但这是不对的。

技术能力主要考察大模型厂商在技术上的成熟度，同时对先进、前沿技术的跟进情况。既要在技术保证大模型产品的稳定性、可靠性，要有支撑商业应用的足够的成熟度；又要保证大模型厂商能随时跟上最新的技术迭代，不会被新技术的迭代所淘汰。

服务能力主要考察大模型厂商在AI应用开发时能否提供深度的技术支持。大模型和AI应用对接时，往往需要做很多优化、精调等各方面的工作，如果没有大模型厂商的深度支持，可能会造成很多不必要的损失。

安全能力主要考察大模型厂商在AI应用时的数据安全。AI应用往往会涉及到开发者的很多数据资产，以及使用者的隐私信息，大模型厂商需要这些方面给予严格的保护。同时，AI应用的合规性要求也越来越高，大模型厂商的合规能力也要高度重视。

价值能力主要考察大模型厂商的标杆用户，适合的目标客户，以及投入产出。每个厂商都有自己的目标客户群，也会涉及到不同的投入成本。

AI应用开发者可以通过海比研究院“数智产品六力选型框架”对大模型产品和厂商进行深度比较。要说明一点的是，每个能力的权重，可以根据自身的实际情况进行调整。

例如，当前的AI应用最看重产品快速实现，则可以把产品能力的权重放大，重点考察大模型产品本身和AI应用场景的匹配度。

AI应用的大模型选择路径

在当前阶段，大模型的选择路径也AI应用开发商需要注意的问题。

海比研究院调查发现，当前大模型的选择主要存在两种路径。第一，对市场上主流的大模型厂商，每个大模型厂商直接测试、评估，最终进行决策；第二，找类似亚马逊云科技Amazon Bedrock这样的MaaS（模型即服务）平台，在平台上一站式对各种大模型进行测试、评估。

海比研究院认为，在当前阶段，从MaaS平台进行大模型的选择是比较好的路径。

因为这种路径能比较好地解决大模型选择的三大挑战：第一是如何实现生成式AI的快速部署；第二是如何降低生成式AI技术的应用门槛；第三是如何确保使用生成式AI时代的数据隐私与安全性。

并且，第二种路径能为AI应用开发商大大节省大模型的选型成本，尤其是时间成本。

现在的MaaS服务基本提供了市场上的主流大模型，可以一站式地得到，不用一个一个花时间去找。并且，MaaS平台还提供了非常方便的API接口，可以快速选择和切换大模型；为AI应用的测试、精调、工程化等也提供了很多服务。这些都可以为AI应用开发商测试和评估大模型节省大量时间。

大模型那么多，该怎么选

热搜

热门跟贴

热搜

热门跟贴

相关推荐

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

曝江苏一公园将长条椅焊上钢管 市民：防止干日结的在这睡

#310 女性和她们被施加的羞耻感：直面它，谈论它，挣脱它

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

吉利银河E5完成了超国标试炼，铸就10万级纯电安全新标杆

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

男子夸赞优衣库羽绒服质量好，399穿五六年依旧蓬松暖和

攻击字节大模型实习生获顶会最佳论文

商务部：原则上不予许可镓、锗等两用物项对美国出口

249 亿公里远程“刷机”成功，“旅行者 1 号”恢复和地面通信

李飞飞团队ReKep荣获CoRL-LEAP研讨会最佳论文奖，具身智能又下一城！

特斯拉 CEO 马斯克再谈激光雷达：纯视觉方案才是自动驾驶的未来

贵州毕节一处石笋“五指山”正被拆？当地回应：检测发现风险，危及农户安全

超低门槛用AI，你的企业和大模型之间只差这三大法宝

俩车在武汉街头“顶牛”互不相让 吃瓜男子：我笑死了

河南漯河建高铁发现古墓群 已发掘战国到东汉古墓200多座

私家车和武装押运车狭路相逢 女司机和对方争执

乌外交部：乌克兰不接受北约成员身份的替代方案

曝江苏一公园将长条椅焊上钢管市民：防止干日结的在这睡

俩车在武汉街头“顶牛”互不相让吃瓜男子：我笑死了

河南漯河建高铁发现古墓群已发掘战国到东汉古墓200多座

私家车和武装押运车狭路相逢女司机和对方争执