打开网易新闻 查看精彩图片

「第一」「最强」叙事,是对复杂场景的简单化。

作者 | Cynthia

编辑| 郑玄


没有刷不了的榜,只有还没 over-fitting 的数据集;

没有搞不定的第一,只有还没加够 XX 领域,XX 尺寸,XX 语言的限定词。

尽管自 2012 年深度学习复苏之日起,AI 打榜就成为了行业默认惯例,但历来如此,就是真的正确吗?

去年 9 月,一篇 LLM 味爆棚的反讽文章,在 arXiv 引起轩然大波《Pretraining on the Test Set Is All You Need》,(别搞大模型了),你只需要在测试集上预训练就够了。

打开网易新闻 查看精彩图片

吐槽了市面上层出不穷的各种大模型测试榜单之外,这篇论文,直白点名了 phi-1、TinyStories 和 phi-1.5 几个大模型在明目张胆搞榜单造假。

比如,使用测试集中数据提问 phi-1.5,模型会立刻给出一个精准的回复,但只要改变一个数字或者改变一下数据格式,回答立刻变得牛头不对马嘴幻觉频出。

原因很简单,为了刷榜,模型对 MMLU、GSM8K、Big-Bench、AGIEval 等公开数据集,做了针对性训练。

过拟合的 A 面,是让模型在打榜过程中取得了人人都是大模型第一的地位,B 面则是,模型的泛化能力被极大削弱,失去了大模型应有的创造与思考的能力。

大模型落地,苦「第一」久矣。尽管,这已经成为大模型产业心照不宣的秘密。

那么,「第一」真的代表更强的能力吗?所谓的最强大模型真的存在?行业落地,又到底需要怎样的标准?

或许,前赴后继的刷榜本质,是独属于大模型产业的强者傲慢。

01

最佳大模型的傲慢与偏见

一定程度上,基准测试失真,于大模型而言,表面上看是标准问题,实际上是宣传问题,本质上则是如何落地的商业模式难题。

Scaling law 的主导下,进入万亿参数时代的大模型强者恒强成为唯一的生存密码:根据公开信息披露,仅 GPT4 就有约 1.8 万亿参数,其训练过程,需要消耗约 2.15e25 FLOPS 算力,更直观来说,需要约 25,000 个 A100 GPU,马力全开,训练足足 100 天。以云上每个 A100 GPU 每小时 1 美元来算,理想情况下,一次训练的成本就需要花费至少 6000 万美元。

与此同时,头部大模型玩家,平均两个月左右,就会迎来一次技术或产品的迭代;而形成鲜明对比的是,国内的大模型六小龙,即使如今估值最高的智谱,算上最新一轮融资,其总融资额,也不过 55 亿。

一边是不断膨胀的参数,不断增加的成本;一边是盲盒黑箱式的技术原理,与用户之间的不断加深的认知壁垒。如何在这场强者恒强的生存竞赛中证明自己的价值,打榜自然也就成了最直观的捷径。

但这一切的前提是,大模型落地,真的存在所谓的最强大模型吗?

答案或许是否定的。

技术落地与研究不同,具体到场景之中,强如 Open AI、谷歌与 Anthropic 也不得不面临技术、时延和成本之间的不可能三角。因此面对不同需求,往往对应着不同的最优解法:其中 Anthropic 的 Claude 分为增强版 Sonnet 与轻量版 Haiku;GPT 4o 分为标准版与 mini 版;谷歌 Gemini 则分为增强的 Pro 版与尝鲜的 Flash 版。

而一个违背直觉的数据是,各大模型的增强版与 mini 版,在实际部署中,往往是拥有更低时延与低成本优势的 mini 版本,会更受欢迎。

打开网易新闻 查看精彩图片

即使单纯聚焦到技术的单一维度,「最强模型」也同样是个伪命题。在相对客观的物理、化学和生物学、数学、天文等科目中,各家大模型评分往往各有千秋;而一旦将视角转为写作、绘画、视频生成,那么如何评定最优大模型,1000 个读者有 1000 个哈姆莱特。

作为全球最大的云服务平台,亚马逊云科技,就曾注意到:在亚马逊云上,不同开发者往往会关注不同性能,比如,有人会关注更低的延迟、更低的成本,有人更关注模型是否具备微调能力、能更好地协调不同知识库以固定数据,还有团队更关注模型的多模态能力,或者知识扩散迁移能力。

也是因此,什么才是所谓的最强大模型,在一轮轮热潮中,这个话题被反复讨论、被热议、被反思,但从来未被解决。

但可以肯定的是,任何单一维度的「第一」「最强」叙事,都是对复杂场景的简单化。

02

Choice is All You Need

「最强」=无敌,只是技术至上者的傲慢,以及对用户真实需求的偏见,这一点已经在无数行业中被反复证实。

二十一世纪初期,许多经济学家、产业学家,在观察了日本一众历史优势产业的发展之后都发现了一个怪状:

无论电视机,亦或半导体,乃至汽车,日本无疑是「最强」叙事的顶级推崇者,以及最佳实践案例,但最终的解决却无一例外,集体走向没落。

比如,日本的电视,在显像管时期做到画质最高,却在短短几年被更轻薄的液晶打败;日本面向大型机时代研发的存储芯片,一度做到保质期 30 年,却在消费电子浪潮中被韩国三星质量参差不齐的低价「次品」打败;日本的汽车,在燃油车时代无疑是最耐用、最保值的代名词,甚至是新能源时代,也一步到位发展了最清洁的氢能源燃料电池,却唯独错过了近十年来最大的汽车产业变革热潮——电动化。

为什么「强者」最先被淘汰?生物学家给出了解答——日本产业,陷入了加拉帕戈斯陷阱,一个在如加拉帕戈斯群岛般单一的环境中进化出的「最佳」,往往在面对复杂的真实场景与需求会显得格格不入,乃至不堪一击。

相比「最佳」,行业更需要的是,需求被看见,过程有的选,结果更适合。

就像数据库领域,即使传统的 SQL 数据库已经常年占据统治地位,依然会有各种各样的 noSQL 数据库冒出,甚至在 noSQL 数据库还会区分出图数据库、文档数据库等不同类型。

AI 框架,也是个最好的例子,TensorFlow 之前,cafe 就足以满足市场的需求,但此后 TensorFlow 出现,一统天下,然而,没几年后,PyTorch 就横空出现,从学术领域出发逆袭,成为一代新的框架之王,但与此同时,TensorFlow 以及其他小众 AI 框架,依旧在工业领域占据相当的市场份额。

套用大模型 er 们的经典句式——Choice is All You Need。

亚马逊 CEO Andy Jassy 在不久前的举办的一年一度的云服务 re:Invent 大会上,就分享了这样一个观察:

打开网易新闻 查看精彩图片

「在亚马逊内部,所有开发者都有自主选择的权利,原本以为大家都会选用 Anthropic 的 Claude 模型,毕竟过去一年多它在全球属于性能顶尖的模型,确实有很多内部开发者在使用 Claude 模型,但他们也会采用 Llama 模型、Mistral 模型,还会运用自己开发的一些模型,甚至会使用自行研发的模型。」

比如,金融行业更需要内容生成的绝对准确性;大部分企业,则需要在性能与成本之间,做反复的平衡。甚至,同样是绘画,在诸如还原山海经之类场景中,大模型幻觉就是产生想象力的最佳礼物;而在绘制写实风漫画或人物建模,任何的幻觉都会带来最终结果的灾难性失控。

既然评判的标准五花八门,那么与其替用户选择,不如给足用户选择。

03

亚马逊云科技的 Choice matters

事实上,让客户有的选,是各大公有云厂商都在宣传的口号。但何谓有的选,选择的范围如何,背后的定义却往往各有千秋。亚马逊云科技无疑是其中,最开放、最激进的一个。

在亚马逊云科技,有的选,可以被解读出三重含义。

第一重,性能还是成本,用户有的选。

re:Invent 期间,亚马逊云科技推出全新发布的自研 Nova 基础模型,一共包括 Micro、Lite、Pro、Premier 四个版本。其中,可以做到 210 tokens/s 的 Amazon Nova Micro 是纯文本模型,主打高效级;其余三大多模态大模型中,Lite 主打轻量级,Pro 主打平衡,旗舰模型 Amazon Nova Premier,则主要用于应对复杂任务。

打开网易新闻 查看精彩图片

第二重,亚马逊云科技 or 其他,用户有的选是最高原则。

相比自研的 Nova 基础模型,如何支持更多的模型上架亚马逊云科技,才是这场大会真正的主角。

通过将电商中的货架概念用在了云服务与大模型,亚马逊云科技的大模型货架 Amazon Bedrock 不仅上架自家的 Nova 系列,同时还上线了亚马逊投资的 Anthropic 的 Claude 系列。

此外,Amazon Bedrock 提供 Meta 的 Llama、AI21 Labs 的 Jurassic、Mistral AI、Technology Innovation Institute 的 Falcon RW 1B 和英伟达 NIM 微服务等 100 多种业内一流的大模型。

不仅是通用大模型,金融领域的 Palmyra-Fin,翻译明星 Solar Pro,多模态方向的 Stable Diffusion 、音频生成方向的 Camb.ai,生物学方向的 ESM3 生成式生物学模型,也全部在 Amazon Bedrock 上架。

主打一个从自研到第三方,从文本到多模态,从通用到垂直,只要用户需要,Amazon Bedrock 应上尽上。

当然,不只是有的选,最重要的也就是第三层,亚马逊云科技不仅要让客户有的选,更能低成本的选。

如果只是上架第三方模型,那么行业内大部分公有云企业都能做到。

但如何避免云服务企业又做选手又做裁判还当发令员,能够真正做到不偏心自研产品,以用户需求为导向,还需要观察云服务公司究竟如何设计用户选择的门槛。

首先是定价,如何在亚马逊云科技销售模型,定价由模型提供商自行设置。

与此同时,为了降低用户使用大模型的成本以及选择难度,Amazon Bedrock 还提供了自定义微调和模型蒸馏(Model Distillation)功能以及多智能体协作工具(Multi-agent collaboration)、自动推理检查(Automated Reasoning checks)等功能。

打开网易新闻 查看精彩图片

一方面,帮助企业更好的选择合适的模型,另一方面,加速不同的模型与智能体之间的高效协同。

当然,这种有的选,不止体现在模型侧,在算力、数据库领域同样如此。

比如,在算力上,亚马逊云科技会提供不同层级的 EC2 实例,用户可以根据自身的计算需求选择标准服务器或者更强大的 UltraServer,不必受限于单一芯片平台或算力方案。

数据库方向,亚马逊云科技打破 CAP「困境」,推出无服务器分布式 SQL 的数据库 Amazon Aurora DSQL 以及完全托管的无服务器 NoSQL 数据库 Amazon DynamoDB global tables,尊重客户真正的需求。

从模型到算力再到数据库,一切决策的最高原则都是「Choice matters」,让用户去自由决策。

04

尾声

在经济学中,有一个有趣的悖论叫古德哈特定律。

其提出背景是,一旦我们过度关注乃至管理一个经济指标时,往往会为了达成这一指标而扭曲真实目的,以至于牺牲其他方面的利益,以至于指标本身失效。

AI 领域同理,当参数与性能变成唯一指标,其强大的扭曲力场会让真实的用户需求被忽略。

尽管,用 AI 替代客服所以更关注成本,用 AI 帮助手残画出想要的画面所以更关注多模态能力,用 AI 帮助企业完成质检优化所以更关注效率这样无数的细小变革,才是 AI 改变世界的真正组成。

而在这一过程中,用户的真实需求被看见,被尊重,有选择,正是一切进步发生的基础。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

大模型跑分会成为一门生意吗?

打开网易新闻 查看精彩图片

马斯克:创业成功的原因是因为我可以判断员工是否擅长工程设计。

点赞关注极客公园视频号