打开网易新闻 查看精彩图片

日本Sakana AI实验室发布了一份关于“进化新基础模型”的研究报告,该报告详述了一种名为“进化模型融合”(Evolutionary Model Merge)的新颖方法,旨在通过自动化手段来高效构建特定应用领域的基础模型,并充分发挥现有开源模型集合智能的优势

打开网易新闻 查看精彩图片

Sakana AI的核心研究方向是借鉴自然界的进化和集体智能原理,创造具有全新能力的基础模型。实验室正在研发的技术不再局限于训练单一模型,而是要设计一套能够自动生成所需功能的基础模型的机制。在这一目标下,他们率先推出的“模型融合进化优化”成果引人瞩目

进化模型融合”是一种通用方法,利用进化算法从浩如烟海的不同开源模型中发现最佳组合方式。这些模型涵盖多种模态和多样化的功能,例如Hugging Face平台就拥有超过50万种不同类型的模型,理论上可以通过巧妙结合形成具备崭新能力的新模型。借助现存开放模型的巨大智慧积累,此方法可按照用户指定需求自动创建出新的基础模型‍

打开网易新闻 查看精彩图片

实验结果显示,“进化模型融合”成功地自动发现了将来自迥异领域(如非英语语言与数学或非英语语言与视觉识别)模型进行新颖而非直观组合的方法,这可能是人类专家难以独立发掘的复杂融合策略。为了验证这一方法的有效性,研究人员首先将其应用于演化一款能进行数学推理的日语大型语言模型(Japanese Large Language Model,简称LLM),以及一款日语视觉-语言模型(Vision-Language Model,简称VLM)‍

令人惊讶的是,这两款由进化算法自动生成的模型,在多个LLM和视觉任务基准测试中均取得了业界领先的结果,尽管它们并未专门针对这些基准进行优化训练。尤其是演化的日语数学LLM,虽然参数规模仅为70亿,却在一系列广泛的日语LLM基准测试中拔得头筹,甚至超越了一些先前参数高达700亿的业内顶尖日语LLM模型的表现,展现出足够作为通用日语LLM的强大实力‍

打开网易新闻 查看精彩图片

报告中列举了一个形象的例子:利用进化算法设计二维赛车,起初是随机生成许多设计,大部分都是失败品,但少数能够前行的设计将其优秀基因传递给下一代。经过多代自然选择,这些"基因赛车"终于能在恶劲环境中高效行驶。而一些最成功的进化设计,结构常常出人意料但却非常高效,看起来并不像人工设计的结果

进化算法之所以强大,在于能系统性地探索海量可能性,发现人类直观和经验难以触及的新颖组合方案。Sakana AI的报告介绍了两种进化模型合并的主要方法——在数据流空间(网络层)和参数空间(权重)中进行。前者是用进化算法发现将不同模型的网络层组合在一起的最佳配方;后者则是找到混合多个模型权重的最佳策略。这两种方法还可以相互结合,通过架构创新来进化全新的基础模型

与此同时,经过进化的日语视觉-语言模型对于处理富含日本文化特色的内容表现出色,当用日本来源的图像描述对数据集进行测试时,同样获得了卓越的顶级成绩‍

此外,通过进化算法合并不同的扩散模型,研究团队还诞生了一个4步扩散过程的快速日语图像生成模型EvoSDXL-JP。值得一提的是,上述这些模型在创建过程中并未使用任何梯度训练,仅依靠进化算法就已取得了令人惊喜的出色成绩

进化智能的未来

英伟达人工智能领导者 jim fan 对这篇报告评价:‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

打开网易新闻 查看精彩图片

这是我最近读到的最具想象力的 LLM 论文之一:利用进化来合并 HuggingFace 中的模型,从而释放出新的能力,例如日语理解能力。这是一种复杂的模型手术,所需的计算量比传统的 LLM 训练小得多‍

只有两种方法可以随着计算量的增加而无限扩展:学习和搜索。基础模型社区几乎只关注学习,但对搜索并不重视。我认为后者在训练(进化算法)和推理(AlphaGo 式搜索)阶段都有巨大潜力

详细信息:

https://sakana.ai/evolutionary-model-merge/

paper:

https://arxiv.org/abs/2403.13187

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~