2024年9月21日,2024第二届人工智能大模型技术高峰论坛在江苏南京举办,论坛同期举行的《多模态融媒体大模型专题论坛》上,东南大学研究生院常务副院长、首席教授、国家杰青/优青获得者、IETI Fellow 耿新分享了《本能、进化、创意 ——“学习基因”带来的新质 AI 能力》精彩演讲。

以下为演讲实录:

1 研究背景

AI 已在各领域取得巨大成功,从最早 AlphaGo 战胜人类发明的最复杂的智力游戏围棋世界冠军李世石、柯洁等,到博弈游戏中战胜人类最高水平团队,每过一段时间就会出现“爆炸性新闻”。例如,2024 年年初 Sora 掀起 AI 机器热潮,成功生成具有多个角色、特定类型的运动,以及主题和背景的准确细节的复杂场景;GPT-4 在几分钟时间内成功复现了历年来备受瞩目的诺贝尔奖获奖成果,并以54% 的胜率通过图灵测试;AlphaFold3 成功预测地球所有生物分子结构。

通过上述示例,以及很多新闻报道,可以看到目前 AI 能做很多事情。客观上来讲,AI 能力正在不同维度上接近,甚至某些点上开始超越人类。图 1 所示是我们对 AI 在智能和维度上做得好的方面进行的梳理,其中做的比较到位的有搜索优化、博弈和学习能力等。现在主流大模型已经能“吃下”万亿级 token 说明学习能力很强,博弈已经战胜人类最高水平,而以 GPT-4 为代表的自然语言大模型理解和表达都很好,但在逻辑推理和规划能力方面 AI 模型相对较薄弱。

图 1 AI 的优劣势

与人类生物智能或与智能相比,目前 AI 尚未触及或者能力表现很差,或做不到的地方有哪些?比较共识的有三个方面。

(1)本能

本能也是智能表现,对绝大多数生物来讲,初生生物的大脑并非随机初始化,而是根据遗传基因来初始化,因此一出生没有经过任何学习和训练就具备生存所需的本能,比如小象刚出生就能站起来行走。但是对绝大多数 AI 模型来讲,其初始化就是随机处理,进行大量数据训练之前没有任何能力,所以完全不具备本能。所以所谓 AI 本能,就是一个模型在没有经过任何训练前仅从模型初始化中直接获取能力,比如快速学习能力、预设反映能力等。如果具备这样的能力,AI 可能是具有本能的,至少目前做不到。

(2)进化

生物从单细胞发展到现在的纷繁复杂的生物世界,本质上是基因的进化,通过遗传竞争机制不断优化基因,积累进化成果,生成越来越复杂的个体,实现种群各种各样复杂进化。

AI 模型发展到今天,虽然也在更新换代,不断出现新的 AI 算法和架构,但是不同架构、不同 AI 模型之间由于缺乏遗传竞争机制,即缺乏一个可以在不同代机之间传递已经学过的东西,或者学习成果的介质,没有如同生物里基因这样的介质,所以无法从潜在模型继承学习成果,每提出一个新架构都要重新训练一遍,也可能前一代表现更好,但前一代模型将已经学的不错成果完全扔掉了。

因此,AI 进化可以将一个模型看成一个种群,通过遗传竞争机制,不断积累前代模型的学习成果,由简到繁改进模型的性能,提升适应新环境的能力,实现模型群体的进化。

(3)创意

人类可以通过想象创造出从未见过的新事务。现在很多人说创意是人类智能最后堡垒,一旦被攻破,AI 即取代了人类。而 AI 能否产生创意是一个哲学问题。目前 AI 算法可以训练集成从没有的新样本,但是基本上产生的是相同风格的新样本。比如训练时用狗的照片可以训练生成完全不一样,且风格相似的狗照片,还是训练域内生成新的样本。

AI 产生了创意有三个基本条件,第一,模型不能有提示词。Sora 产生很多有创意的视频,是人通用提示词告诉它,从而把它变成一段视频,创意来源于人类。第二,要生成训练域之外的样本。不能给模型什么类型的狗,生成的还是差不多类型的狗,这不是创意。第三,有效语义域内,不能说生成这个位置,如图 2 所示粉色区域就是有效语,如果其外可能生成随机噪声,虽然不同但不能视为创意。只有满足这三个条件(新质),可以认为AI产生创意。

图 2 AI 产生创意的条件

通过什么方法可以实现上述三个新质 AI 能力?学习基因怎么产生?目前,AI 技术路线就是数据驱动,数据越来越多,相应计算资源要求也越来越多。20 世纪 90 年代末期样本大概是 7 万幅图像,对应模型参数也是万级,可以做的很好。2010 年前后,竞赛推动了深度学习大发展,也让我们看到了深度学习的威力。现在主流大模型和 toeke 基本都是万亿级,模型越来越强大,因此我们把这条道路叫做“大数据 + 大模型”之路。但是,因为没有这样的资源,大多数人无法训练基础模型。那么,这条道路到底能走多远,至少我们已经发现有下述两方面问题。

第一,边际递减效应。20 世纪 90 年代到 2010 年之前,数据翻 1 倍模型扩大 1 倍,可能带来的收益是 10%,甚至 20%。但是到了 2024 年,再把数据翻 1 倍,模型扩大 1 倍只能带来 1% 的收益甚至更少,即靠增加数据和模型规模带来的收益越来越小,边际递减非常明显。

第二,成本飙升不利创新。做任何一件事情都要考虑成本问题,大模型成本已经飙升到高校和绝大多数中小企业不可能参与到这个工作,而当参与主体只有少数大公司才能做时,对创新非常不利。

深度学习本质上是机器学习,机器学习学科方向的初心是让机器像人一样学习,但是现代机器学习技术的学习机理与人类学习有本质不同!离实现初心越来越远。例如,小学生看两三张猫的照片后再看新的照片,他可以快速区别这是猫或是其他东西,即人类通过少量的样本,便可学得新概念。但是,机器学习需要大量的训练样本,才可区分简单概念有效分类,例如区分猫和狗至少 1000 张图片才能够大致对新的样本做两类判断。

机制本质是不同的,目前多数人没有意识到的问题——初始化。新生儿的大脑并非“空白”或随机初始化,而神经网络模型训练前通常采用随机初始化。

2019年Zado M. 在Nature Communications 发表的文章对“为何新生儿学习能力强?”作出了明确结论。新生儿的大脑神经元并非是随机连接的,而是通过基因来决定大脑的初始化。因为人类的“学习”并非从出生后才开始,是经过了千万年的进化,进化的成果浓缩到基因组中代代相传。而基因组负责的皮质发育,提供了人脑的结构化知识,有了结构化知识的帮助,海马体可以快速学习。因此,整个物种经过亿万年持续学习(进化),并将这种学习成果通过基因传递给新生儿,使其天生就具备了超强的学习能力(强大的模型初始化)。用机器学习术语来讲,就是其具备强大模型初始化能力。

但是,我们在对 “模型初始化”的关键词查找文章时发现,几乎没有专门与其作为研究主题的论文,能找到的都是在做其他工作中提到的,如实验怎么做模型初始化。所以,模型初始化至今仍然被绝大多数机器学习研究严重忽视。因此,我们想能否模仿人的整个进化,包括基因来代替基因传递的方式重构机器学习的学习方式。图 3 示出了人类学习与机器学习对比的每个步骤。首先,模拟人类通过学习任务实现物种进化,构建“祖先模型”,从数据流中持续学习,像人一样持续进化。然后,类似人类进化成果浓缩到基因组中,祖先模型的学习成果浓缩到一个小的信息片段,我们称之为学习基因(learngene),可以是祖先模型参数的一个子集,也可以是一个映射,通常远远小于祖先模型。有了学习基因后,希望就像新生儿继承基因后,具备了快速学习的能力;同时希望后代模型由学习基因初始化后,可望具备类似新生儿的小样本快速学习能力,没有组件模型大。总之,我们希望学习基因能够实现小样本快速学习能力,同时为实现本能、进化、创意等新质 AI 能力提供可能性。

图 3 人类学习与机器学习的类比

目前,我们已经进行了一系列相关工作,通过学习基因实现非常好的模型初始化就有小样本的快速学习能力。进一步发现,在有了学习基因后,还可以创造原来 AI 算法语言很难实现的本能、进化和创意。

第一,实现 AI 本能。如果是模型现在随机初始化的做法,训练前没有任何能力。例如,训练四维机器人行走,没有训练时站不住,如果用学习基因对控制网络进行初始化,即 AI 模型通过学习基因初始化获得本能,使它“一出生”就可以具备站立功能,就像小象一出生就能站立行走类似这种本能。

第二,实现 AI 进化。之所以每一代新模型架构出来后都要重新训练,就是因为缺少能传递成果的介质,有了学习基因模型代级之间就可以传递知识,不断积累前代模型的学习成果。然后,通过优胜劣汰选择优秀的学习基因进入下一代,驱动学习基因不断进化。通过学习基因的进化,生成越来越强大的模型,提升适应环境的能力。

第三,实现 AI 创意。未来不需要 AI 专家设计更复杂、更先进的模型架构,即可以让模型进化,通过优胜劣汰机制产生新基因,每一代比上一代表现更好。而创意要满足三个条件,当前 AI 模型只能模仿训练样本,生成训练域内的新样本,其中最难的是如何界定粉红色区域(见图 2)——有效语义域,做出新样本。有了学习基因后,可以抽取学习基因有效区隔有效语义和随机噪声,确保它能跳出训练域,通过学习基因交叉变异,产生既在有效语义内又跳出训练域的新样本。此样本在没有提示词的情况下就是创意。

2 技术路线

技术路线有两个类型,第一个是白箱祖先模型,训练过程完全可见,利用训练过程中参数变化某些指征抽取,学习基因可以在训练任何一个结点实时抽取。第二是黑箱祖先模型,训练过程或参数看不见(大多数没有开源商业化大模型,如ChatGPT),可以利用现有黑箱模型的输出抽取学习基因 。其优点很明显,可以利用几乎所有现有大模型,并且实现把基因抽出来进行多模型融合互补。

2.1 白箱祖先模型

白箱祖先模型的训练过程可见,因此可以在对比训练过程中参数变化,符合一些条件把参数抽取出来作为学习基因。如图 4 所示,这是 2022 年我们做“学习基因”系列工作其中的一个成果,发表在 AAAI’上 。工作 1 是看模型变化,抽取符合参数梯度变化特定规律的网络层作为学习基因;工作 2 更加复杂,在训练网络同时训练掩码 0 和 1,最后收敛时标成 1 的就是学习基因并抽取出来,标成 0 扔掉。

图 4 白箱祖先模型

2.2 黑箱祖先模型

黑箱祖先模型虽然看不见里面的东西但是可以得到一个结果,比如输入提示词得到答案,形成一系列提示词答案队,用答案队训练辅助模型,假设学习基因与辅助模型有某种关系。如图 5 所示,这里假设它就是最简单的线性映射关系,因此把学习基因筛出来初始化各种各样后代模型。这是 2024 年我们做的一个工作,成果发表在 AAAI’上。

图 5 黑箱祖先模型

2.3 具有学习基因的智能体

使用学习基因训练,种群智能体能否自己体现出新质 AI 能力。

2.3.1 学习基因带来的模型本能与进化

如图 6 所示构建 n 个智能体的,每个智能体在训练场上执行不同任务,且任务地面有地形不同的障碍物。每个地形的不同机器人通过强化学习训练到一定程度后机器人开始比赛,跑的快的即优胜个体基因抽取出来,形成优势的学习基因,维持优势基因池。这样通过每一次选择策略选择出好的基因进入下一代,下一代基因再初始化产生新一代种群,循环往复使基因逐渐进化。

图 6 具有学习基因的智能体

演示中,智能体在训练场的目标就是从起始点开始,中间经过 8 种各种各样障碍物地形,能够尽可能快地达到终点。如图 7 所示,图(a)所示是训练时遇到地形环境;图(b)是训练时不给智能体看新的环境。

图 7 智能体通过的地形

智能体从第 1 代到第 100 代,随着代数进化,学习能力明显变强。首先,学习基因带来的模型本能,使智能体在没有经过任何训练的条件下就可以站住,展现出类似初生生物的本能,且有更强学习能力,即有站立本能后训练过程中不会摔倒;第二,继承逐代进化的学习基因的智能体可以越来越快地适应环境。通过演示得到以前 AI 实验中很难遇到的 2 个新特点。

量化数据也是支持直观感觉,从图 8 可见,蓝色线是没有学习基因,上面不同颜色分别是代数第 10 代、20 代、50 代、90 代。经过更多代数进化的基因蕴含了更多的知识,给继承它的智能体带来更强的本能(起点更高)与更强的学习能力(终点更高)。

图 8 继承不同代基因的智能体训练曲线

从图 9 可见,不同训练任务中,继承学习基因智能体一出生就获得了不继承学习基因智能体至少训练 100 轮后的能力;训练完成,继承学习基因智能体相较于不继承学习基因智能体,在学习能力上至少提升 2 倍;继承学习基因智能体在训练中未见过的新任务上仍展现优异的学习能力。

图 9 不同训练任务下继承学习基因智能体的进化

2.3.2 学习基因带来的模型创意

对模型创意我们也做了实验。如图 10 所示,可以用 AIGC 生成图像大模型产生创意,用扩散模型+Lora 生成图风格。每一集用多个 Lora 的 MOE 系统,控制每个 Lora 对最终系统的影响,相当于多个风格混合。学习基因通过主动变化控制所有 Lora 加权和 Lora 的值,并控制每层 lora 全值,保证生成图像有语义,避免不良突变(噪声图像)。通过对学习基因交叉变异产生新创意,整个过程没有人类给它提示词。

图 10 模型创意架构

如图 11 所示,在训练时我们给模型水墨、立体主义、水彩、梵高四种不同狗的绘画风格(基风格),希望模型自己能变异新风格(创意)。结果可见,图中最上面既有水墨画又有水彩,左边是水墨画和立体,右边的是水彩和梵高,最中间四种风格都有一些痕迹。同时,我们还做了一些其他的生成图片,如剪纸和水墨融合、青花 + 油画风格,以及青花、剪纸、珐琅彩的融合等。

图 11 模型创意结果

3 结束语

目前 AI 已经取得了巨大成功,但是与生物智能相比,仍欠缺本能、进化、创意等能力。为了应对“大数据 + 大模型”技术路线困境,回到机器学习初心,从人类学习中找到一些启发。人类灵巧高效的学习能力,不是出生之后才去学习,而是来自经过亿万年进化的基因组对人脑的“初始化”。为了让机器真正像人一样学习,我们提出机器能否有一个叫做学习基因这样的全新概念,除了实现类似于人类小样本快速学习能力外,学习基因还会为实现本能、进化、创意等新质 AI 能力提供可能性。具体可以通过集成学习基因,实现 AI 学习本能;通过遗传竞争机制,实现学习基因进化;通过调控学习基因,实现 AI 模型产生新的创意。

(参考文献略)

耿新

东南大学研究生院常务副院长、首席教授,国家杰青 / 优青获得者,新一代人工智能技术与交叉应用教育部重点实验室主任,江苏特聘教授,IETI Fellow。主要从事机器学习、模式识别、计算机视觉等方面的研究,发表论文 100 余篇。曾获国家自然科学奖二等奖、国家级教学成果奖一等奖、科学探索奖等多项教学、科研奖励。

选自《中国人工智能学会通讯》

2025年第15卷第2期

科技前沿