不会试错的AI，永远只是人类的提线木偶：图灵奖得主LeCun等提出让AI自主求生|lecun|图灵奖|生命|生物学

来源：市场资讯

（来源：图灵人工智能）

您想知道的人工智能干货，第一时间送达

人类积累的高质量文本数据即将耗尽。

仅靠语言数据训练出的模型缺乏对真实物理世界的常识，一旦部署完成就停止了学习，终究无法具备人类那般鲜活且持续生长的智慧。

三位全球顶级人工智能专家杨立昆Yann LeCun、Emmanuel Dupoux、Jitendra Malik共同发布了一份极具颠覆性的研究蓝图。

这份蓝图尖锐地指出，当今AI缺失的核心能力在于像动物和人类一样进行自主学习。

他们以进化发育生物学和认知科学为灵感，提出了一套融合观察学习、行动学习与元控制器的全新AI架构。

观察与行动的融合

观察一个正在地毯上玩耍的人类幼崽，你会发现一种极其精妙的学习机制。

面对一个全新的玩具，他们会在随机敲打中通过试错来学习，也会在注视玩伴的动作时进行模仿，还会根据大人的言语指导调整动作，甚至会停下来闭上眼睛发呆，在脑海中想象玩具的百种玩法。他们极其灵活地在各种学习模式之间自由切换。

目前的AI系统完全缺乏这种自如。

在部署前，它们经历着由人类专家反复试错定下的死板训练配方。一旦走向真实世界，面对从未见过的数据分布，它们无所适从，因为它们把学习的本领外包给了人类专家，自身毫无根据环境自我更新的能力。

研究团队指出，通向自主学习的破局点在于重新审视生命体最底层的两大基本能力。

第一种能力被称为系统A，也就是通过观察进行学习。从认知科学的视角看，这种能力在缺乏行动能力的婴儿期表现得淋漓尽致。

6个月大的婴儿能分辨出不同种类猴子的面部特征，到了9个月大时，他们逐渐对非人类面孔失去敏感度，转而成为识别同类面孔的专家。

在6至12个月期间，婴儿对母语发音的感知变得越来越敏锐。他们像海绵一样被动吸收着感官输入，在脑海中建立起一个关于世界的预测模型。

在AI领域，与之对应的是自监督学习（SSL）算法。这类算法同样能够在海量的静态数据集或被动的感官信息流中，提炼出抽象的表征。

下表直观展示了不同模态下观察学习在认知科学与AI领域的对应关系：

系统A在处理庞大数据和发现抽象概念上表现卓越。它有着致命的缺陷，那就是它所建立的模型完全脱离了行动能力，而且它永远无法分清什么是相关性，什么是真正的因果关系。

这正是系统B登场的时刻，也就是通过行动进行学习。

想象一个努力学步的孩童，仅仅在一旁观察大人走路是毫无用处的。他们必须亲身干预这个世界，从翻滚、爬行到蹒跚迈步，在不断的摔倒和重试中获得环境的反馈，最终掌握成熟的步态。

在机器的世界里，系统B化身为强化学习（RL）与控制理论，代理试图在未知环境中采取一系列行动来最大化某种奖励。

下表梳理了系统B在处理行动与优化问题时的典型范式：

系统B擅长在真实的互动中发现全新解法。面对维度极高的真实世界，漫无目的的试错会导致灾难性的效率低下。

此时，系统A与系统B必须紧密合作。系统A通过观察将复杂的像素点转化为抽象的状态表征，极大降低了系统B的探索难度。系统A还能提供关于未来状态的预测，让盲目的试错升级为深思熟虑的规划。

更奇妙的是，系统A产生的预测误差可以转化为内在的奖励信号，化作系统B探索未知的好奇心。

反过来，系统B的行动也为系统A提供了最优质的数据源。代理主动转动头部或注视特定目标，专门挑选那些能消除系统A内部不确定性的信息进行学习。

在明确目标的指引下，行动过程收集到的数据远比被动接受的随机信息更有价值。

掌控全局的元控制器

想要让观察与行动天衣无缝地配合，AI还需要一个核心的大脑，研究团队将其命名为系统M。

现阶段的AI企业拥有庞大的机器学习运营（MLOps）团队。

无数研究员和工程师充当着临时大脑，没日没夜地筛选数据、设计训练配方、监控误差曲线，并在合适的时候切换训练阶段。

大型语言模型正是遵循着人类定下的死板规矩，先进行大规模的无监督词汇预测，随后切断连接，转入完全独立的基于人类反馈的强化学习阶段。

真正自主的AI需要将这整个运营流水线全部自动化，内置到自身的认知架构中。

系统M犹如生物大脑中的前额叶皮层，或者软件定义网络中的控制平面。它从不直接处理高带宽的感官像素或运动指令，而是时刻监控着低维度的遥测信号。

这些遥测信号包含评估自身学习进度的认知误差，包含针对特定环境预先埋植的生存预警，还包含来自身体的能量消耗与疼痛反馈。

系统M根据这些元状态果断下达指令，像是一个不知疲倦的列车调度员，动态地打通或关闭各个模块与情境记忆库之间的数据流。

系统M承担着三项极具生物学色彩的核心职能。

第一项职能是精挑细选。面对如海啸般涌来的感官数据，婴儿会本能地优先注视人脸和人声，这是一种写在基因里的数据筛选机制。AI中的系统M同样运用主动学习策略，专门挑出信息量最大的数据片段，大幅削减不必要的计算消耗。

第二项职能是动态激励。生物学中存在着神奇的关键期，特定的大脑区域只在特定的发育阶段展现出极高的可塑性。系统M运用同样的逻辑，在环境多变时调高好奇心奖励，鼓励探索未知，在环境稳定时收紧目标，专注收割已知奖励，它甚至会优先处理那些最具教学价值的演示数据。

第三项职能是模式切换。夜幕降临，生物体进入睡眠，大脑切断了运动输出与感官输入，但在内部，情境记忆库与学习模块却在高速运转，重播白天的经历进行离线巩固。白昼来临，面对熟悉的任务，生物体本能地依赖肌肉记忆行动，而在面对棘手的新难题时，又会立刻切入缓慢深思的推理模式。系统M正是这种灵活状态切换的终极主宰。

进化与发育的交响

理论框架虽好，一个无比现实的工程死结却横亘在研究者面前。

系统A依赖行动产生的数据来建立世界模型，系统B需要预设的模型结构来指导高效行动，而系统M更是需要两者提供精准的误差信号来发号施令。这三个齿轮到底应该由谁先开始转动。

回看亿万年的生命史，大自然早就用进化发育生物学（Evo/Devo）给出了答案。

没有哪个生命是带着一张绝对白纸般的神经网络降临世间的。

动物在漫长的岁月中继承了一套高度特化的神经系统，这套写在基因里的底层结构规定了它们能学什么以及学习的速度。伴随生命周期展开的是一套内置的发育课程。

从突触的生长与修剪到视力的逐渐清晰，再到肌肉协同自由度的递增，生物体从一个被刻意简化的低难度模式起步，逐步解锁无比复杂的认知与行动能力。

远古时代，占领地球的大多是行为模式固定的低等生物。直到寒武纪生命大爆发，在捕食与生存竞争的巨大压力下，极其复杂的生态系统逼迫出一批拥有高级感觉器官与复杂大脑的灵动生命。

研究团队巧妙地将这一宏大过程浓缩为AI系统中的双层优化框架。

在庞大的进化时间尺度上，外部的适应度函数扮演着残酷大自然的角色，不断筛选并优化着代表AI代理基因代码的元参数。这串代码在每一个代理诞生时，设定好系统A、系统B与系统M的初始状态。

在相对短暂的发育时间尺度上，也就是代理的一生中，那个由基因决定且不可篡改的系统M，指挥着代理在多变的环境中摸爬滚打，不断更新内部的表征与行动策略。

这是一种登峰造极的计算挑战。要在外部进化循环中获得一丁点微小的基因迭代，往往需要模拟数以百万计的生命周期，而每一个生命周期内部又包含着海量的学习互动。