可以互相交谈的人工智能来了|人工智能|人工神经网络|实验|机器人学|视频生成模型

仅凭口头或书面指令，人类就能执行新任务，还可以通过描述，使他人能够重复执行该任务。这项能力是人类沟通的基石，但对人工智能仍是一个挑战。

日内瓦大学（UNIGE）的一个团队成功地模拟了一个能够进行这种认知能力的人工神经网络。在学习和执行一系列基本任务之后，这个AI能够向一个“姐妹”AI提供它们的语言描述，让后者执行这些任务。这项成果尤其对机器人学领域具有重要意义，现已发表在《自然-神经科学》杂志上。

▷Riveland, Reidar, and Alexandre Pouget. "Natural language instructions induce compositional generalization in networks of neurons." Nature Neuroscience (2024): 1-12.

01 遵循指令与下达指令

无需事先训练，仅基于口头或书面指令执行新任务，这是人类独有的能力。更重要的是，一旦我们学会了任务，我们也能够描述它，以便另一个人复制。这种双重能力区分了我们和其他物种：其他物种为了学习新任务，需要无数次的尝试，需伴随着正面或负面的强化信号，且无法将知识其传达给同类。

人工智能（AI）的一个子领域——自然语言处理——旨在复制这种人类的能力，让机器能够理解和响应语音或文本数据。这种技术基于人工神经网络，灵感来自于我们的生物神经元以及它们在大脑中相互传递电信号的方式。然而，现在还没有神经计算能实现上述认知壮举。目前，使用AI的对话代理能够整合语言信息来生成文本或图像。但据我们所知，它们还不能将口头或书面指令转化为感觉运动行为，更不用说将其解释给另一个人工智能以便它能够复制。

02 模拟语言交流的人工智能

该研究成功开发了一个具有这种双重能力的人工神经网络模型。研究人员从一个现有的人工神经元模型S-Bert开始，它有3亿个神经元，并且已经预训练以理解语言。研究人员将其‘连接’到另一个更简单的几千个神经元的网络上”。

在实验的第一阶段，神经科学家们训练这个网络来模拟韦尼克区——大脑中使我们能够感知和解释语言的区域。在第二阶段，网络被训练来复制布洛卡区，该区域在韦尼克区的影响下，负责单词产生和发音。整个过程都可在笔记本电脑上完成。接着，研究人员向AI传递英文指令，例如：指向感知到的刺激的位置——左边或右边；在刺激的相反方向做出反应；或者更复杂的，从两个视觉刺激中选择对比度略有差异的一个，指出更亮的一个。

然后，科学家们评估了模型的结果。该模型模拟了特定条件下的指向或移动，一旦学会这些任务，网络就能够将它们描述给第二个网络——第一个网络的副本——以便它能够复制它们。这是第一次两个AI能够以纯粹的语言方式相互交流，尽管该模型仍然需要事先训练。

▷图1.实验任务和模型输入输出示例图。图源：论文。

该研究训练递归神经网络（RNNs）模型执行一系列心理物理任务，利用预训练语言模型处理每个任务嵌入的自然语言指令。研究中表现最好的模型可以利用这些嵌入来进行全新的模型，平均正确率达到83%。通过利用指令嵌入和任务表示的共享组合结构，模型能对练习过任务和新颖指令之间关系进行推断，从而可以很好地推断出未见任务所需的感觉运动转换。该研究还构建了一个人工神经网络，可以仅基于其观察到的感觉运动来为任务提供语言描述。

03 实验意义

该模型对大脑区域中整合语言信息以控制感觉运动区域的神经表征做出了几个预测。首先，模型的层次结构表明，当人类必须根据指令泛化一组相关任务时，指令的语义表征有层次结构，生物大脑也有感觉运动区域。

该模型指出，语言区域中等效任务相关结构的出现对于人类按指令行动至关重要。该研究还预测，参与实施感觉运动映射的个体单元应该根据输入指令的语义在逐次试验的基础上进行调整，并且未能以预期方式调整会导致泛化性能差。这一预测在解释人类的如何执行多步骤任务时可能特别有用。

最后，当模型语言描述包含基于任务集的感觉运动需求时，模型的性能有所提升，该研究的作者猜测在学习过程中，模型语言处理层次的最高级别也受到伴随语言输入的具身过程的影响，例如运动规划或可供性评估。

语言使用者能够以更灵活的方式组织任务中的多个子组件，在更广泛的情境中重新组合，并传播其中蕴含的知识，这是人类得以成为万物之灵的关键。开发可解释的人工神经网络既能理解指令以指导特定感觉运动反应，也能将感觉运动学习的成果作为可理解的语言指令进行交流。该模型的借此帮助我们解释语言是如何在编码和在神经元网络中传递知识的，这为理解语言和行为之间的互动开辟了新的视野。该研究还可以指导未来的实验工作，即检验人类中语言和感觉运动技能的相互作用。

该研究对机器人学领域尤其有意义，开发使机器能够相互交流的技术是该领域的一个关键问题。虽然该研究开发的网络非常小。但未来的研究者完全可以在此基础上开发更复杂的网络。这些网络将被集成到既能理解人类语言和意图，也能理解彼此的仿人机器人中。未来研究可整合自回归语言模型和表现最好的感觉运动模型中的表征，以描绘参与指令遵循的每个阶段的大脑区域的完整过程，从低级别的下一个词预测到更高层次的结构化句子表征，再到语言控制的感觉运动。