您的关注是对我最大的支持

『 AI每日快讯 欢迎大家转载、引用、分享,让更多人了解AI,学习AI 』

麻省理工学院的研究人员介绍了一种方法,使用人工智能自动解释复杂神经网络

打开网易新闻 查看精彩图片

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员开发了一种新方法,使用人工智能模型对其他系统进行实验并解释其行为。他们的方法利用预训练的语言模型构建的代理来生成对训练网络内部计算的直观解释。

这一策略的核心是“自动可解释性代理”(AIA),旨在模仿科学家的实验过程。可解释性代理计划并对其他计算系统进行测试,这些系统的规模可以从单个神经元到整个模型不等,以产生这些系统的各种形式的解释:对系统功能的语言描述以及它失败的地方,以及重现系统行为的代码。与被动分类或总结示例的现有可解释性程序不同,AIA积极参与假设形成、实验测试和迭代学习,从而实时提炼对其他系统的理解。

补充AIA方法的是新的“功能解释和描述”(FIND)基准,这是一个测试床,类似于训练网络内部的计算,并伴随着对它们行为的描述。评估对真实世界网络组件的描述质量的一个关键挑战在于,描述的质量只能与其解释力一样好:研究人员无法获得单元或学习计算的真实描述。FIND通过提供一个可靠的标准来评估可解释性程序,解决了这一长期存在的问题:对函数的解释(例如由AIA产生的)可以针对基准中的函数描述进行评估。

例如,FIND包含设计用来模仿语言模型内部真实神经元行为的合成神经元,其中一些对特定概念(如“地面交通”)具有选择性。AIAs被给予对合成神经元的黑箱访问,并设计输入(如“树”、“幸福”和“汽车”)来测试神经元的反应。在注意到合成神经元对“汽车”产生更高的响应值后,AIA可能会设计更细致的测试来区分神经元对汽车的选择性与对其他交通方式(如飞机和船)的选择性。当AIA生成诸如“这个神经元选择道路交通,而不是空中或海上旅行”的描述时,这个描述会针对FIND中合成神经元的真实描述(“选择地面交通”)进行评估。然后可以使用基准来比较AIAs与文献中其他方法的能力。

萨拉·施韦特曼博士(Sarah Schwettmann PhD '21),这项新工作的共同主要作者之一,CSAIL的研究科学家,强调了这种方法的优势。施韦特曼说:“AIAs进行自主假设生成和测试的能力可能能够发现科学家们难以探测到的行为。当语言模型配备了探测其他系统的工具时,它们能够进行这种类型的实验设计,这是非常了不起的。”她还表示:“干净、简单的基准测试和真实答案一直是推动语言模型更通用能力的主要动力,我们希望FIND在可解释性研究中能够发挥类似的作用。”

自动化可解释性

大型语言模型仍然保持着科技界的炙手可热地位。最近在LLM(大型语言模型)上的进展凸显了它们在跨多个领域执行复杂推理任务的能力。CSAIL的团队认识到,鉴于这些能力,语言模型可能能够作为自动化可解释性通用代理的支撑。施韦特曼表示:“可解释性历来是一个多方面的领域。没有一种万能的方法;大多数程序都非常具体,针对我们可能对系统有的个别问题,以及个别模式,如视觉或语言。现有的标记视觉模型内部单个神经元的方法需要在人类数据上训练专门的模型,而这些模型只执行这个单一任务。由语言模型构建的可解释性代理可以提供一个通用的界面来解释其他系统——综合实验结果,整合不同模式,甚至在非常基本的层面上发现新的实验技术。”

随着解释工作的模型本身变成黑盒,对可解释性方法的外部评估变得越来越重要。该团队的新基准测试针对这一需求提供了一套具有已知结构的功能,这些功能是根据在野外观察到的行为建模的。FIND内的功能跨越多个领域的多样性,从数学推理到字符串的符号操作,再到从字级任务构建的合成神经元。该数据集的交互式功能是程序化构建的;通过增加噪声、组合功能和模拟偏见,将真实世界的复杂性引入到简单功能中。这允许在转化为现实世界表现的环境中比较可解释性方法。

除了功能数据集外,研究人员还引入了一种创新的评估协议,以评估AIAs和现有自动化可解释性方法的有效性。这个协议涉及两种方法。对于需要用代码

复制功能的任务,评估直接比较AI生成的估计和原始的、真实的功能。对于涉及对功能的自然语言描述的任务,评估则更为复杂。在这些情况下,准确评估这些描述的质量需要自动理解其语义内容。为了应对这一挑战,研究人员开发了一个专门的“第三方”语言模型。这个模型专门训练用来评估AI系统提供的自然语言描述的准确性和连贯性,并将其与真实功能行为进行比较。

FIND的启用显示我们距离完全自动化可解释性仍然很远;尽管AIAs在表现上超过了现有的可解释性方法,但它们仍然未能准确描述基准测试中近一半的功能。塔玛·罗特·沙哈姆(Tamar Rott Shaham),该研究的共同主要作者和CSAIL的博士后研究员,指出:“虽然这一代AIAs在描述高层功能方面有效,但它们仍然经常忽视更细致的细节,特别是在功能子域中有噪声或不规则行为的情况下。这可能源于这些领域的抽样不足。一个问题是,AIAs的有效性可能会受到它们最初探索性数据的阻碍。为了对抗这一点,我们尝试通过用特定的、相关的输入初始化它们的搜索来指导AIAs的探索,这显著提高了解释的准确性。”这种方法结合了新的AIA方法和之前使用预计算示例启动解释过程的技术。

研究人员还在开发一套工具包,以增强AIAs在黑盒和白盒设置中对神经网络进行更精确实验的能力。这个工具包旨在为AIAs提供更好的工具来选择输入,并完善假设测试能力,以实现更细致和准确的神经网络分析。该团队还在解决AI解释性的实际挑战,专注于确定在现实世界场景中分析模型时要问的正确问题。他们的目标是开发自动化的解释性程序,最终可以帮助人们审核系统——例如,用于自动驾驶或面部识别——以在部署前诊断潜在的故障模式、隐藏的偏见或出人意料的行为。

监督监督者

该团队设想有一天开发几乎自主的AIAs,可以审核其他系统,由人类科学家提供监督和指导。高级AIAs可以开发新的实验和问题,可能超出人类科学家最初的考虑范围。重点是扩展AI

解释性,以包括更复杂的行为,如整个神经电路或子网络,以及预测可能导致不希望行为的输入。这一发展代表了人工智能研究的重大进步,旨在使人工智能系统更加易于理解和可靠。

哈佛大学计算机科学教授马丁·瓦滕伯格表示,“一个好的基准测试是解决困难挑战的强大工具。很高兴看到这个复杂的可解释性基准测试,这是当今机器学习中最重要的挑战之一。我特别对作者创建的自动化解释性代理印象深刻。这是一种解释性柔术,将人工智能反过来用于帮助人类理解。”

施维特曼、罗特·沙哈姆及其同事在2023年12月的NeurIPS会议上展示了他们的工作。麻省理工学院计算机科学与人工智能实验室(CSAIL)和电气工程与计算机科学系(EECS)的其他合著者包括研究生乔安娜·马特尔津斯卡、本科生尼尔·乔杜里、李双博士'23、助理教授雅各布·安德烈亚斯和教授安东尼奥·托拉尔巴。东北大学助理教授戴维·包是另一位合著者。

该工作部分得到了麻省理工学院-IBM沃森AI实验室、Open Philanthropy、亚马逊研究奖、现代NGV、美国陆军研究实验室、美国国家科学基金会、祖克曼STEM领导计划和维特比奖学金的支持。

关注我,每天领取AI领域最新大事

设置⭐️标不迷路

转发朋友圈为您朋友播报每日AI大事

进交流群请扫下面码


  1. 关闭



  2. 风险

您的关注是对我最大的支持