自主系统伦理评估新框架SEED

至顶头条

2026-04-02 22:38 ·北京 ·优质互联网领域创作者

人工智能正越来越多地被用于帮助优化高风险环境中的决策制定。例如，自主系统可以识别出在保持电压稳定的同时最小化成本的电力分配策略。

但是，虽然这些AI驱动的输出可能在技术上是最优的，但它们公平吗？如果低成本的电力分配策略让弱势社区比高收入地区更容易遭受停电怎么办？

为了帮助利益相关者在部署前快速识别潜在的伦理困境，MIT研究人员开发了一种自动化评估方法，该方法平衡了可测量结果（如成本或可靠性）与定性或主观价值（如公平性）之间的相互作用。

该系统将客观评估与用户定义的人类价值观分离，使用大语言模型作为人类的代理来捕获并整合利益相关者的偏好。

这个自适应框架选择最佳场景进行进一步评估，简化了通常需要昂贵且耗时的手工工作过程。这些测试案例可以展示自主系统与人类价值观良好对齐的情况，以及意外不符合伦理标准的场景。

"我们可以在AI系统中插入很多规则和护栏，但这些保障措施只能防止我们能够想象到的事情。仅仅说'让我们使用AI，因为它已经在这些信息上训练过了'是不够的。我们想要开发一种更系统化的方法来发现未知的未知数，并有办法在任何坏事发生之前预测它们，"资深作者、MIT航空航天系副教授、MIT信息与决策系统实验室首席研究员Chuchu Fan说。

参与这项研究的还有第一作者、机械工程研究生Anjali Parashar；航空航天系博士后Yingke Li；以及MIT和萨博公司的其他研究人员。该研究将在学习表征国际会议上发表。

伦理评估

在像电网这样的大型系统中，以考虑所有目标的方式评估AI模型建议的伦理对齐性特别困难。

大多数测试框架依赖于预先收集的数据，但关于主观伦理标准的标记数据往往很难获得。此外，由于伦理价值观和AI系统都在不断演变，基于书面代码或监管文件的静态评估方法需要频繁更新。

Fan和她的团队从不同的角度处理这个问题。借鉴他们之前评估机器人系统的工作，他们开发了一个实验设计框架来识别最具信息性的场景，然后由人类利益相关者更仔细地评估这些场景。

他们的两部分系统被称为系统级伦理测试的可扩展实验设计（SEED-SET），结合了定量指标和伦理标准。它可以识别有效满足可测量要求并与人类价值观良好对齐的场景，反之亦然。

"我们不想把所有资源都花在随机评估上。因此，引导框架朝向我们最关心的测试案例非常重要，"Li说。

重要的是，SEED-SET不需要预先存在的评估数据，并且它适应多个目标。

例如，电网可能有几个用户群体，包括一个大型农村社区和一个数据中心。虽然两个群体都可能希望低成本和可靠的电力，但从伦理角度来看，每个群体的优先级可能差异很大。

这些伦理标准可能没有得到很好的规范，因此无法进行分析性测量。

电网运营商希望找到最具成本效益的策略，最好地满足所有利益相关者的主观伦理偏好。

SEED-SET通过遵循分层结构将问题分为两部分来解决这一挑战。客观模型考虑系统在成本等有形指标上的表现。然后，考虑利益相关者判断（如感知公平性）的主观模型建立在客观评估基础上。

"我们方法的客观部分与AI系统相关，而主观部分与评估它的用户相关。通过以分层方式分解偏好，我们可以用更少的评估生成期望的场景，"Parashar说。

编码主观性

为了执行主观评估，该系统使用大语言模型作为人类评估者的代理。研究人员将每个用户群体的偏好编码到模型的自然语言提示中。

大语言模型使用这些指令比较两个场景，根据伦理标准选择首选设计。

"在看到数百或数千个场景后，人类评估者可能会出现疲劳并在评估中变得不一致，所以我们使用基于大语言模型的策略，"Parashar解释说。

SEED-SET使用选定的场景来模拟整个系统（在这种情况下，是电力分配策略）。这些模拟结果指导它搜索下一个最佳候选场景进行测试。

最终，SEED-SET智能地选择最具代表性的场景，这些场景要么满足客观指标和伦理标准，要么与之不一致。通过这种方式，用户可以分析AI系统的性能并调整其策略。

例如，SEED-SET可以精确定位在需求高峰期优先考虑高收入地区的电力分配案例，使弱势社区更容易遭受停电。

为了测试SEED-SET，研究人员评估了现实的自主系统，如AI驱动的电网和城市交通路由系统。他们测量了生成场景与伦理标准的对齐程度。

该系统在相同时间内生成的最优测试案例数量是基线策略的两倍多，同时发现了其他方法忽略的许多场景。

"当我们改变用户偏好时，SEED-SET生成的场景集合发生了剧烈变化。这告诉我们评估策略很好地响应了用户的偏好，"Parashar说。

为了衡量SEED-SET在实践中有多有用，研究人员需要进行用户研究，看看它生成的场景是否有助于实际决策制定。

除了进行这样的研究外，研究人员还计划探索使用更高效的模型，这些模型可以扩展到具有更多标准的更大问题，如评估大语言模型决策制定。

这项研究部分由美国国防高级研究计划局资助。

Q&A

Q1：SEED-SET是什么？它解决什么问题？

A：SEED-SET是MIT研究人员开发的一种自动化伦理评估框架，全称为"系统级伦理测试的可扩展实验设计"。它主要解决AI自主系统在高风险环境中的伦理对齐问题，通过平衡可测量结果与主观价值观，帮助识别部署前的潜在伦理困境。

Q2：SEED-SET如何评估AI系统的伦理性？

A：SEED-SET采用分层结构，将问题分为客观和主观两部分。客观模型评估成本等有形指标，主观模型使用大语言模型作为人类代理来评估公平性等伦理标准。系统会智能选择最具代表性的测试场景，无需预先收集的数据。

Q3：SEED-SET在实际测试中表现如何？

A：在测试中，SEED-SET在相同时间内生成的最优测试案例数量是传统基线策略的两倍多，同时发现了其他方法忽略的许多场景。当用户偏好发生变化时，系统生成的场景集合也会相应调整，显示出良好的适应性。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴