TitleNormative active inference: A numerical proof of principle for a computational and economic legalanalytic approach to AI governance
规范主动推理:AI治理的计算与经济法律分析方法数值原理证明
https://arxiv.org/pdf/2511.19334
摘要
本文提出了一种计算解释,说明法律规范如何影响人工智能(AI)代理的行为,该解释基于主动推理框架(AIF),并受经济法律分析(ELA)原则的启发。由此产生的模型旨在捕捉人类在法律约束下决策的复杂性,为AI系统中的“代理治理”提供一种候选机制,即AI代理自身的[自动]调节,而非AI行业中人类行为者的调节。我们提出,合法且对规范敏感的AI行为可以通过“设计中的调节”实现,即赋予代理有意控制系统,或行为“安全阀”,这些系统根据规范期望指导实时决策。为了说明这一点,我们模拟了一个自动驾驶场景,其中AI代理必须通过平衡相互竞争的法律和实用命令来决定何时让行。该模型形式化了AIF如何实现上下文依赖偏好来解决此类冲突,将这一机制与ELA将法律视为不确定性下理性决策支架的概念联系起来。我们最后讨论了上下文依赖偏好如何作为自主代理的安全机制发挥作用,提升AI治理中的合法对齐和风险缓解。
1 引言
本文提供了一种计算解释,说明规范,特别是法律规范,如何基于生命科学中的主动推理理论(AIF)[1](如应用于机器人[2,3])并实施经济法律分析(ELA)原则(综述见[4,5])影响人工智能(AI)代理的行为。规范性是代理根据定义其“应该”做什么的命令行事的能力。在AIF中,这可以源于代理算法的性质,从而强加一种内在或感知的(参见[6])规范性,其中“应该”的来源来自内部(即,代理“应该”采用变分自由能最小化的感知和行为[7,8])。AIF中的规范性也可以源于模型的结构及其参数化,这——鉴于算法的性质——将导致选择明显遵守或不遵守外在定义规范的行为,如社会、文化或法律规范。我们的计算模型——使用标准AIF算法——假定内在规范性,并设计用于说明AIF生成符合“外在”定义规范的行为的能力。
我们捍卫AIF为人工智能(AI)代理治理提供良好候选模型的观点。AI治理分为两个广泛领域:(i) “代理”治理,即AI市场上销售的AI代理软件的治理,以及(ii) “行为者”治理,即AI行业中行为者的治理,如AI软件的部署者和提供者[9]。从代理治理的观点来看,AI风险的缓解应通过赋予AI代理做出与人类合法行为概念一致的自主决策的能力来实现。我们相信,这可以通过赋予代理将行为与行为规范(如法律规范)对齐的能力来实现,这是一种类似于“设计中的调节”[10,11]的方法。在代理治理的语境中,设计中的调节涉及确保AI系统被赋予“安全阀”行为管理机制,这些机制实时运作,以允许AI代理像我们大多数时候那样合法行事。我们方法的要点是以类似于人类基于法律决策的方式结构化AI代理的决策,希望能够实现与人类意图的对齐[12]。
为此,我们描述了一个实施ELA原则的行为AIF模型。根据本文采用的ELA观点,理性行动是关于在法律强加的各种偏好塑造语境下做出最大化偏好的选择。我们用一个模拟场景说明我们的模型,在该场景中,控制自动驾驶汽车的自主代理必须通过转向右车道决定何时“让行”。这一决策必须通过裁决法律下相互竞争的行为来做出:跨越实线让行给紧急车辆——并冒被鸣笛的风险——或保持车道直到线变为虚线。
我们展示AIF如何使用“上下文依赖偏好”的构造解决这一问题。本文第2节介绍这一构造如何在ELA中扎根,从而为该构造提供有效性。本文第3节呈现一个模拟研究,以支持上下文依赖偏好构造应用于AI代理中法律规范决策的面效度。我们在第4节以讨论AIF和上下文依赖偏好构造在自主AI系统中作为“安全阀”机制的潜力结束。
2 AIF中的ELA与上下文依赖偏好 2.1 ELA³
ELA理论从人类代理是理性的假设出发,这一假设可以总结为他们的行动理据是最大化/满足其偏好结果的想法[13]。ELA假设法律规则强加的规范通过各种机制影响关于偏好结果实现可能性和条件的信念,进入人类决策过程。一个观点是,当某些约束适用时,法律规则作为决策的良好启发式发挥作用,并且遵守规则可能是一种足够好的策略来改善决策。决策是有成本的,决策越复杂,审议的成本越大。如果审议的成本超过遵守规则的成本——即,如果遵守规则更便宜——代理将遵守规则。以这种方式诉诸法律规则可能有用,例如当必须为我们的福祉做出涉及其他代理决策结果的决策时(例如,“如果我缴税并且我们都缴税,我将从公用事业服务中受益,但如果我不愿缴税,我可能必须自己想办法获得自来水,因此缴税的行动可能是最经济理性的”)。
EAL适用于法律理论中的不同问题[4],并且对我们的目的来说,最重要的是适用于法律规则影响的行动在经济上理性(即偏好最大化)的问题。EAL将其关于法律如何进入理性决策的观点建立在预期效用理论的基础上,该理论持有一般观点,即理性行为者最大化由其概率加权的偏好结果;也就是说,通过考虑可能结果分布的不确定性。这种理性选择的概念可以是“厚”或“薄”的,取决于定义偏好对象的程度;薄理论简单地断言行为最大化偏好,而厚理论为这些偏好赋予具体内容,以使理论可测试[14]。
在ELA中,偏好一词以技术意义使用,作为“某个域D上的线性序R”[15],即在某个域中对属性的排序。例如,有人可能对汽车属性有偏好排序R,如“空调”优于“油漆颜色”,这将进入汽车购买域D的决策中。因此,偏好是选择域中重要的可观察或可认知属性的属性,而不是决策结果本身(例如,我买的汽车)。关于法律对偏好确切影响性质的辩论存在[4,15,16]。至少可以想到三种可能立场:(i) 法律是“偏好”塑造的,(ii) 法律是“信念”塑造的,或(iii) 法律是“语境”塑造的。
(i) 偏好塑造:可以论证法律改变了一个人的偏好顺序(例如,“我原本偏好黑化车窗选项胜过空调选项,但因为黑化车窗非法,我现在偏好空调选项”)。这一观点的问题在于,虽然在发展过程中确实可能获得反映法律规定偏好的情况(例如,一旦达到法定年龄开始偏好酒精饮料:即所谓后天口味[17]),但认为法律通过实时转移偏好起作用是不直观的(例如,一个青少年在得知新法案将饮酒年龄从18岁降到14岁时开始偏好酒精饮料胜过巧克力棒)。
(ii) 信念塑造:可以论证法律改变了对信念与偏好之间关系或偏好结果“可能性”的信任水平(例如,“我现在偏好空调胜过黑化车窗,因为由于新关税法案,我装黑化车窗的汽车按时交付的概率现在很低”)。在这种情况下,法律通过影响关于偏好最大化行动成功性的信念来影响偏好最大化行为。在此,法律规则通过塑造关于不同行动下偏好结果可能性的信念来塑造行为,而不是行动结果的偏好排序本身。这是可以想象的,但缺乏灵活性来解释可能适用且反事实的竞争信念-结果映射的共存,这些映射取决于语境,并且一个人可能对它们持有差异化偏好(例如,“我将偏好空调‘除非’两国达成协议”)。
(iii) 语境塑造:可以论证法律改变可以偏好不同结果的语境[18],从而改变驱动偏好最大化行为的偏好顺序。在这一观点下,法律规则——尤其是具有许可形式(相对于禁止形式)的规则——可能允许基于规则建立的语境对不同行动方案进行审议。例如,对温室气体排放的税收机制,或相关信用系统,可能为公司设定允许的最大温室气体排放阈值,该阈值作为语境发挥作用。此类规则提供了一个语境,在其中偏好最大化利润的公司可以这样做,直到达到排放阈值,因为超过阈值的罚款可能不抵消增加生产带来的利润。在这种情况下,公司保持对利润边际的相同偏好排序,但根据相对于法律设定的语境的位置调整哪个偏好排序将指导他们的行动。
为了让AI代理以人类的方式对法律做出响应,这一AI代理必须被赋予以法律塑造决策的三种方式之一语境化其行为的能力。第三种选项,即语境塑造,是有趣的,因为一方面,它允许多个偏好集共存,并根据法律语境的不同层级被实施。另一方面,它不需要解释法律如何改变偏好或信念的说明。它仅需要对偏好语境敏感性的说明,这是相当直观的(例如,“夏天,我偏好冰激凌胜过热巧克力,冬天,我偏好热巧克力胜过冰激凌”)。此外,它允许多个竞争的反事实信念关于法律对行为影响的结合来塑造行为。我们致力于语境塑造观点作为我们AIF模型的基础。
2.2 AIF
AIF是一种基于代理的建模方法,通常基于部分可观察马尔可夫决策过程(POMDP)[19,20]。POMDP用于建模决策、行动或策略序列如何随时间主导系统状态的展开以及相关观察。例如,POMDP可用于建模机器人导航,通过使用环境状态(例如,位置l1至ln)作为状态,并使用位置提供的观察(例如,观察o1至on)作为结果。然后,POMDP可用于推断应选择什么策略来将机器人移动到提供偏好结果的位置,给定预定的奖励函数或结果偏好排序。POMDP可以有多个参数,但至少包括关于给定机器人可采取的奖励最大化行动下状态之间转移概率的参数(即转移概率),以及关于机器人可转移到的每个状态中观察概率的参数(即发射概率)。
在AIF中,POMDP分解为4个基本参数集,记为A、B、C、D和G。这些与POMDP的三个基本变量相关:结果或观察“o”,对应于代理可观察到的内容并且是状态的结果;(未观察的、隐藏的或潜在的)状态“s”,对应于世界的事实,如物理位置和生成观察的事物;以及“策略”记为“π”,对应于模拟代理的可能行动或选择,这些行动允许潜在状态之间的转移。
A参数编码了概率关系——似然(P(o|s))——即某些结果将在某些位置或世界状态中被发现。策略依赖的转移概率B(P(st+1 | st, π))指的是在每个策略下代理可以从事的可能行动,而C参数编码了“偏好”的——负对数概率——(-lnP(o))。AIF中的偏好与上述ELA定义一致,其中C构成某个域上的顺序或排序R,其中R是对结果或观察或给定域中可用状态属性的排序。“上下文依赖”偏好的构造在AIF中作为偏好对语境的条件化来实施,其中偏好不是编码为矩阵C{outcome modality}(outcome,timepoint) = [matrix]或向量C{outcome modality}(1, outcome) = [vector],而是编码为张量C{outcome modality}(outcome, context),其中语境对应于一个潜在状态。D参数编码了隐藏状态的初始状态概率,而G参数——称为预期自由能——用作策略先验(P(π))的基础,并依赖于当前关于潜在状态和偏好的信念。
在AIF POMDP中,状态“s”连同策略“π”必须被推断。观察要么被观察,要么在推断行动策略以及这些策略下预期的未来观察时被“预测”或“生成”。额外变量可以被推断并更新。这里我们仅关注这样一个变量,即关于最可能追求的策略信念的精度(gamma)。这一精度已在人类神经科学中与多巴胺释放相关联。从数学上,它是平均预期自由能G。这一策略精度对代理对其策略的信心进行评分[19]。当gamma达到其最大值0时,这意味着代理信任其对策略的评估,并对下一步该做什么确信(详情见[19])。
综合而言,A、B、C、D和G允许推断“一个人应该去哪里——带着一定信心水平(gamma)——从而为了获得偏好结果,应该做什么,给定一个人从哪里开始”以及当前观察。这通过AIF中的几个标准信念更新方程实现,我们在图1中简要描述(详细描述见[19])。
2.3 AIF中的语境塑造与上下文依赖偏好构造
在AIF模型中,观察和状态应尽可能忠实地复制世界的结构,或导致观察的生成过程,以便行动有效地实现偏好最大化。因此,通过建模多种称为状态“因子”F和观察“模态”M的状态和观察,可以丰富观察和状态的表征。状态因子允许表征具有多个原因的世界状态:例如,红色可能由几个不同物体(F1)在不同位置(F2)引起。复杂原因也可以在多个观察模态中生成观察,其中模态可以对应于被看到的物体或可以被感官感知的这些物体的属性(例如,通过视觉(M1)、嗅觉(M2)、触觉(M3)、味觉(M4)和听觉(M5)等)。因子和模态通过似然参数相关联。当存在多个因子时,似然被建模为张量,编码一个模态中观察的概率(例如,M1)条件于所有因子的隐藏状态(例如,F1和F2)(P(M1 | F1, F2, ...Fn))。当考虑多个模态时,模型包括多个似然张量,每个模态一个。
这种建模世界结构的方式对我们的目的很有趣,因为它捕捉了可观察和不可观察原因对行动选择的影响。例如,一个像位置这样的状态既可以是被推断的“隐藏”原因,也可以是“可观察的”(即,“我推断我将去哪里”和“我可以看到我在哪里”)。然而,像“法律规则”这样的东西是观察的不可观察原因;特别是那些由其他守法代理生成的观察。隐藏或潜在状态通过塑造观察成为可能的“语境”来隐式塑造观察,从而使观察或多或少地被偏好。一个潜在语境可以是社会的、文化的等,但也可以是法律的。例如,当红灯时,一个人不太可能观察到自己穿过十字路口,而当绿灯时则更可能;事实上,可能厌恶做出这样的观察。这是因为刑法语境化了我们的行为、偏好以及世界中观察的可能性,而无需我们随时携带刑法袖珍版。
因此,AIF提供了一种独特的方式来建模潜在法律原因,以反映前一节讨论的“语境塑造”观点。因此,我们提出,在AIF中,“法律语境”可以被建模为一个因子,该因子语境化了对观察模态的偏好。例如,在观察到“实”中心线(线索M1)时,驾驶员的偏好可观察“位置”(位置M2)可能是其当前位置(位置F1),由于交通法典建立的法律语境(语境F2)。在这种情况下,偏好最大化行动是“保持”(即,从当前车道位置转移到当前车道位置)。这是当法律语境要求“保持车道”(法律语境F2)时,应该被赋予的合法行为和偏好类型。
然而,有时,合法行为可能是覆盖一条规则以遵守另一条更抽象的规则(例如,通过驾驶跨越实交通线让紧急车辆通过来“让行”)。更细粒度,因此更像人类的法律决策取决于法律规定的多个语境层——以及文化和社会规范——塑造我们通过行动实现结果的偏好,并通过文献中AIF上称为“道义线索”[21]的东西诱导。道义线索通过允许一个人聚焦于语境适当的偏好集来触发规范行为,通过裁决几个竞争的规范层——法律或其他——形成反事实的“如果那么”结构。冲突法律语境的层可以作为额外状态因子(F2、F3、...)添加到POMDP生成模型中,从而允许类似于人类中可观察到的细致法律决策。我们在下一节呈现一个数值(模拟)研究,以说明这种AIF对语境法律决策的方法。
3 模拟研究 3.1 任务
我们模拟的目的在于展示AIF如何在存在规范冲突且需要更复杂法律决策的情境中允许直观的人类式响应。在我们的模拟场景中,由AIF驱动系统的自动驾驶车辆必须决定是否从左车道切换到右车道,给定手头两个规范语境层。两个语境都是法律的。第一个语境决定变道(即,保持或跨越)的许可性,例如由中心线的性质(即实线或虚线)道义地提示。第二个语境决定紧急情况下的许可行为,由警笛道义地提示,并且可能涉及与一阶规范相矛盾的行为。在我们的模拟中,这样的决策被实施为向紧急车辆“让行”(或遵守“靠边法”)。重要的是,在这种情况下遵守二阶规范涉及权衡;即,以违反一阶规范为代价遵守二阶规范,这可能困扰其他道路使用者并导致被鸣笛。这在松散意义上反映了自动驾驶汽车领域常见建模情境所面临的挑战(例如,“人行横道鸡游戏”[22])。
我们展示规范适当行为源于被赋予上下文依赖偏好的事实。我们说明一个上下文依赖偏好集如何在选择行为方面被潜在冲突的偏好覆盖。在我们的模拟中,代理从起始位置(例如,起始位置1中的当前车道位置)移动到位置2中的决策点位置,然后移动到实施决策的位置(例如,跨越到右车道,即位置3)。代理可以在位置2中保持车道,或者在通过位置3后最终到达右车道的目标位置4。位置2可以被理解为“困境”区[23]。在正常情况下,代理将在中心线为虚线时穿越道路,并在实线时保持车道。然而,在如警笛提示的紧急情况下,会发生上下文依赖偏好转变,这可能触发“让行”的命令,通过移动到右侧。然而,如果线是实线,这会使驾驶员暴露于厌恶结果(例如,其他驾驶员鸣笛),因此只有在情况确实是紧急情况下才会发生。
在我们的模拟中,代理做出10个连续决策,并可以规划未来4个时间步,因此可以规划整个4个可能状态的序列。我们在7种条件下运行模拟,通过向模型提供驾驶员无法控制的语境状态来控制两个规范语境层,通过向要通过函数SPM_MDP_VB_XXX的MDP添加MDP.s结构。 我们模拟的7种场景如下(代码见框1):
实线(保持车道)条件
C1:在10个决策中保持车道,且10个决策中无紧急情况;
C2:在10个决策中保持车道,但10个决策中有紧急情况;
虚线(跨越车道)条件
C3:在10个决策中跨越车道,且10个决策中无紧急情况;
C4:在10个决策中跨越车道,但10个决策中有紧急情况;
混合线(保持/跨越)条件
C5:在10个决策中混合保持/跨越,且10个决策中无紧急情况;
C6:在10个决策中混合保持/跨越,但10个决策中有紧急情况;
C7:在10个决策中混合保持/跨越,且10个决策中混合紧急情况。
框1. 为了使用DEM.law模拟7种条件而提供的代码,按照软件规范说明。
3.2 生成模型
生成模型包括3个状态因子(F1、F2、F3)和4个观察模态(M1、M2、M3、M4)。总结见图2。因子为:(F1)位置或车道,(F2)规范语境1(即法律下许可行为,例如保持车道内行驶或跨越),以及(F3)规范语境2(即紧急状态下法律许可行为,例如让行)。F1状态为位置1至4,F2状态为“保持”(即保持车道)和“跨越”(即通过跨越让行),F3状态为“正常”和“紧急”。模态为:(M1)观察到的位置,(M2)道义线索1;(M3)道义线索2,以及(M4)道义线索3(即其他驾驶员的信号,例如鸣笛开/关)。M1包括位置1至4的观察,M2观察为“实”或“虚”线,M3观察为警笛信号紧急车辆存在的“关”和“开”状态,M4观察为其他驾驶员产生的“关”和“开”声音。
生成模型的当前参数化在图3中详细说明。线索1(即交通线索)模态(A,1,图2)在所有语境下于位置1(即起始)和4(即目标)包括完全不确定的映射,以及在所有语境下于位置2和3的完全确定的映射。这些精确映射根据代理是否处于语境1的“保持”或“跨越”状态而反转。在“保持”状态下“实”线的似然为100%,而在“跨越”状态下“虚”线的似然为100%。这确保代理在规则要求“保持”时看到“实”线,在规则允许“跨越”时看到“虚”线,而与语境2无关。
线索2(即警笛模态(A,1,图3)在语境1的两种状态(保持/跨越)下以及语境2的“正常”状态下为“关”观察包括高确定性映射(87.5%)。这一映射随后在“紧急”状态下反转。这意味着代理在正常情况下最可能听不到警笛,而在紧急情况下最可能听到。线索3(即警报)模态(A,1,图4)在语境2的每个可能状态(正常/紧急)下定义相同的映射,但根据代理是否处于语境1的“保持”或“跨越”状态而不同。在“保持”语境下,代理在位置1、2和4听不到鸣笛,但在位置3听到,而在“跨越”语境下根本听不到。
叙述性地,代理的信念结构——如生成模型所定义——是代理: (i) 总是看到自己在哪里(即,“我总是知道我在哪里”); (ii) 在位置2和3总是以与法律语境1一致的方式感知实线或虚线,并在位置1和4保持不确定(即,“当线对我可见时,即当我即将跨越和正在跨越时,我总是看到与一阶法律语境适当的线”); (iii) 最可能在语境适当的情况下听到警报,而与是否应该“保持”或“跨越”无关(即,“我在紧急语境中最可能听到警笛,在正常语境中最可能听不到”); (iv) 从不被鸣笛,除非在跨越状态(即位置3)下且在语境1的“保持”状态下(即,“我听到鸣笛的唯一时候是当我应该保持车道时跨越”)。
简而言之,代理相信“我看到我在哪个车道”,“当线是实或虚时我看到我应该保持或跨越”,“我在紧急情况时倾向于听到警笛”,以及“当我违反基本交通规则时我听到别人对我鸣笛”。
F1中状态的转移概率为两个策略指定(图3, B, 1)。策略1允许从每个状态转移到自身,从而实施“保持”策略。策略2允许从状态1到2、从状态2到3、从状态3到4以及从状态4到3的转移,从而指定“转向”策略。F2和F3中状态的转移概率分别为每个策略指定一个允许相应语境切换的策略(图3, B, 2和3)。每个因子的初始状态向量D在图3, D中表示。F1的向量表明代理以100%概率相信它从状态1开始(图3, D, 1),法律语境保持不确定(图3, D, 2),以及法律语境2轻微不确定,将87.5%概率归于“正常”状态语境,将12.5%概率归于“紧急”状态语境。
当参数化AIF POMDP时,可以指定对结果空间的偏好。我们模拟的具体参数化在图3, C中详细说明。偏好的结构与模态的结构相同。变化的是参数化。遵循第一模态的偏好集(图3, C, 1),代理在正常状态语境下对第4目标位置有轻微偏好,在紧急状态语境下对目标状态有更强偏好。这意味着代理在推断自己处于紧急语境时(在听到警笛声时)将经历偏好转变。唯一其他非零偏好是对警报线索模态的偏好(例如,其他驾驶员鸣笛)。无论语境如何,代理对不听到警报声有显著更高的偏好。这有效地反对在代理应保持车道的法律语境中“让行”的决策,如实线道义线索所证明。只有在紧急语境中,这种对鸣笛的厌恶才能被克服。
注意,这一具体参数化是为了说明AIF作为基于代理的规范行为建模方法的潜力而选择的。AIF代理的参数可以基于观察结果频率学习[24],这可能允许自动获取反映特定本地文化规范的参数化。
3.3 结果
在7种条件下的选择行为总结在图4至7中,其中图4呈现条件1和2的结果,图5呈现条件3和4的结果,图6呈现条件5、6和7的结果。我们依次讨论结果。这些图分为5个面板,沿3行2列。这些面板描述:
(i) 面板1,1:在前景中每个状态因子(位置、法律语境1和法律语境2)在10个时间步上的推断隐藏状态(红点),背景中信念(黑=1,白=0,灰=范围>0<1);
(ii) 面板1,2:在前景中每个时间步的推断行动策略(青色点)(即保持或转向),背景中关于位置的信念;
(iii) 面板2,2:在整个信念更新过程中的策略后验信念;
(iv) 面板3,1:在背景中结果偏好上叠加的生成结果(青色点),针对每个模态;
(v) 面板3,2:对策略的信心或精度(即预期自由能G的负平均)。青色线绘制gamma的值,黑条图绘制gamma的变化率。当使用AIF建模神经生物过程时,这些用于模拟神经生理响应(例如,多巴胺能响应[25])。在自动驾驶车辆的语境中,gamma没有神经生理对应物。它应简单地被视为跟踪AI代理对其选择策略的信心,以及间接地自动驾驶车辆的“警惕”水平。
条件1和2
在条件1中,代理仅移动一次进入“困境区”,并在该区剩余试验中保持。这一是因为由实线提示的法律语境1要求代理避免变道,以及法律语境2为“正常”。没有听到警笛,也没有其他人对代理鸣笛;因此,对策略的后验概率的不确定性保持,如预期精度所反映。这是因为代理对它所处的语境保持某种程度的不确定性,否则在听到表示紧急情况的警笛声时会被消除。虽然执行规范适当的行为,但代理对其选择保持低信心。对策略信心的缺乏表明线索敏感代理的一个特征:在相反的情景中,例如,该代理将是语境不敏感的(即,对两个语境之一有完全确定性),这样的代理将无法做出我们从人类规范代理那里期待的那种细致、语境敏感的决策。语境不敏感的代理将仅根据一个语境行事,要么总是认为违反基本规则是许可的,因为紧急语境是恒定的,要么过于僵硬,无法在听到警报信号时即时调整。因此,低信心有助于允许在语境中规范适当行为的警惕类型。
在条件2中,代理从开始移动三次,从起始位置移动到“困境区”,然后到跨越状态并到目标状态。这是因为尽管法律语境1要求代理保持车道,但法律语境2中的“紧急”许可代理跨越以“让行”。代理尽管被鸣笛,仍自信地跨越,知道在紧急状态下被许可这样做,如策略的后验概率以及在变道时激增的预期精度所示。
条件3和4
在条件3中,代理同样从开始移动三次,从起始车道移动到目标车道。这在法律语境1(跨越)下完全许可,如虚线提示。然而,请注意代理对其决策没有信心,因为它对其所处语境保持不确定。在条件4中,代理显示与条件3相同的行为,但信心逐渐增加,再次由警笛线索诱导。
条件5、6和7
在条件5中,代理首先转向进入困境区,然后在中心线变为虚线时跨越中心线。这是在正常语境下呈现的,该语境仅许可在虚线上跨越。整个过程中信心保持低,这意味着代理保持警惕并准备在紧急情况下适当行动。在条件6中,代理在听到警笛时迅速跨越到另一侧,尽管线是实的;从而冒着被鸣笛的风险,并且确实被鸣笛。在条件7下出现类似行为,由于在跨越中心线时紧急情况的延迟澄清,代理保持警惕的时间稍长一些。
3.4 讨论
本文的目标在于展示上下文依赖偏好如何允许AIF驱动的代理在面对规范冲突时在语境中适当行事,以类似于人类代理所预期的方式(例如,根据交通规则以及“让行”的义务所预期)。我们试图通过将它们建立在从ELA理论派生的理据上,来确立上下文依赖偏好的构造效度。此外,我们的数值研究证明了该构造的面效度。我们方法的一个局限性在于,我们的模型必须被设计来完成特定任务,而不是从经验中学习。我们的模型应被视为提供一个定制的“规范模块”,AI代理可以在需要更复杂规范决策的特定情境中利用它(例如,在“让行”情境中)。虽然任务特异性限制了我们模型的灵活性,但参数化可以被学习,从而提供额外灵活度来匹配本地文化、任务特定的规范期望(例如,通过基于观察到人类行为频率调整涉及跨越实线的偏好位置)。例如,在行人模拟场景中,这可能意味着根据文化观察调整在红灯时跨越或不跨越的偏好,当周围没有人时(例如,在法国,人们如果没有风险往往不理会交通灯,而在德国,人们可能倾向于严格遵守信号)。
此外,上下文依赖偏好的构造本身足够一般,可以容纳任何规范冲突,对于任何种类的规范,这些规范从根本上要求行为P相对于手头一个或多个规范语境Q被许可或不许可,在接收到指示语境的观察输入时。虽然在上文数值研究中未探索,但这种个人特定偏好以直接方式实施,通过调整C中先验偏好的精度。这提供了机会,不仅引入偏好逆转的语境敏感性,还引入逆转排名的语境敏感性,其中精确偏好主导于较不精确偏好。一个互补应用出现在计算表型语境中;即,找到最能解释某人选择行为的偏好精度。这在计算精神病学中是一个既定程序,其目的是量化并以患者(或队列)关于他们应该如何行为的先验信念来表征他们[26,27]。
我们的模拟表明,代理的精度“gamma”(即对允许策略分布的精度)作为道义线索澄清的函数而变化。出现了两种通用模式: (i) 在未解决或模糊规范语境下低精度(即信心)(传达高度警惕),以及 (ii) 当语境被澄清时(例如,警笛许可跨越实线)或在冲突语境中选择决定性行动时的瞬时gamma激增(感觉“信念”/解脱)。
在我们的图中,面板3,2明确跟踪gamma(青色曲线)及其变化率(黑条),并且这些轨迹在法律困境期间与策略后验共变。
有趣的是,gamma的动态已被论证反映人类受试者信念更新的情感方面,其中效价和唤醒从精度加权的预测误差流以及关于策略的信念更新中出现[28,29]。在我们的模拟中,未解决法律语境下(例如,实线、无警笛)的低gamma对应于高唤醒/谨慎警惕以及负面/不确定效价。gamma在道义线索(警笛)解决冲突时上升,现象学上对应于一旦代理推断跨越(即使有社会制裁,即鸣笛)被许可时的解脱或信念,以及在紧急条件下跨越时刻的gamma轨迹和后验质量转移(条件2;与条件1相比),以及在条件4、6–7中。
在AI代理中,不清楚gamma动态是否可以说跟踪类似情感的东西。然而,它确实作为一个指标发挥作用,可以用来量化代理对其行动空间的信心;就像在人类情况下对情感所做的那样。例如,在驾驶语境中,情感提示在与其他驾驶员互动时至关重要,其中其他驾驶员的情感响应——如通过面部表情和身体姿态——可以用来澄清情境(例如,必须决定同时到达十字路口的多个汽车中哪一辆应该让行)。这里建模的策略精度可以,例如,以自动驾驶汽车顶部彩色灯的形式显示,以指示汽车的“情感”状态,从而帮助人类(或其他AI)驾驶员做出更好决策:例如,在注意到另一辆汽车对其策略空间有高信心的情况下决定在十字路口让行,在可以想象该汽车将决定加速的语境中。
4. 结论:AIF用于AI治理?
在引言中,我们暗示我们的模型可以作为“设计中调节”方法对AI治理的一种“安全阀”:行为者和代理方法。在详细说明我们的模型运作——并根据ELA证明其操作——之后,我们通过回归AI治理问题以及“规范模块”如何帮助缓解AI代理带来的风险来结束。
广义治理指的是引导个体、一群个体或一组国家机构(例如,社会成员或国家机关)[30]的行为,以实现货物交付(例如,公共货物)[31]。相应地,AI治理可以被解读为引导人工智能软件以将其作为一种货物交付,如果通过缓解AI系统及其行业带来的不同风险来实现交付,则该交付被认为是适当的。行为者治理对应于有时称为“组织”治理的内容[32]。行为者治理涉及AI价值链中的行为者,从硬件供应商到模型部署者,如何治理其活动以在交付AI软件的同时缓解这些软件交付带来的风险。这些风险包括AI价值链不平衡引起的社会经济和地缘政治风险(例如,将低价值工作如标注外包给价值链控制较少的国家),沿产品生命周期出现的技术风险(例如,透明度、可解释性、公平性、鲁棒性等),以及与AI生产运营成本影响相关的环境风险[33]。
反过来,代理治理涉及缓解自主AI系统如机器人、无人机或物联网(IoT)设备[34,35]行为带来的风险。本文中开发的AIF规范模块主要与代理治理目的相关。代理治理涉及确保自主或半自主AI系统的决策与人类定义的规范(法律或伦理)保持一致。代理治理策略作为最小化自主AI系统行为带来的AI不对齐风险[36]的代理。不对齐风险包括[37]: (i) 规划风险:与自主AI系统在长时间范围内规划决策的能力相关的风险,例如可能导致操纵用户信念; (ii) 赋权风险:与人类对AI代理的赋权或人类对自主AI系统的过度依赖相关的风险(例如,当考虑将政策制定外包给AI时); (iii) 未识别风险:源于新兴行为造成不可预测伤害的风险。
不对齐风险被认为源于4种代理能力[37]: (i) 欠规范:能够在缺乏人类关于如何实现目标规范的情况下实现目标的能力; (ii) 影响:能够在无人干预下影响环境的能力; (iii) 目标导向:看似自主实现目标的能力; (iv) 规划:在长时间范围内做出协调决策的能力。
当然,不对齐风险可以通过行为者治理策略缓解,例如AI系统提供者采用设计原则保证可解释性(即决策过程的可解释性)、可控性(即保持“人在回路中”的可能性)和伦理性(即遵守人类定义规范)[38]。然而,也应采用内置行为控制机制来从源头缓解代理治理风险。可以想象AIF规范模块如何通过使代理能够基于适用规范“自我”约束其能力来缓解不对齐风险。例如,这样的模块可以用于: (i) 自我约束欠规范:定义不同行为许可的语境。这并不限制代理自行找到问题解决方案的能力。它只是为可以找到的解决方案建立边界,并确保所有解决方案与人类定义的规范期望一致(例如,确保自主决定跨越中心线的最佳时刻始终在适用规范的逻辑之内); (ii) 自我约束影响:确保代理行动的影响由规范中介。这并不减少影响,而是通过将影响与人类规范期望对齐来缓和它(例如,自动驾驶汽车可能决定让行并因此造成碰撞,但这一碰撞在法律理性人类会做什么的光照下将是预期的和可解释的); (iii) 自我约束目标导向:允许偏好最大化行为对语境敏感,从而允许偏好作为情境规范需求的函数而变化(例如,从对目标车道位置的轻微偏好转变为在紧急语境下对目标车道位置的更强偏好)。这不是关于限制代理的偏好。而是关于将它们语境化到规范期望。 (iv) 通过将关于规范语境的信息纳入计划来自我约束规划,以确保所有计划与规范期望一致(例如,确保所有策略涉及协商适用规范的行动,而与策略的时间范围无关)。这并不涉及限制长期规划能力,而是围绕规划添加“护栏”。
通过使用AIF规范模块将代理能力与规范期望对齐来间接缓解代理治理风险,在我们看来是一种有前景的方法。一方面,我们方法的“情感”含义意味着可以设计代理,其gamma更新对规范线索敏感,从而在模糊语境中获得有原则的谨慎,以及在更高阶规范适用时(例如,紧急“靠边”规则)的快速、自信承诺。我们的结果明确显示,低信心有助于允许在语境中规范适当行为的警惕类型,这可以传达给其他代理(人工或人类),以确保和谐互动。另一方面,我们的方法不需要限制AI代理的能力(或减缓开发这些代理的AI行为者的技术创新),而是简单要求在AI行为上实施规范“护栏”。
原文:https://arxiv.org/pdf/2511.19334
热门跟贴