类似策略函数与价值函数,态函数侧重局部,而势函数侧重全局。“策略函数”、“价值函数”、“态函数”与“势函数”是从强化学习或者物理学(例如场论)等领域的术语出发讨论的。根据上述的描述,可以从不同的角度来理解它们的侧重点。下面将尝试分别解释这几个概念,并探讨它们在局部与整体方面的区别。

1.策略函数价值函数

这两个概念常见于强化学习中,它们描述的是智能体在决策过程中的行为与评估方式。

策略函数定义了在某一状态下,智能体应该采取什么样的动作,可以是一个局部决策的描述,因为它聚焦在每个状态下选择的动作。换句话说,策略函数告诉我们在某个特定的状态下,采取哪个动作能最大化长期回报(或期望回报)。形式

π ( s ) = a ,即在状态 s 下选择动作 a 。局部性:它是对单一状态下的决策的映射,因此它侧重于局部优化。

价值函数用来衡量在某一状态下,按照当前策略所能获得的预期回报。它不仅仅关注当前的动作选择,而是评估在该状态下的长期收益,因此相较于策略函数,价值函数具有一定的“全局性”,因为它考虑了未来的回报。形式: V ( s ) 是在状态 s 下所能获得的预期回报。全局性:价值函数通常是基于整个状态空间的评估,关注全局的回报。

2.态函数势函数

这两个术语更多出现在物理学领域,尤其是经典力学量子力学或者场论中,但在某些强化学习框架中也有相似的使用方式。

在物理学中,态函数描述的是一个系统的状态,如位置、动量等。在一个特定的时刻,系统的状态函数包含了关于系统的所有信息,因此它是局部的。在强化学习中,状态函数可以看作是系统(或环境)在某一时刻的状态描述,它侧重于局部信息。

势函数通常描述的是系统中相互作用的整体影响,如重力场、电场等。它与系统的整体状态有关,而不仅仅是单一位置的属性,因此势函数具有全局性。在强化学习中,势函数有时被用来描述一个全局的奖励结构,引导智能体朝着目标前进。例如,在某些情况下,势函数可以用来定义一个奖励信号的形式,指导智能体如何探索环境。

3.局部与全局的关系

从上述概念中可以看出,局部性全局性是这两个领域中的关键区别:局部性如策略函数、态函数,它们关注的是特定状态或特定局部区域的决策或描述。全局性如价值函数、势函数,它们通常反映的是系统的整体行为或状态,强调长期或整体的效果。

4.综合对比
策略函数侧重于每个状态下采取的行动,是一种局部的决策策略。价值函数则从全局的角度评估一个状态的长期收益,考虑的是所有后续可能的状态和回报。
态函数在物理学中描述的是系统在特定时刻的状态,它也是局部的描述。势函数则描述系统中的一种全局潜力,它影响系统的整体行为或状态,常常是通过全局场的影响来描述物体之间的相互作用。

可以理解为,策略函数态函数侧重于局部的决策或状态描述,而价值函数势函数则侧重于从整体或全局的角度来描述系统的长期或潜在行为。两者在应用中的互补关系使得在具体问题的求解过程中,局部信息和全局信息相结合,共同推动了系统的优化与演化。

为了更好地理解策略函数态函数价值函数势函数在局部与全局角度上的差异,我们可以通过一些实际的例子来进行说明。这里我们结合强化学习物理学中的场景进行类比。

1.策略函数态函数—— 局部决策或状态描述
例子 1: 强化学习中的策略函数

在一个迷宫导航的任务中,智能体(例如机器人)被要求从迷宫的起点走到终点。智能体在迷宫中的每一个位置(状态)都会面临多个可能的动作(比如向上、向下、向左、向右)。在这个情境下,策略函数就是定义了智能体在每一个位置(状态)下,应该采取什么动作。策略函数描述的是在某一特定状态下(例如迷宫的某个房间或路径上),智能体应该选择哪个动作。例如:

  • 在状态 s 1 (迷宫中的某个位置),策略函数 π ( s 1 ) 可能告诉智能体向右走。
  • 在状态 s 2 ,策略函数 π ( s 2 ) 可能告诉智能体向上走。

局部性:策略函数关注的是在每一个单一状态下的决策,这些决策是基于当前状态的局部信息做出的。智能体每做一次决策,都会根据当前所在的状态作出选择。


例子 2: 物理中的态函数

热力学中,态函数(如内能、温度、压强)描述了系统在某一时刻的状态。假设我们有一个气体系统,状态函数可以告诉我们在某个特定时刻气体的温度和压强。在某一时刻,如果我们测量气体的温度 T T和压强 P ,这些数据就构成了态函数的值。这些量直接反映了气体在该状态下的局部信息。

局部性:态函数描述的是系统在特定时刻的状态,关注的是当前系统的局部性质。

2.价值函数势函数—— 全局或长期潜在行为
例子 1: 强化学习中的价值函数

在强化学习中,价值函数用来评估在某一状态下,按照当前策略行动后能获得的长期回报。它考虑的是从某一状态开始,智能体将如何通过一系列的动作到达终点,并获得奖励。因此,价值函数不仅关心当前状态,还考虑了未来的所有状态。假设在迷宫问题中,智能体当前处于状态 s 1 ,并且该状态的价值函数V ( s 1 ) 估计了从状态 s 1 开始,智能体能够获得的总回报(包括所有后续的奖励)。如果从状态 s 1 开始的回报较高,那么价值函数的值会较大。

  • 全局性:价值函数通过评估整个状态空间的长期回报,反映了系统的全局优化,并考虑了未来状态的潜在影响。


例子 2: 物理中的势函数

在物理学中,势函数(如重力势能、电势能)通常描述一个物理系统中各个部分之间的相互作用或影响。例如,在地球的引力场中,每个物体都有一个与其位置相关的重力势能

  • 假设一个物体在地球表面,物体的重力势能 U ( x ) 由物体距离地球表面的高度 x 决定,势函数 U ( x ) 描述了物体从当前位置(如高度 x )到达地球中心的潜在能量。势能反映的是物体在整个引力场中的相对位置,它不仅依赖于当前状态,还影响着物体未来的运动轨迹。

全局性:势函数考虑的是系统中整体的潜在能量分布,它描述了各个部分之间的相互关系及未来可能的变化。它是对系统全局行为的描述,影响物体的整体运动和状态变化。

策略函数态函数局部的策略函数关心的是在某一特定状态下,智能体应该采取什么动作,是局部的决策问题。态函数描述的是系统在某一时刻的局部状态,例如气体的温度和压强。而价值函数势函数全局的价值函数考虑的是从某一状态开始,智能体能够获得的长期回报,是全局的评估。势函数描述的是物理系统中各个位置之间的潜在能量分布,影响系统的整体行为。通过这些例子,我们可以看到,局部决策和状态描述聚焦于单一时刻或单一位置,而全局行为和潜力描述则强调了整体的长期影响和相互关系。

打开网易新闻 查看精彩图片