打开网易新闻 查看精彩图片

1952年,Richard Bellman发表了一篇论文,奠定了强化学习的数学根基。70年后,训练Stable Diffusion的工程师们正在无意识复现同一套计算逻辑——中间隔着的不是技术迭代,而是同一方程在两个时代的两次"被发现"。

从离散决策到连续时间的跳跃

从离散决策到连续时间的跳跃

Bellman最初的动态规划处理的是离散决策:每步选一个动作,拿到奖励,进入下一状态。价值函数满足一个递归等式——当前最优值等于即时奖励加上折扣后的未来最优值。

但真实世界是连续的。Bellman在50年代后期把这套逻辑推向连续时间,让时间步长h趋于0。推导出的结果是一个偏微分方程(PDE),他很快注意到:这个方程的结构,和1840年代Hamilton在经典力学中写下的Hamilton-Jacobi方程完全一致。

这不是致敬或借鉴。Bellman发现的是,最优控制问题与物理系统的运动规律共享同一数学骨架。用他自己的话说,这是"同一方程在两个领域独立诞生"。

确定性控制:HJB方程的骨架

确定性控制:HJB方程的骨架

先看最简单的确定性情形。系统状态按微分方程演化,控制者选择动作来最大化累积奖励。价值函数V(t,x)表示:从时刻t、状态x出发,按最优策略能拿到的总回报。

动态规划原理给出核心等式:V(t,x)等于在小区间[t,t+h]内选最优动作,拿到即时奖励,再加上h时刻后的延续价值。对光滑V做Taylor展开,令h→0,得到:

−∂ₜV(t,x) = H(t,x,∇ₓV(t,x))

打开网易新闻 查看精彩图片

右边Hamiltonian H定义为:对所有可能动作a,取即时奖励加上状态变化带来的价值增量(用梯度∇ₓV与动力学f的内积表示)的上确界。选择最优动作,就是在这个局部优化问题中找最大值。

把运行奖励写成Lagrangian的负数,r=−L,定义共轭动量p=∂L/∂a,上述方程就退化为经典力学中的Hamilton-Jacobi方程。价值函数对应作用量S,状态x对应广义坐标q。最优控制与经典力学,两套语言描述同一结构。

随机版本:噪声如何改写方程

随机版本:噪声如何改写方程

真实系统有噪声。把确定性动力学换成随机微分方程,dXₜ = f(t,Xₜ,Aₜ)dt + σ(t,Xₜ)dWₜ,其中Wₜ是布朗运动。此时价值函数需要取期望:

V(t,x) = supₐ [∫ₜᵀ r(s,Xₛ,Aₛ)ds + g(Xₜ)|Xₜ=x]

重复动态规划推导,Taylor展开时多出一项:二阶导数与噪声强度的乘积。确定性情形下的HJB方程被修正为:

−∂ₜV = supₐ{r + ⟨∇V,f⟩ + ½tr(σσᵀ∇²V)}

最后一项是Itô修正。噪声把方程从一阶非线性PDE升级为二阶非线性PDE,数学性质剧烈变化——解的存在唯一性、正则性、数值求解难度都上了新台阶。

两条现代分支:强化学习与扩散模型

两条现代分支:强化学习与扩散模型

打开网易新闻 查看精彩图片

Bellman的框架在今天裂变为两条技术主线。

第一条是连续时间强化学习。传统RL以离散时间为主(Atari游戏、围棋),但机器人控制、自动驾驶、金融高频交易需要毫秒级决策。连续时间RL直接优化策略π(t,x),用HJB方程的解来指导梯度更新。难点在于:价值函数通常无解析解,必须用神经网络近似,而高维空间的PDE求解本身就是开放问题。

第二条分支更隐蔽。扩散模型(Diffusion Models)的训练目标,可以被重写为一个随机最优控制问题。具体而言,去噪过程等价于在有限时间内把先验分布"推"向数据分布,控制成本是KL散度,最优控制策略对应训练好的神经网络

2022年Yang Song等人的工作显示:扩散模型的得分匹配(score matching)损失,正是HJB方程的特定离散化形式。训练网络去估计噪声,本质上是在近似求解一个反向时间的随机最优控制问题。

为什么同一方程反复出现

为什么同一方程反复出现

HJB方程的复现不是巧合。它描述的是一类极普遍的问题:在动态演化系统中做序列决策,目标函数是累积奖励(或成本)。无论系统是确定还是随机、时间是离散还是连续、状态空间是有限还是无穷维,核心结构不变。

机器学习的近期进展,很大程度上是把经典控制理论的结论重新发现一遍——用更大规模的计算、更灵活的函数逼近器、更工程化的实现。Bellman在1952年写下的递归逻辑,Stable Diffusion在2022年用GPU集群重新计算了一遍。

区别只在于:Bellman知道自己在解方程,而扩散模型的训练者可能只把它当作"损失函数收敛了"。

如果1952年的Bellman穿越到2024年的NeurIPS,他会在扩散模型的poster前停留多久——是感到欣慰,还是困惑于为什么同一方程需要被重新发明70年?