Bellman 1952年的方程，70年后被Stable Dif|bellman|导数|神经网络|等式

1952年，Richard Bellman发表了一篇论文，奠定了强化学习的数学根基。70年后，训练Stable Diffusion的工程师们正在无意识复现同一套计算逻辑——中间隔着的不是技术迭代，而是同一方程在两个时代的两次"被发现"。

从离散决策到连续时间的跳跃

Bellman最初的动态规划处理的是离散决策：每步选一个动作，拿到奖励，进入下一状态。价值函数满足一个递归等式——当前最优值等于即时奖励加上折扣后的未来最优值。

但真实世界是连续的。Bellman在50年代后期把这套逻辑推向连续时间，让时间步长h趋于0。推导出的结果是一个偏微分方程（PDE），他很快注意到：这个方程的结构，和1840年代Hamilton在经典力学中写下的Hamilton-Jacobi方程完全一致。

这不是致敬或借鉴。Bellman发现的是，最优控制问题与物理系统的运动规律共享同一数学骨架。用他自己的话说，这是"同一方程在两个领域独立诞生"。

确定性控制：HJB方程的骨架

先看最简单的确定性情形。系统状态按微分方程演化，控制者选择动作来最大化累积奖励。价值函数V(t,x)表示：从时刻t、状态x出发，按最优策略能拿到的总回报。

动态规划原理给出核心等式：V(t,x)等于在小区间[t,t+h]内选最优动作，拿到即时奖励，再加上h时刻后的延续价值。对光滑V做Taylor展开，令h→0，得到：

−∂ₜV(t,x) = H(t,x,∇ₓV(t,x))

右边Hamiltonian H定义为：对所有可能动作a，取即时奖励加上状态变化带来的价值增量（用梯度∇ₓV与动力学f的内积表示）的上确界。选择最优动作，就是在这个局部优化问题中找最大值。

把运行奖励写成Lagrangian的负数，r=−L，定义共轭动量p=∂L/∂a，上述方程就退化为经典力学中的Hamilton-Jacobi方程。价值函数对应作用量S，状态x对应广义坐标q。最优控制与经典力学，两套语言描述同一结构。

随机版本：噪声如何改写方程

真实系统有噪声。把确定性动力学换成随机微分方程，dXₜ = f(t,Xₜ,Aₜ)dt + σ(t,Xₜ)dWₜ，其中Wₜ是布朗运动。此时价值函数需要取期望：

V(t,x) = supₐ [∫ₜᵀ r(s,Xₛ,Aₛ)ds + g(Xₜ)|Xₜ=x]

重复动态规划推导，Taylor展开时多出一项：二阶导数与噪声强度的乘积。确定性情形下的HJB方程被修正为：

−∂ₜV = supₐ{r + ⟨∇V,f⟩ + ½tr(σσᵀ∇²V)}

最后一项是Itô修正。噪声把方程从一阶非线性PDE升级为二阶非线性PDE，数学性质剧烈变化——解的存在唯一性、正则性、数值求解难度都上了新台阶。

两条现代分支：强化学习与扩散模型

Bellman的框架在今天裂变为两条技术主线。

第一条是连续时间强化学习。传统RL以离散时间为主（Atari游戏、围棋），但机器人控制、自动驾驶、金融高频交易需要毫秒级决策。连续时间RL直接优化策略π(t,x)，用HJB方程的解来指导梯度更新。难点在于：价值函数通常无解析解，必须用神经网络近似，而高维空间的PDE求解本身就是开放问题。

第二条分支更隐蔽。扩散模型（Diffusion Models）的训练目标，可以被重写为一个随机最优控制问题。具体而言，去噪过程等价于在有限时间内把先验分布"推"向数据分布，控制成本是KL散度，最优控制策略对应训练好的神经网络。

2022年Yang Song等人的工作显示：扩散模型的得分匹配（score matching）损失，正是HJB方程的特定离散化形式。训练网络去估计噪声，本质上是在近似求解一个反向时间的随机最优控制问题。

为什么同一方程反复出现

HJB方程的复现不是巧合。它描述的是一类极普遍的问题：在动态演化系统中做序列决策，目标函数是累积奖励（或成本）。无论系统是确定还是随机、时间是离散还是连续、状态空间是有限还是无穷维，核心结构不变。

机器学习的近期进展，很大程度上是把经典控制理论的结论重新发现一遍——用更大规模的计算、更灵活的函数逼近器、更工程化的实现。Bellman在1952年写下的递归逻辑，Stable Diffusion在2022年用GPU集群重新计算了一遍。

区别只在于：Bellman知道自己在解方程，而扩散模型的训练者可能只把它当作"损失函数收敛了"。

如果1952年的Bellman穿越到2024年的NeurIPS，他会在扩散模型的poster前停留多久——是感到欣慰，还是困惑于为什么同一方程需要被重新发明70年？

Bellman 1952年的方程，70年后被Stable Dif

从离散决策到连续时间的跳跃

确定性控制：HJB方程的骨架

随机版本：噪声如何改写方程

两条现代分支：强化学习与扩散模型

为什么同一方程反复出现

热搜

热门跟贴

从离散决策到连续时间的跳跃

确定性控制：HJB方程的骨架

随机版本：噪声如何改写方程

两条现代分支：强化学习与扩散模型

为什么同一方程反复出现

热搜

热门跟贴

相关推荐

电子也会“排队”走吗？这个问题困扰了物理学家数十年

《人类科学技术史-259》居维叶

解方程，题目有点复杂

小学数学，为什么大多从三年级开始会“梯次掉队”？

百慕大三角

1841三年级：这道题真不好给孩子讲呢，可以转化一下，就好理解多

40年码农发起灵魂拷问：1986年写代码的人，靠什么活下来的？

还把“历史数据”当护城河？靠牛顿的笔记算不出相对论

这个数学家给26个函数取了鸟名，程序员用了40年才发现真香

Mark Mahoney教了23年编程

哪一种解方程更容易理解

苹果1986年埋了颗彩蛋，38年后还有人专门调日期解锁

你以为他问的是细节？其实是是一开始没算出来

再过三十年，

可惜墨家了，要是能一直存货至今，我感觉他们能弄出个永动机！

30年数学悬案，Claude一小时破解，88岁图灵奖得主震惊

投流与算法的“黑洞”——也许是一场被算法投流美化的庞氏幻觉

Information Shapes Koopman Representation：信息如何决定模拟

第十七届全国大学生数学竞赛非数学专业B类试卷填空题详细参考解答

加符号使等式成立#亲子