强化学习3年踩坑：农业微电网的确定性幻觉被一张图打破|光伏|农业微电网|新型储能|能源

去年夏天，一位做垂直农场的朋友找我吐槽：他们的AI调度系统理论上已经"最优"，却在用电高峰频繁触发环保监管警报。罚款单堆了7张，系统还在坚持"我的计算不会错"。

这不是算法偷懒，是整个行业对"不确定性"的集体失明。太阳能输出、作物需水量、电网规则——这些变量在传统强化学习里被压成确定性的数字，像把一团云塞进方盒子。

01 | 从一次失败实验开始的图网络探索

我的切入点很具体：一个50亩的智能农场，光伏、储能、灌溉、温控四张网各自为政。传统做法把每个设备当独立优化目标，结果光伏拼命发电时，储能已满、灌溉系统却在干等——三方数据从未真正对话。

图神经网络（Graph Neural Network，GNN）的启示在于：把农场设备变成节点，能量流动变成边，整个微电网就是一张动态变化的拓扑图。

但普通GNN有个盲区。它处理的是确定性的节点特征，而农业场景里，"下午3点能发多少电"本身就是概率分布——云层厚度、面板温度、逆变器老化程度都在抖动。你需要的是能吞下不确定性、再吐出新概率的架构。

这就是概率图神经网络（Probabilistic GNN，PGNN）的入场券。它把每个节点的特征嵌入成概率分布，而非单点数值。换句话说，系统不再断言"光伏出力=47kW"，而是说"有85%概率落在42-52kW区间"。

02 | 政策约束不是墙，是参与博弈的玩家

更棘手的发现藏在约束条件里。环保法规、并网规则、安全阈值——传统模型把它们当硬边界，触碰即违规。但真实运营中，这些规则本身带有弹性空间：夏季尖峰电价时段的排放上限可能临时调整，灌溉用水配额会随水库水位浮动。

我把这些约束重新建模为概率实体，让它们和能源变量在同一图结构里互相推断。

具体实现上，微电网被定义为动态图 $\mathcal{G}_t = (\mathcal{V}, \mathcal{E}_t, \mathcal{X}_t)$。节点集合 $\mathcal{V}$ 包含光伏阵列、储能电池、水泵、温控机组；边集合 $\mathcal{E}_t$ 随时间变化，反映能量流和信息流的实时连接；节点特征 $\mathcal{X}_t$ 则是概率嵌入向量。

优化目标写成带约束的期望累积奖励：

$$\max_{\pi} \mathbb{E}_{\tau \sim p(\tau|\pi)} \left[ \sum_{t=0}^{T} \gamma^t R(s_t, a_t) \right]$$

约束条件用概率形式表达：

$$\mathbb{P}(c_i(s_t, a_t) \leq 0) \geq 1 - \epsilon_i \quad \forall i, t$$

这里的 $\epsilon_i$ 是允许违反约束的风险阈值。不是绝对禁止越界，而是控制越界概率——这对农业场景更实用。比如灌溉用水约束，完全不断水可能减产，适度冒险反而总收益更高。