凌晨两点的图书馆,你盯着三百页的课件发呆——强化学习考试就在后天,但蒙特卡洛和时序差分还在脑子里打架。

这篇东西写给所有临时抱佛脚的人。不是让你"理解一切",是按分数权重给你划了15道题的优先级。照着这个顺序啃,能覆盖70%到80%的卷面。

10分大题(死也要拿下)

1. 画出RL框架图,解释五要素

Agent、Environment、State、Action、Reward的闭环关系。背一个例子:扫地机器人撞墙→调整方向→获得清洁面积奖励。

2. 贝尔曼方程推导

重点写递归形式:V(s) = R + γV(s')。解释为什么这叫"动态规划的灵魂"——当前值等于即时奖励加折扣后的未来值。

3. MDP五元组详解

(S, A, P, R, γ)每个符号的含义,加上马尔可夫性:下一状态只依赖当前状态,与历史无关。

4. 有模型 vs 无模型RL对比

画表格:Model-Based需要环境动力学P(s'|s,a),Model-Free直接试错。各举一例:动态规划 vs Q-Learning。

5. 策略迭代 vs 值迭代

策略迭代=策略评估+策略改进交替;值迭代直接更新值函数。关键区别:前者显式维护策略,后者隐式。

6. Q-Learning更新规则

公式背熟:Q(s,a) ← Q(s,a) + α[r + γmaxQ(s',a') - Q(s,a)]。强调Off-policy:用max选动作,实际执行不一定。

7. SARSA与Q-Learning对比

On-policy的代价:SARSA用实际采取的下一步动作更新,更保守;Q-Learning更激进,收敛更快但风险高。

8. 时序差分(TD)学习

TD(0)的核心: bootstrapping——用当前估计更新当前估计。与蒙特卡洛的本质区别:不需要等回合结束。

5分中题(概念骨架)

9. 正强化 vs 负强化定义
10. 探索-利用困境,ε-贪心策略
11. 策略函数π(a|s) vs 值函数V(s)、Q(s,a)
12. 即时奖励r_t vs 累积回报G_t = Σγ^k r_{t+k+1}
13. 折扣因子γ∈[0,1]:γ=0近视,γ=1远视但难收敛

2-3分小题(送分题别丢)

14. 四定义:Agent(决策者)、Environment(交互对象)、Episode(一次试验)、State(环境快照)
15. 马尔可夫性:P(s_{t+1}|s_t) = P(s_{t+1}|s_1,...,s_t)

48小时执行建议

第1天:按优先级过前8道大题,每道手写一遍关键公式
第2天:中题小题快速过,重点看对比类表格
考前4小时:只看贝尔曼方程和Q-Learning更新规则

这15题不是"可能考",是"几乎必考"。优先级已经标好,别在冷门推导上浪费时间。