考试前48小时：强化学习15题救命清单（附优先级排序）

我是一个粉刷匠2

2026-04-26 08:03 ·北京

凌晨两点的图书馆，你盯着三百页的课件发呆——强化学习考试就在后天，但蒙特卡洛和时序差分还在脑子里打架。

这篇东西写给所有临时抱佛脚的人。不是让你"理解一切"，是按分数权重给你划了15道题的优先级。照着这个顺序啃，能覆盖70%到80%的卷面。

10分大题（死也要拿下）

1. 画出RL框架图，解释五要素

Agent、Environment、State、Action、Reward的闭环关系。背一个例子：扫地机器人撞墙→调整方向→获得清洁面积奖励。

2. 贝尔曼方程推导

重点写递归形式：V(s) = R + γV(s')。解释为什么这叫"动态规划的灵魂"——当前值等于即时奖励加折扣后的未来值。

3. MDP五元组详解

(S, A, P, R, γ)每个符号的含义，加上马尔可夫性：下一状态只依赖当前状态，与历史无关。

4. 有模型 vs 无模型RL对比

画表格：Model-Based需要环境动力学P(s'|s,a)，Model-Free直接试错。各举一例：动态规划 vs Q-Learning。

5. 策略迭代 vs 值迭代

策略迭代=策略评估+策略改进交替；值迭代直接更新值函数。关键区别：前者显式维护策略，后者隐式。

6. Q-Learning更新规则

公式背熟：Q(s,a) ← Q(s,a) + α[r + γmaxQ(s',a') - Q(s,a)]。强调Off-policy：用max选动作，实际执行不一定。

7. SARSA与Q-Learning对比

On-policy的代价：SARSA用实际采取的下一步动作更新，更保守；Q-Learning更激进，收敛更快但风险高。

8. 时序差分(TD)学习

TD(0)的核心： bootstrapping——用当前估计更新当前估计。与蒙特卡洛的本质区别：不需要等回合结束。

5分中题（概念骨架）

9. 正强化 vs 负强化定义
10. 探索-利用困境，ε-贪心策略
11. 策略函数π(a|s) vs 值函数V(s)、Q(s,a)
12. 即时奖励r_t vs 累积回报G_t = Σγ^k r_{t+k+1}
13. 折扣因子γ∈[0,1]：γ=0近视，γ=1远视但难收敛

2-3分小题（送分题别丢）

14. 四定义：Agent（决策者）、Environment（交互对象）、Episode（一次试验）、State（环境快照）
15. 马尔可夫性：P(s_{t+1}|s_t) = P(s_{t+1}|s_1,...,s_t)

48小时执行建议

第1天：按优先级过前8道大题，每道手写一遍关键公式
第2天：中题小题快速过，重点看对比类表格
考前4小时：只看贝尔曼方程和Q-Learning更新规则

这15题不是"可能考"，是"几乎必考"。优先级已经标好，别在冷门推导上浪费时间。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴