凌晨两点的图书馆,你盯着三百页的课件发呆——强化学习考试就在后天,但蒙特卡洛和时序差分还在脑子里打架。
这篇东西写给所有临时抱佛脚的人。不是让你"理解一切",是按分数权重给你划了15道题的优先级。照着这个顺序啃,能覆盖70%到80%的卷面。
10分大题(死也要拿下)
1. 画出RL框架图,解释五要素
Agent、Environment、State、Action、Reward的闭环关系。背一个例子:扫地机器人撞墙→调整方向→获得清洁面积奖励。
2. 贝尔曼方程推导
重点写递归形式:V(s) = R + γV(s')。解释为什么这叫"动态规划的灵魂"——当前值等于即时奖励加折扣后的未来值。
3. MDP五元组详解
(S, A, P, R, γ)每个符号的含义,加上马尔可夫性:下一状态只依赖当前状态,与历史无关。
4. 有模型 vs 无模型RL对比
画表格:Model-Based需要环境动力学P(s'|s,a),Model-Free直接试错。各举一例:动态规划 vs Q-Learning。
5. 策略迭代 vs 值迭代
策略迭代=策略评估+策略改进交替;值迭代直接更新值函数。关键区别:前者显式维护策略,后者隐式。
6. Q-Learning更新规则
公式背熟:Q(s,a) ← Q(s,a) + α[r + γmaxQ(s',a') - Q(s,a)]。强调Off-policy:用max选动作,实际执行不一定。
7. SARSA与Q-Learning对比
On-policy的代价:SARSA用实际采取的下一步动作更新,更保守;Q-Learning更激进,收敛更快但风险高。
8. 时序差分(TD)学习
TD(0)的核心: bootstrapping——用当前估计更新当前估计。与蒙特卡洛的本质区别:不需要等回合结束。
5分中题(概念骨架)
9. 正强化 vs 负强化定义
10. 探索-利用困境,ε-贪心策略
11. 策略函数π(a|s) vs 值函数V(s)、Q(s,a)
12. 即时奖励r_t vs 累积回报G_t = Σγ^k r_{t+k+1}
13. 折扣因子γ∈[0,1]:γ=0近视,γ=1远视但难收敛
2-3分小题(送分题别丢)
14. 四定义:Agent(决策者)、Environment(交互对象)、Episode(一次试验)、State(环境快照)
15. 马尔可夫性:P(s_{t+1}|s_t) = P(s_{t+1}|s_1,...,s_t)
48小时执行建议
第1天:按优先级过前8道大题,每道手写一遍关键公式
第2天:中题小题快速过,重点看对比类表格
考前4小时:只看贝尔曼方程和Q-Learning更新规则
这15题不是"可能考",是"几乎必考"。优先级已经标好,别在冷门推导上浪费时间。
热门跟贴