可视化资源

Q-learning:从试错中学策略

价值迭代需要先知道环境的全部规则——每个动作会去哪、能拿多少奖励——然后用 Bellman 方程一轮轮算价值。可现实里,智能体往往什么规则都不知道,只能动手试。Q-learning 就是这样:智能体用 ε-greedy 在格子世界里乱逛,每走一步就用刚拿到的奖励做一次小修正(TD 更新),把“在某格做某动作有多好”记进一张 Q 表。试的次数够多,Q 表慢慢收敛,一条避开陷阱、通往宝藏的策略就自己浮现出来了——全程没碰过环境模型。点“自动训练”,看箭头怎样从一片混乱里连成一条路。

★ 是宝藏(+1),☠ 是陷阱(−1),深色是墙,虚线框是起点。蓝点是智能体当前位置。每格按它的最大 Q 值上色,等 Q 不再全是 0,就画出从这格出发的贪心箭头。智能体不知道任何规则,只从一次次 (状态, 动作, 奖励, 新状态) 里学。

第 0 集
0.20 0.50
无模型

不知道转移和奖励规则,只从一次次试错的 (s, a, r, s′) 样本里学,不需要环境模型。

TD 更新

用“即时奖励 + 打折后继的最大 Q”当作目标,自举地修正当前这一步的 Q 估计。

ε-greedy

大多数时候走当前最优、偶尔随机探索一下,才不会一头扎进次优、永远发现不了更好的路。