Q-learning：从试错中学策略

价值迭代需要先知道环境的全部规则——每个动作会去哪、能拿多少奖励——然后用 Bellman 方程一轮轮算价值。可现实里，智能体往往什么规则都不知道，只能动手试。Q-learning 就是这样：智能体用 ε-greedy 在格子世界里乱逛，每走一步就用刚拿到的奖励做一次小修正（TD 更新），把“在某格做某动作有多好”记进一张 Q 表。试的次数够多，Q 表慢慢收敛，一条避开陷阱、通往宝藏的策略就自己浮现出来了——全程没碰过环境模型。点“自动训练”，看箭头怎样从一片混乱里连成一条路。

★ 是宝藏（+1），☠ 是陷阱（−1），深色是墙，虚线框是起点。蓝点是智能体当前位置。每格按它的最大 Q 值上色，等 Q 不再全是 0，就画出从这格出发的贪心箭头。智能体不知道任何规则，只从一次次 (状态, 动作, 奖励, 新状态) 里学。

第 0 集

探索率 ε 0.20 学习率 α 0.50

无模型

不知道转移和奖励规则，只从一次次试错的 (s, a, r, s′) 样本里学，不需要环境模型。

TD 更新

用“即时奖励 + 打折后继的最大 Q”当作目标，自举地修正当前这一步的 Q 估计。

ε-greedy

大多数时候走当前最优、偶尔随机探索一下，才不会一头扎进次优、永远发现不了更好的路。