价值迭代

强化学习里的智能体要在一个环境里找“怎么走最划算”。价值迭代的想法是：先给每个格子算一个“价值”——从这里出发，最终能拿到多少回报。这个价值从终点（宝藏）一格格往外扩散，越靠近宝藏越值钱、越靠近陷阱越亏。算清楚每个格子的价值后，最优策略就一目了然：每步都朝价值更高的相邻格走。点“单步”，看价值怎样从右上角的宝藏扩散开、箭头怎样连成一条最优路线。

★ 是宝藏（+1），☠ 是陷阱（−1），深色是墙。每格上方小字是它的价值，箭头是从这格出发的最优走向。每走一格有一点点小代价，所以智能体会找最短的安全路线。

第 0 轮

价值从终点扩散

每轮：每格的价值 = 朝最好方向走一步能拿到的回报 + 打折后的下一格价值。一轮轮传开。

最优策略 = 爬价值

价值算好后，每步朝价值最高的相邻格走，就是最优路线——箭头自动连成路。

折扣因子 γ

远处的回报要打个折（×γ），既让价值能收敛，也体现“早拿到的回报更值钱”。