价值迭代
强化学习里的智能体要在一个环境里找“怎么走最划算”。价值迭代的想法是:先给每个格子算一个“价值”——从这里出发,最终能拿到多少回报。这个价值从终点(宝藏)一格格往外扩散,越靠近宝藏越值钱、越靠近陷阱越亏。算清楚每个格子的价值后,最优策略就一目了然:每步都朝价值更高的相邻格走。点“单步”,看价值怎样从右上角的宝藏扩散开、箭头怎样连成一条最优路线。
★ 是宝藏(+1),☠ 是陷阱(−1),深色是墙。每格上方小字是它的价值,箭头是从这格出发的最优走向。每走一格有一点点小代价,所以智能体会找最短的安全路线。
价值从终点扩散
每轮:每格的价值 = 朝最好方向走一步能拿到的回报 + 打折后的下一格价值。一轮轮传开。
最优策略 = 爬价值
价值算好后,每步朝价值最高的相邻格走,就是最优路线——箭头自动连成路。
折扣因子 γ
远处的回报要打个折(×γ),既让价值能收敛,也体现“早拿到的回报更值钱”。